BR112021001904A2 - editores de nucleobase multiefetores e métodos de usar os mesmos para modificar uma sequência alvo de ácido nucleico - Google Patents

editores de nucleobase multiefetores e métodos de usar os mesmos para modificar uma sequência alvo de ácido nucleico Download PDF

Info

Publication number
BR112021001904A2
BR112021001904A2 BR112021001904-9A BR112021001904A BR112021001904A2 BR 112021001904 A2 BR112021001904 A2 BR 112021001904A2 BR 112021001904 A BR112021001904 A BR 112021001904A BR 112021001904 A2 BR112021001904 A2 BR 112021001904A2
Authority
BR
Brazil
Prior art keywords
cas9
polypeptide
domain
nucleobase
editor
Prior art date
Application number
BR112021001904-9A
Other languages
English (en)
Inventor
Nicole Gaudelli
John Evans
Original Assignee
Beam Therapeutics Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beam Therapeutics Inc. filed Critical Beam Therapeutics Inc.
Publication of BR112021001904A2 publication Critical patent/BR112021001904A2/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

EDITORES DE NUCLEOBASE MULTIEFETORESE MÉTODOS DE USAR OS MESMOS PARA MODIFICAR UMA SEQUÊNCIA ALVO DE ÁCIDO NUCLEICO. A presente invenção refere-se a um editor de nucleobase multiefetor capaz de induzir alterações em múltiplas diferentes bases dentro de um ácido nucleico alvo e métodos de usar tais editores.

Description

Relatório Descritivo da Patente de Invenção para “EDITO-
RES DE NUCLEOBASE MULTIEFETORES E MÉTODOS DE USAR OS MESMOS PARA MODIFICAR UMA SEQUÊNCIA ALVO DE ÁCIDO NUCLEICO”. REFERÊNCIA CRUZADA A PEDIDO RELACIONADO
[0001] Este pedido reivindica o benefício do Pedido de Patente Pro- visório dos EUA Número 62/714.550, depositado em 3 de agosto de 2018, todo o conteúdo do qual é aqui incorporado por referência.
FUNDAMENTO
[0002] Edição direcionada de sequências de ácido nucleico, por exemplo, a clivagem direcionada ou a introdução direcionada de uma modificação específica no DNA genômico é uma abordagem altamente promissora para o estudo da função de genes e também tem o potencial de fornecer novas terapias para doenças genéticas humanas. Os edito- res de base atualmente disponíveis incluem editores de base de citidina (por exemplo, BE4) que convertem o alvo C•G em T•A e editores de base de adenina (por exemplo, ABE7.10) que convertem o alvo A•T em G•C. Há uma necessidade na técnica de editores de base capazes de induzir novos tipos de modificações dentro de uma sequência alvo.
SUMÁRIO DA DIVULGAÇÃO
[0003] Como descrito abaixo, a presente invenção apresenta edito- res de nucleobase multiefetores capazes de induzir alterações em múl- tiplas diferentes bases dentro de um ácido nucleico alvo e métodos de usar tais editores.
[0004] Em um aspecto, a invenção apresenta um polipeptídeo editor de nucleobase multiefetor compreendendo uma adenosina desaminase, uma citidina desaminase, e/ou um domínio de DNA glicosilase, em que os domínios mencionados acima são fundidos a um domínio de ligação a polinucleotídeo, formando assim um editor de nucleobase capaz de induzir alterações em múltiplas diferentes bases em uma molécula de ácido nucleico.
Em uma modalidade, o polipeptídeo ainda compreende um ou mais Sinais de Localização Nuclear (NLS). Em outra modalidade, o NLS é uma NLS bipartida.
Em outra modalidade, o polipeptídeo com- preende uma NLS N-terminal e uma NLS C-terminal.
Em outra modali- dade, o polipeptídeo ainda compreende um ou mais inibidores de Uracil DNA glicosilase (UGI). Em outra modalidade, a adenosina desaminase é uma TadA desaminase.
Em outra modalidade, a TadA desaminase é uma adenosina desaminase modificada que não ocorre na natureza.
Em outra modalidade, o polipeptídeo compreende duas adenosina desami- nases que são as mesmas ou diferentes.
Em outra modalidade, as duas adenosina desaminases são capazes de formar hetero ou homodíme- ros.
Em outra modalidade, os domínios de adenosina desaminase são TadA7.10 e TadA de tipo selvagem.
Em outra modalidade, o domínio tendo atividade de ligação específica de sequência de ácido nucleico é uma proteína de ligação de DNA programável de ácido nucleico (napD- NAbp). Em outra modalidade, o domínio de napDNAbp compreende uma Cas9 de morte de nuclease (dCas9), uma Cas9 nickase (nCas9), ou uma Cas9 ativa de nuclease.
Em outra modalidade, a napDNAbp é selecionado do grupo que consiste em Cas9, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i ou fragmentos ativos dos mesmos.
Em certas moda- lidades, o domínio de napDNAbp contém um domínio de Cas9, um do- mínio de Cas12a, um domínio de Cas12b, um domínio de Cas12c, um domínio de Cas12d, um domínio de Cas12e, um domínio de Cas12f, um domínio de Cas12g, domínio de Cas12h, domínio de Cas12i, ou um do- mínio de argonauta.
Em outra modalidade, o domínio de napDNAbp compreende um domínio catalítico capaz de clivar o filamento de com- plemento reverso da sequência de ácido nucleico.
Em outra modali- dade, o domínio de napDNAbp não compreende um domínio catalítico capaz de clivar a sequência de ácido nucleico.
Em outra modalidade, a
Cas9 é dCas9 ou nCas9. Em outra modalidade, a citidina desaminase é citosina desaminase de lampreia-marinha (Petromyzon marinus) 1 (pCDM), ou citidina desaminase induzida por ativação (AICDA). Em ou- tra modalidade, o polipeptídeo ainda compreende um editor de nucleo- base abásico. Em outra modalidade, UGI é derivada de bacteriófago Bacillus subtilis PBS1 e inibe a atividade de UDG humana.
[0005] Em outro aspecto, a invenção apresenta um polipeptídeo editor de nucleobase multiefetor compreendendo um ou mais Sinais de Localização Nuclear (NLS), um napDNAbp, um inibidor de Uracil DNA glicosilase, uma adenosina desaminase, e uma citidina desaminase. Em uma modalidade, o polipeptídeo compreende dois NLS. Em uma moda- lidade, uma NLS é uma NLS bipartida. Em outra modalidade, o polipep- tídeo compreende dois inibidores de Uracil DNA glicosilase. Em outra modalidade, o polipeptídeo compreende duas adenosina desaminases e uma citidina desaminase, ou um editor de nucleobase abásico e uma citidina desaminase, ou um editor de nucleobase abásico e uma adeno- sina desaminase.
[0006] Em um aspecto, a invenção apresenta um polipeptídeo editor de nucleobase multiefetor compreendendo os seguintes domínios A-C, A-D, ou A-E: NH2-[A-B-C]-COOH, NH2-[A-B-C-D]-COOH, ou NH2-[A-B-C-D-E]-COOH em que A e C ou A, C, e E, cada um, compreende um ou mais dos seguintes: um domínio de adenosina desaminase ou um fragmento ativo do mesmo, um domínio de citidina desaminase ou um fragmento ativo do mesmo, um domínio de DNA glicosilase ou um fragmento ativo do mesmo; e em que B ou B e D, cada um, compreende um ou mais do- mínios tendo atividade de ligação específica de sequência de ácido nu- cleico.
Em uma modalidade, o polipeptídeo editor de nucleobase multi- efetor do aspecto anterior contém: NH2-[An-Bo-Cn]-COOH, NH2-[An-Bo-Cn-Do]-COOH, ou NH2-[An-Bo-Cp-Do-Eq]-COOH; em que A e C ou A, C, e, cada um, compreendem um ou mais dos seguintes: um domínio de adenosina desaminase ou um fragmento ativo do mesmo, um domínio de citidina desaminase ou um fragmento ativo do mesmo, um domínio de DNA glicosilase ou um fragmento ativo do mesmo; e em que n é um número inteiro: 1, 2, 3, 4, ou 5, em que p é um número inteiro: 0, 1, 2, 3, 4, ou 5; em que q é um número inteiro 0, 1, 2, 3, 4, ou 5; e em que B ou B e D cada um, compreendem um domínio tendo atividade de ligação específica de sequência de ácido nucleico; e em que o é um número inteiro: 1, 2, 3, 4, ou 5. Em uma modalidade, o polipeptídeo contém uma ou mais sequências de localização nuclear.
Em uma modalidade, o polipeptídeo contém pelo menos uma das refe- ridas sequências de localização nuclear está no terminal N ou terminal C.
Em uma modalidade, o polipeptídeo contém o Sinal de Localização Nuclear é um sinal de localização nuclear bipartido.
Em uma modali- dade, o polipeptídeo contém um ou mais domínios ligados por um li- gante.
Em uma modalidade, a adenosina desaminase é uma TadA de- saminase.
Em uma modalidade, a TadA é uma adenosina desaminase modificada que não ocorre na natureza. Em outra modalidade, o poli- peptídeo compreende dois domínios de adenosina desaminase que são os mesmos ou diferentes. Em uma modalidade, os dois domínios de adenosina desaminase são capazes de formar hetero ou homodímeros. Em uma modalidade, os domínios de adenosina desaminase são TadA7.10 e TadA de tipo selvagem. Em uma modalidade, o polipeptídeo contém um domínio tendo atividade de ligação específica de sequência de ácido nucleico é uma proteína de ligação de DNA programável de ácido nucleico (napDNAbp). Em uma modalidade, o domínio de napD- NAbp compreende uma Cas9 de morte de nuclease (dCas9), uma Cas9 nickase (nCas9), ou uma Cas9 ativa de nuclease. Em uma modalidade, a napDNAbp é selecionado do grupo que consiste em Cas9, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i, ou fragmentos ativos dos mesmos. Em uma modalidade, o domínio de napDNAbp compreende um domínio catalítico capaz de clivar o filamento de complemento re- verso da sequência de ácido nucleico. Em uma modalidade, o domínio de napDNAbp não compreende um domínio catalítico capaz de clivar a sequência de ácido nucleico. Em uma modalidade, a Cas9 é dCas9 ou nCas9. Em uma modalidade, a napDNAbp compreende um editor de nucleobase. Em uma modalidade, o editor de nucleobase é uma citidina desaminase ou uma adenosina desaminase. Em uma modalidade, a ci- tidina desaminase é citosina desaminase de lampreia-marinha (Petro- myzon marinus) 1 (pCDM), ou citidina desaminase induzida por ativação (AICDA). Em algumas modalidades, o polipeptídeo compreende 0, 1, ou 2 inibidores de uracil glicosilase ou fragmentos ativos dos mesmos.
[0007] Em outro aspecto, a invenção apresenta uma molécula de polinucleotídeo codificando o polipeptídeo editor de nucleobase multi- efetor de qualquer um dos aspectos prévios ou como delineado neste documento. Em uma modalidade, o polinucleotídeo é otimizado em có- don.
[0008] Em outro aspecto, a invenção apresenta um vetor de expres- são compreendendo uma molécula de polinucleotídeo de uma reivindi- cação prévia. Em uma modalidade, o vetor de expressão é um vetor de expressão de mamífero. Em uma modalidade, o vetor é um vetor viral selecionado do grupo que consiste em vírus adenoassociado (AAV), ve- tor retroviral, vetor adenoviral, vetor lentiviral, vetor do vírus Sendai, e vetor de herpesvírus. Em outra modalidade, o vetor compreende um promotor.
[0009] Em outro aspecto, a invenção apresenta uma célula compre- endendo o polinucleotídeo de qualquer aspecto prévio ou um vetor men- cionado acima. Em uma modalidade, a célula é uma célula bacteriana, célula vegetal, célula de inseto ou célula de mamífero.
[0010] Em outro aspecto, a invenção apresenta um complexo mole- cular compreendendo o polipeptídeo editor de nucleobase multiefetor de qualquer reivindicação prévia e um ou mais de um RNA guia, tracrRNA, ou molécula de DNA alvo.
[0011] Em outro aspecto, a invenção apresenta um kit compreen- dendo o polipeptídeo editor de nucleobase multiefetor de um aspecto prévio, o polinucleotídeo de um aspecto prévio, o vetor de um aspecto prévio ou o complexo molecular de um aspecto prévio.
[0012] Em outro aspecto, a invenção apresenta um método de edi- tar uma nucleobase de uma sequência de ácido nucleico, o método compreendendo contactar uma sequência de ácido nucleico com um editor de base compreendendo: o polipeptídeo editor de nucleobase multiefetor de qualquer aspecto prévio e converter uma primeira nucleo- base da sequência de DNA em uma segunda nucleobase. Em uma mo- dalidade, a primeira nucleobase é citosina e a segunda nucleobase é timina. Em uma modalidade, a primeira nucleobase é adenina e a se- gunda nucleobase é guanina. Em outra modalidade, o método ainda compreende converter uma terceira em uma quarta nucleobase. Em uma modalidade, a terceira nucleobase é guanina e a quarta nucleo- base é adenina. Em outra modalidade, a terceira nucleobase é timina e a quarta nucleobase é citosina. Em outra modalidade, a sequência de ácido nucleico codifica uma região de determinação de complementari- dade (CDR).
[0013] Em outro aspecto, a invenção apresenta um método de edi- tar uma sequência reguladora presente no genoma de uma célula, o método compreendendo contactar uma sequência reguladora com um editor de base compreendendo: o polipeptídeo editor de nucleobase multiefetor de qualquer aspecto prévio e converter uma primeira e se- gunda nucleobase da sequência de DNA em uma terceira e quarta nu- cleobase.
[0014] Ainda em outro aspecto, a invenção apresenta um método de editar um genoma de uma célula, o método compreendendo contac- tar o genoma com um editor de base compreendendo: o polipeptídeo editor de nucleobase multiefetor de qualquer aspecto prévio e converter uma primeira e segunda nucleobase da sequência de DNA em uma ter- ceira e quarta nucleobase. Em uma modalidade, o método ainda inclui caracterizar o efeito da edição no genoma.
[0015] Outros recursos e vantagens da invenção serão evidentes a partir da descrição detalhada e das reivindicações.
DEFINIÇÕES
[0016] As seguintes definições complementam às da técnica e são direcionadas ao pedido atual e não devem ser imputadas a qualquer caso relacionado ou não relacionado, por exemplo, a qualquer pedido ou patente de propriedade comum. Embora quaisquer métodos e mate- riais semelhantes ou equivalentes àqueles descritos neste documento possam ser usados na prática para testar a presente divulgação, os ma- teriais e métodos preferidos são descritos neste documento. Por conse- guinte, a terminologia usada neste documento tem a finalidade de des- crever modalidades particulares apenas, e não se destina a ser limi- tante.
[0017] A menos que definido de outra forma, todos os termos téc- nicos e científicos usados neste documento têm o significado comu- mente compreendido por um versado na técnica à qual esta invenção pertence. As seguintes referências fornecem ao versado na técnica uma definição geral de muitos dos termos usados nesta invenção: Singleton et al., Dictionary of Microbiology and Molecular Biology (2ª ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5ª Ed., R. Rieger et al. (eds.), Springer Verlag (1991); e Hale & Marham, The Harper Collins Dictionary of Bio- logy (1991). Conforme usados neste documento, os termos a seguir têm os significados atribuídos a eles abaixo, a menos que especificado de outra forma.
[0018] No presente pedido, o uso do singular inclui o plural, salvo indicação específica em contrário. Deve-se notar que, conforme usado no relatório descritivo, as formas singulares “um/uma” e “o/a” incluem referentes plurais, a menos que o contexto dite claramente o contrário. Neste pedido, o uso de “ou” significa “e/ou” salvo indicação em contrário. Além disso, o uso do termo “incluindo”, bem como outras formas, tais como “incluir”, “inclui” e “incluído”, não é limitante.
[0019] Conforme usado nesta especificação e reivindicação(ões), as palavras “compreendendo” (e qualquer forma de compreender, tal como “compreendem” e “compreende”), “tendo” (e qualquer forma de ter, tal como “têm” e “tem”), “incluindo” (e qualquer forma de incluir, tal como “inclui” e “incluem”) ou “contendo” (e qualquer forma de conter, tal como “contém” e “contêm”) são inclusivas ou abertas e não excluem elementos ou etapas de método adicionais não citados. É contemplado que qualquer modalidade discutida nesta especificação pode ser imple- mentada em relação a qualquer método ou composição da presente di- vulgação, e vice-versa. Além disso, as composições da presente divul- gação podem ser usadas para obter métodos da presente divulgação.
[0020] O termo “cerca de” ou “aproximadamente” significa dentro de uma faixa de erro aceitável para o valor particular, conforme deter- minado por alguém versado na técnica, que dependerá em parte de como o valor é medido ou determinado, ou seja, as limitações do sis- tema de medição. Por exemplo, “cerca de” pode significar dentro de 1 ou mais de 1 desvio padrão, conforme a prática da técnica. Alternativa- mente, “cerca de” pode significar uma faixa de até 20%, até 10%, até 5% ou até 1% de um determinado valor. Alternativamente, particular- mente com relação a sistemas ou processos biológicos, o termo pode significar dentro de uma ordem de magnitude, por exemplo, dentro de 5 vezes, dentro de 2 vezes de um valor. Quando valores particulares são descritos no pedido e reivindicações, a menos que indicado de outra forma, o termo “cerca de” significa dentro de um intervalo de erro acei- tável para o valor particular deve ser assumido.
[0021] Referência no relatório descritivo a “algumas modalidades”, “uma (artigo) modalidade”, “uma (numeral) modalidade” ou “outras mo- dalidades” significa que um determinado recurso, estrutura ou caracte- rística descrita em conexão com as modalidades é incluída em pelo me- nos algumas modalidades, mas não necessariamente em todas as mo- dalidades, das presentes divulgações.
[0022] Por “editor de base abásico”, entende-se um agente capaz de excisar uma nucleobase e inserir uma nucleobase de DNA (A, T, C ou G). Editores de base abásicos compreendem um polipeptídeo de gli- cosilase de ácido nucleico ou fragmento do mesmo. Em uma modali-
dade, a glicosilase de ácido nucleico é uma uracil DNA glicosilase hu- mana mutante compreendendo um Asp no aminoácido 204 (por exem- plo, substituindo um Asn no aminoácido 204) na sequência seguinte, ou a posição correspondente em uma uracil DNA glicosilase, e tendo ativi- dade de citosina-DNA glicosilase, ou fragmento ativo desta. Em uma modalidade, a glicosilase de ácido nucleico é uma uracil DNA glicosilase humana mutante compreendendo um Ala, Gly, Cys ou Ser no aminoá- cido 147 (por exemplo, substituindo um Tyr no aminoácido 147) na se- quência seguinte, ou posição correspondente em uma uracil DNA glico- silase, e tendo atividade de timina-DNA glicosilase, ou um fragmento ativo da mesma. A sequência de uracil-DNA glicosilase humana exem- plificativa, isoforma 1, segue: 1 mgvfclgpwg lgrklrtpgk gplqllsrlc gdhlqaipak ka- pagqeepg tppssplsae 61 qldriqrnka aallrlaarn vpvgfgeswk khlsgefgkp yfiklmgfva eerkhytvyp 121 pphqvftwtq mcdikdvkvv ilgqdpyhgp nqahglcfsv qrpvppppsl eniykelstd 181 iedfvhpghg dlsgwakqgv lllnavltvr ahqanshker gweqftdavv swlnqnsngl 241 vfllwgsyaq kkgsaidrkr hhvlqtahps plsvyrgffg crhfsktnel lqksgkkpid 301 wkel
[0023] A sequência de uracil-DNA glicosilase humana, isoforma 2, segue: 1 migqktlysf fspsparkrh apspepavqg tgvagvpees gdaaaipakk apagqeepgt 61 ppssplsaeq ldriqrnkaa allrlaarnv pvgfgeswkk hlsgefgkpy fiklmgfvae 121 erkhytvypp phqvftwtqm cdikdvkvvi lgqdpyhgpn qahglcfsvq rpvppppsle
181 niykelstdi edfvhpghgd lsgwakqgvl llnavltvra hqanshkerg weqftdavvs 241 wlnqnsnglv fllwgsyaqk kgsaidrkrh hvlqtahpsp lsvyrgffgc rhfsktnell 301 qksgkkpidw kel
[0024] Em outras modalidades, o editor abásico é qualquer um dos editores abásicos descritos em PCT/JP2015/080958 e US20170321210, que são incorporados neste documento por referên- cia. Em modalidades particulares, o editor abásico compreende uma mutação em uma posição mostrada na sequência acima em negrito com sublinhado ou em um aminoácido correspondente em qualquer outro editor básico ou uracil deglicosilase conhecido na técnica. Em uma mo- dalidade, o editor abásico compreende uma mutação em Y147, N204, L272 e/ou R276, ou posição correspondente. Em outra modalidade, o editor abásico compreende uma mutação Y147A ou Y147G, ou muta- ção correspondente. Em outra modalidade, o editor abásico compre- ende uma mutação N204D, ou correspondente. Em outra modalidade, o editor abásico compreende uma mutação L272A, ou correspondente. Em outra modalidade, o editor abásico compreende uma mutação R276E ou R276C, ou mutação correspondente.
[0025] Por “adenosina desaminase”, entende-se um polipeptídeo ou fragmento deste capaz de catalisar a desaminação hidrolítica de ade- nina ou adenosina. Em algumas modalidades, a desaminase ou domí- nio de desaminase é uma adenosina desaminase que catalisa a desa- minação hidrolítica de adenosina em inosina ou desóxi adenosina em desoxi-inosina. Em algumas modalidades, a adenosina desaminase ca- talisa a desaminação hidrolítica de adenina ou adenosina em ácido de- soxirribonucleico (DNA). As adenosina desaminases (por exemplo, ade- nosina desaminases modificadas, adenosina desaminases evoluídas) fornecidas neste documento podem ser de qualquer organismo, tal como uma bactéria.
[0026] Em algumas modalidades, a adenosina desaminase compre- ende uma alteração na seguinte sequência: MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAI- GLHDPTAHAEI-
MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTG AAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQK-
KAQSSTD (também denominada TadA*7.10).
[0027] Em algumas modalidades, TadA*7.10 compreende uma al- teração no aminoácido 82 ou 166. Em modalidades particulares, uma variante da sequência acima referida compreende uma ou mais das se- guintes alterações: Y147T, Y147R, Q154S, Y123H, V82S, T166R e Q154R. A alteração Y123H se refere à alteração H123Y em TadA*7.10 revertida em Y123H TadA(wt). Em outras modalidades, uma variante da sequência TadA*7.10 compreende uma combinação de alterações se- lecionadas do grupo que consiste em Y147R + Q154R +Y123H; Y147R + Q154R + I76Y; Y147R + Q154R + T166R; Y147T + Q154R; Y147T + Q154S; V82S + Q154S; e Y123H + Y147R + Q154R + I76Y. Ainda em outras modalidades, a variante de adenosina desaminase é um homo- dímero compreendendo dois domínios de adenosina desaminase, cada um tendo uma ou mais das seguintes alterações Y147T, Y147R, Q154S, Y123H, V82S, T166R, Q154R.
[0028] Em modalidades particulares, um domínio de adenosina de- saminase é selecionado de um dos seguintes: TadA de Staphylococcus aureus (S. aureus): MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNL- RETLQQPTAH AEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMS- RIPRVVYGADDPKGGCSGS LMNLLQQSNFNHRAIVDKGVLKEACSTLLTT-
FFKNLRANKKSTN TadA de Bacillus subtilis (B. subtilis):
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQR- SIAHAEML VIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLS- RVEKVVFGAFDPKGGCSGTLMN LLQEERFNHQAEVVSGVLEEECGGMLSA-
FFRELRKKKKAARKNLSE TadA de Salmonella typhimurium (S. typhimurium): MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHR- VIGEG WNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLY- VTLEPCVMCAGAMVHSRIG RVVFGARDAKTGAAGSLIDVLHHPG-
MNHRVEIIEGVLRDECATLLSDFFRMRRQEIK ALKKADRAEGAGPAV TadA de Shewanella putrefaciens (S. putrefaciens): MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTA- HAEI LCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIAR- VVYGARDEKTGAAGT VVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFF-
KRRRDEKKALKLAQRAQQGIE TadA de Haemophilus influenzae F3031 (H. influenzae): MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNL- SIVQSDPTΑΗ AEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHS- RIKRLVFGASDYK TGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLST-
FFQKRREEKKIEKALLKSLSDK TadA de Caulobacter crescentus (C. crescentus): MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNG- PIAAH DPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCA- GAISHARIGRVVFGADD PKGGAVVHGPKFFAQPTCHWRPEVTGGVLADE-
SADLLRGFFRARRKAKI TadA de Geobacter sulfurreducens (G. sulfurreducens): MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNL- REGSN DPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAII- LARLERVVFGCYDP KGGAAGSLYDLSADPRLNHQVRLSPGVCQEECG-
TMLSDFFRDLRRRKKAKATPALF IDERKVPPEP TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAI- GLHDPTAHAEI- MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTG AAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQK- KAQSSTD.
[0029] “Administrar” é aqui referido como fornecendo uma ou mais composições aqui descritas a um paciente ou indivíduo. A título de exemplo e sem limitação, a administração da composição, por exemplo, injeção, pode ser realizada por injeção intravenosa (i.v.), injeção subcu- tânea (s.c.), injeção intradérmica (i.d.), injeção intraperitoneal (i.p.), ou injeção intramuscular (i.m.). Uma ou mais dessas rotas podem ser em- pregadas. A administração parenteral pode ser, por exemplo, por inje- ção em bolus ou por perfusão gradual ao longo do tempo. Alternativa- mente, ou simultaneamente, a administração pode ser por via oral.
[0030] “Agente” significa qualquer composto químico de molécula pequena, anticorpo, molécula de ácido nucleico ou polipeptídeo, ou fra- gmentos dos mesmos.
[0031] “Alteração” significa uma mudança (aumento ou diminuição) nos níveis de expressão ou atividade de um gene ou polipeptídeo, con- forme detectado por métodos conhecidos da técnica padrão, tais como aqueles aqui descritos. Tal como aqui utilizado, uma alteração inclui uma alteração de 10% nos níveis de expressão, uma alteração de 25%, uma alteração de 40% e uma alteração de 50% ou maior nos níveis de expressão.
[0032] “Melhorar” significa diminuir, suprimir, atenuar, reduzir, inter- romper ou estabilizar o desenvolvimento ou progressão de uma doença.
[0033] “Análoga” significa uma molécula que não é idêntica, mas possui uma características funcionais ou estruturais análogas. Por exemplo, um polipeptídeo análogo mantém a atividade biológica de um polipeptídeo de ocorrência natural correspondente, embora tenha certas modificações bioquímicas que aumentam a função do análogo em rela- ção a um polipeptídeo de ocorrência natural. Tais modificações bioquí- micas poderiam aumentar a resistência à protease do análogo, a per- meabilidade da membrana ou a meia-vida, sem alterar, por exemplo, a ligação ao ligante. Um análogo pode incluir um aminoácido não natural.
[0034] Por “editor de base (BE)” ou “editor de nucleobase (NBE),” entende-se um agente que se liga a um polinucleotídeo e tem atividade modificadora de nucleobase. Em várias modalidades, o editor de base compreende um polipeptídeo modificador de nucleobase (por exemplo, uma ou mais desaminases) e um domínio de ligação de nucleotídeo programável de polinucleotídeo em conjunto com um polinucleotídeo guia (por exemplo, RNA guia). Em várias modalidades, o agente é um complexo biomolecular compreendendo um domínio de proteína tendo atividade de edição de base, ou seja, um domínio capaz de modificar uma base (por exemplo, A, T, C, G ou U) dentro de uma molécula de ácido nucleico (por exemplo, DNA). Em algumas modalidades, o domí- nio de ligação a DNA programável do polinucleotídeo é fundido ou ligado a um ou mais domínios de desaminase. Em uma modalidade, o agente é uma proteína de fusão compreendendo um ou mais domínios tendo atividade de edição de base. Em outra modalidade, os domínios de pro- teína tendo atividade de edição de base estão ligados ao RNA guia (por exemplo, via um motivo de ligação de RNA no RNA guia e um domínio de ligação de RNA fundido à desaminase). Em algumas modalidades, os domínios tendo atividade de edição de base são capazes de desa- minar uma base dentro de uma molécula de ácido nucleico. Em algumas modalidades, o editor de base é capaz de desaminar uma ou mais ba- ses dentro de uma molécula de DNA. Em algumas modalidades, o editor de base é capaz de desaminar uma citosina (C) ou uma adenosina (A) dentro do DNA. Em algumas modalidades, o editor de base é capaz de desaminar uma citosina (C) e uma adenosina (A) dentro do DNA. Em algumas modalidades, o editor de base é um editor de base de citidina (CBE). Em algumas modalidades, o editor de base é um editor de base de adenosina (ABE). Em algumas modalidades, o editor de base é um editor de base de adenosina (ABE) e um editor de base de citidina (CBE). Em algumas modalidades, o editor de base é uma proteína de fusão compreendendo uma adenosina desaminase e uma citidina desa- minase. Em algumas modalidades, o editor de base é uma proteína Cas9 fundida a uma adenosina desaminase e/ou uma citidina desami- nase. Em algumas modalidades, o editor de base é uma Cas9 nickase (nCas9) fundida a uma citidina desaminase e uma adenosina desami- nase. Em algumas modalidades, o editor de base é uma nuclease-Cas9 inativa (dCas9) fundida a uma adenosina desaminase. Em algumas mo- dalidades, a Cas9 é uma Cas9 permutante circular (por exemplo, spCas9 ou saCas9). Cas9s permutantes circulares são conhecidas na técnica e descritas, por exemplo, em Oakes et al., Cell 176, 254-267,
2019. Em algumas modalidades, o editor de base é fundido a um inibidor de reparo de excisão de base, por exemplo, um domínio UGI ou um domínio dISN. Em algumas modalidades, a proteína de fusão compre- ende uma Cas9 nickase fundida a uma desaminase e um inibidor de reparo de excisão de base, tal como um domínio UGI ou dISN. Em ou- tras modalidades, o editor de base é um editor de base abásico.
[0035] Em algumas modalidades, uma adenosina desaminase é de- senvolvida a partir de TadA. Em algumas modalidades, o domínio de ligação a DNA programável de polinucleotídeo é uma enzima associada a CRISPR (por exemplo, Cas ou Cpf1). Em algumas modalidades, o editor de base é uma Cas9 cataliticamente morta (dCas9) fundida a um domínio de desaminase. Em algumas modalidades, o editor de base é uma Cas9 nickase (nCas9) fundida a um domínio de desaminase. Em algumas modalidades, o editor de base é fundido a um inibidor de reparo de excisão de base (BER). Em algumas modalidades, o inibidor de re- paro de excisão de base é um inibidor de uracil DNA glicosilase (UGI). Em algumas modalidades, o inibidor de reparo de excisão de base é um inibidor de reparo de excisão de base de inosina. Detalhes de editores de base são descritos no Pedido PCT Internacional Nº. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632), cada um dos quais é aqui incorporado por referência em sua totalidade. Vide também Komor, A.C., et al., “Programmable edi- ting of a target base in genomic DNA without double-stranded DNA cle- avage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programma- ble base edititing od A•T to G•C in genomic DNA without DNA cleavage” Nature 551, 464-471 (2017); Komor, A.C., et al., “Improved base exci- sion repair inhibition and bacteriophage Mu Gam protein yields C:G-to- T:A base editors with higher efficiency and product purity” Science Ad- vances 3:eaao4774 (2017), e Rees, H.A., et al., “Base editing: precision chemistry on the genoma and transcriptome of living cells.” Nat Rev Ge- net. 2018 Dec;19(12):770-788. doi: 10.1038/s41576-018-0059-1, todo o conteúdo dos quais é aqui incorporado por referência.
[0036] A título de exemplo, um editor de base de citidina (CBE), con- forme usado nas composições de edição de base, sistemas e métodos descritos neste documento, tem a seguinte sequência de ácido nucleico (8877 pares de base), (Addgene, Watertown, MA .; Komor AC, et al ., 2017, Sci Adv., 30; 3(8):eaao4774. doi: 10.1126/sciadv.aao4774) con- forme fornecido abaixo. Sequências de polinucleotídeo tendo pelo me- nos 95% ou maior identidade com a sequência de ácido nucleico BE4 também são englobadas. 1 ATATGCCAAG TACGCCCCCT ATTGACGTCA ATGACGGTAA ATGG-
CCCGCC TGGCATTATG 61 CCCAGTACAT GACCTTATGG GACTTTCCTA CTTGGCAGTA CA-
TCTACGTA TTAGTCATCG
121 CTATTACCAT GGTGATGCGG TTTTGGCAGT ACATCAATGG GCG-
TGGATAG CGGTTTGACT 181 CACGGGGATT TCCAAGTCTC CACCCCATTG ACGTCAATGG
GAGTTTGTTT TGGCACCAAA 241 ATCAACGGGA CTTTCCAAAA TGTCGTAACA ACTCCGCCCC
ATTGACGCAA ATGGGCGGTA 301 GGCGTGTACG GTGGGAGGTC TATATAAGCA GAGCTGGTTT AG-
TGAACCGT CAGATCCGCT 361 AGAGATCCGC GGCCGCTAAT ACGACTCACT ATAGGGAGAG
CCGCCACCAT GAGCTCAGAG 421 ACTGGCCCAG TGGCTGTGGA CCCCACATTG AGACGGCGGA
TCGAGCCCCA TGAGTTTGAG 481 GTATTCTTCG ATCCGAGAGA GCTCCGCAAG GAGACCTGCC
TGCTTTACGA AATTAATTGG 541 GGGGGCCGGC ACTCCATTTG GCGACATACA TCACAGAACA
CTAACAAGCA CGTCGAAGTC 601 AACTTCATCG AGAAGTTCAC GACAGAAAGA TATTTCTGTC
CGAACACAAG GTGCAGCATT 661 ACCTGGTTTC TCAGCTGGAG CCCATGCGGC GAATGTAGTA
GGGCCATCAC TGAATTCCTG 721 TCAAGGTATC CCCACGTCAC TCTGTTTATT TACATCGCAA
GGCTGTACCA CCACGCTGAC 781 CCCCGCAATC GACAAGGCCT GCGGGATTTG ATCTCTTCAG
GTGTGACTAT CCAAATTATG 841 ACTGAGCAGG AGTCAGGATA CTGCTGGAGA AACTTTGTGA AT-
TATAGCCC GAGTAATGAA 901 GCCCACTGGC CTAGGTATCC CCATCTGTGG GTACGACTGT
ACGTTCTTGA ACTGTACTGC 961 ATCATACTGG GCCTGCCTCC TTGTCTCAAC ATTCTGAGAA
GGAAGCAGCC ACAGCTGACA 1021 TTCTTTACCA TCGCTCTTCA GTCTTGTCAT TACCAGCGAC
TGCCCCCACA CATTCTCTGG 1081 GCCACCGGGT TGAAATCTGG TGGTTCTTCT GGTGGTTCTA
GCGGCAGCGA GACTCCCGGG 1141 ACCTCAGAGT CCGCCACACC CGAAAGTTCT GGTGGTTCTT
CTGGTGGTTC TGATAAAAAG 1201 TATTCTATTG GTTTAGCCAT CGGCACTAAT TCCGTTGGAT
GGGCTGTCAT AACCGATGAA 1261 TACAAAGTAC CTTCAAAGAA ATTTAAGGTG TTGGGGAACA CA-
GACCGTCA TTCGATTAAA 1321 AAGAATCTTA TCGGTGCCCT CCTATTCGAT AGTGGCGAAA
CGGCAGAGGC GACTCGCCTG 1381 AAACGAACCG CTCGGAGAAG GTATACACGT CGCAAGAACC GA-
ATATGTTA CTTACAAGAA 1441 ATTTTTAGCA ATGAGATGGC CAAAGTTGAC GATTCTTTCT
TTCACCGTTT GGAAGAGTCC 1501 TTCCTTGTCG AAGAGGACAA GAAACATGAA CGGCACCCCA
TCTTTGGAAA CATAGTAGAT 1561 GAGGTGGCAT ATCATGAAAA GTACCCAACG ATTTATCACC
TCAGAAAAAA GCTAGTTGAC 1621 TCAACTGATA AAGCGGACCT GAGGTTAATC TACTTGGCTC
TTGCCCATAT GATAAAGTTC 1681 CGTGGGCACT TTCTCATTGA GGGTGATCTA AATCCGGACA AC-
TCGGATGT CGACAAACTG 1741 TTCATCCAGT TAGTACAAAC CTATAATCAG TTGTTTGAAG
AGAACCCTAT AAATGCAAGT 1801 GGCGTGGATG CGAAGGCTAT TCTTAGCGCC CGCCTCTCTA AA-
TCCCGACG GCTAGAAAAC 1861 CTGATCGCAC AATTACCCGG AGAGAAGAAA AATGGGTTGT
TCGGTAACCT TATAGCGCTC 1921 TCACTAGGCC TGACACCAAA TTTTAAGTCG AACTTCGACT
TAGCTGAAGA TGCCAAATTG
1981 CAGCTTAGTA AGGACACGTA CGATGACGAT CTCGACAATC
TACTGGCACA AATTGGAGAT 2041 CAGTATGCGG ACTTATTTTT GGCTGCCAAA AACCTTAGCG
ATGCAATCCT CCTATCTGAC 2101 ATACTGAGAG TTAATACTGA GATTACCAAG GCGCCGTTAT
CCGCTTCAAT GATCAAAAGG 2161 TACGATGAAC ATCACCAAGA CTTGACACTT CTCAAGGCCC
TAGTCCGTCA GCAACTGCCT 2221 GAGAAATATA AGGAAATATT CTTTGATCAG TCGAAAAACG
GGTACGCAGG TTATATTGAC 2281 GGCGGAGCGA GTCAAGAGGA ATTCTACAAG TTTATCAAAC
CCATATTAGA GAAGATGGAT 2341 GGGACGGAAG AGTTGCTTGT AAAACTCAAT CGCGAAGATC
TACTGCGAAA GCAGCGGACT 2401 TTCGACAACG GTAGCATTCC ACATCAAATC CACTTAGGCG AA-
TTGCATGC TATACTTAGA 2461 AGGCAGGAGG ATTTTTATCC GTTCCTCAAA GACAATCGTG
AAAAGATTGA GAAAATCCTA 2521 ACCTTTCGCA TACCTTACTA TGTGGGACCC CTGGCCCGAG
GGAACTCTCG GTTCGCATGG 2581 ATGACAAGAA AGTCCGAAGA AACGATTACT CCATGGAATT
TTGAGGAAGT TGTCGATAAA 2641 GGTGCGTCAG CTCAATCGTT CATCGAGAGG ATGACCAACT
TTGACAAGAA TTTACCGAAC 2701 GAAAAAGTAT TGCCTAAGCA CAGTTTACTT TACGAGTATT
TCACAGTGTA CAATGAACTC 2761 ACGAAAGTTA AGTATGTCAC TGAGGGCATG CGTAAACCCG
CCTTTCTAAG CGGAGAACAG 2821 AAGAAAGCAA TAGTAGATCT GTTATTCAAG ACCAACCGCA
AAGTGACAGT TAAGCAATTG 2881 AAAGAGGACT ACTTTAAGAA AATTGAATGC TTCGATTCTG
TCGAGATCTC CGGGGTAGAA 2941 GATCGATTTA ATGCGTCACT TGGTACGTAT CATGACCTCC
TAAAGATAAT TAAAGATAAG 3001 GACTTCCTGG ATAACGAAGA GAATGAAGAT ATCTTAGAAG
ATATAGTGTT GACTCTTACC 3061 CTCTTTGAAG ATCGGGAAAT GATTGAGGAA AGACTAAAAA CA-
TACGCTCA CCTGTTCGAC 3121 GATAAGGTTA TGAAACAGTT AAAGAGGCGT CGCTATACGG
GCTGGGGACG ATTGTCGCGG 3181 AAACTTATCA ACGGGATAAG AGACAAGCAA AGTGGTAAAA
CTATTCTCGA TTTTCTAAAG 3241 AGCGACGGCT TCGCCAATAG GAACTTTATG CAGCTGATCC
ATGATGACTC TTTAACCTTC 3301 AAAGAGGATA TACAAAAGGC ACAGGTTTCC GGACAAGGGG AC-
TCATTGCA CGAACATATT 3361 GCGAATCTTG CTGGTTCGCC AGCCATCAAA AAGGGCATAC
TCCAGACAGT CAAAGTAGTG 3421 GATGAGCTAG TTAAGGTCAT GGGACGTCAC AAACCGGAAA
ACATTGTAAT CGAGATGGCA 3481 CGCGAAAATC AAACGACTCA GAAGGGGCAA AAAAACAGTC
GAGAGCGGAT GAAGAGAATA 3541 GAAGAGGGTA TTAAAGAACT GGGCAGCCAG ATCTTAAAGG AG-
CATCCTGT GGAAAATACC 3601 CAATTGCAGA ACGAGAAACT TTACCTCTAT TACCTACAAA
ATGGAAGGGA CATGTATGTT 3661 GATCAGGAAC TGGACATAAA CCGTTTATCT GATTACGACG
TCGATCACAT TGTACCCCAA 3721 TCCTTTTTGA AGGACGATTC AATCGACAAT AAAGTGCTTA
CACGCTCGGA TAAGAACCGA 3781 GGGAAAAGTG ACAATGTTCC AAGCGAGGAA GTCGTAAAGA AA-
ATGAAGAA CTATTGGCGG
3841 CAGCTCCTAA ATGCGAAACT GATAACGCAA AGAAAGTTCG
ATAACTTAAC TAAAGCTGAG 3901 AGGGGTGGCT TGTCTGAACT TGACAAGGCC GGATTTATTA
AACGTCAGCT CGTGGAAACC 3961 CGCCAAATCA CAAAGCATGT TGCACAGATA CTAGATTCCC GA-
ATGAATAC GAAATACGAC 4021 GAGAACGATA AGCTGATTCG GGAAGTCAAA GTAATCACTT
TAAAGTCAAA ATTGGTGTCG 4081 GACTTCAGAA AGGATTTTCA ATTCTATAAA GTTAGGGAGA
TAAATAACTA CCACCATGCG 4141 CACGACGCTT ATCTTAATGC CGTCGTAGGG ACCGCACTCA
TTAAGAAATA CCCGAAGCTA 4201 GAAAGTGAGT TTGTGTATGG TGATTACAAA GTTTATGACG
TCCGTAAGAT GATCGCGAAA 4261 AGCGAACAGG AGATAGGCAA GGCTACAGCC AAATACTTCT
TTTATTCTAA CATTATGAAT 4321 TTCTTTAAGA CGGAAATCAC TCTGGCAAAC GGAGAGATAC
GCAAACGACC TTTAATTGAA 4381 ACCAATGGGG AGACAGGTGA AATCGTATGG GATAAGGGCC
GGGACTTCGC GACGGTGAGA 4441 AAAGTTTTGT CCATGCCCCA AGTCAACATA GTAAAGAAAA
CTGAGGTGCA GACCGGAGGG 4501 TTTTCAAAGG AATCGATTCT TCCAAAAAGG AATAGTGATA AG-
CTCATCGC TCGTAAAAAG 4561 GACTGGGACC CGAAAAAGTA CGGTGGCTTC GATAGCCCTA CA-
GTTGCCTA TTCTGTCCTA 4621 GTAGTGGCAA AAGTTGAGAA GGGAAAATCC AAGAAACTGA AG-
TCAGTCAA AGAATTATTG 4681 GGGATAACGA TTATGGAGCG CTCGTCTTTT GAAAAGAACC
CCATCGACTT CCTTGAGGCG 4741 AAAGGTTACA AGGAAGTAAA AAAGGATCTC ATAATTAAAC
TACCAAAGTA TAGTCTGTTT 4801 GAGTTAGAAA ATGGCCGAAA ACGGATGTTG GCTAGCGCCG
GAGAGCTTCA AAAGGGGAAC 4861 GAACTCGCAC TACCGTCTAA ATACGTGAAT TTCCTGTATT
TAGCGTCCCA TTACGAGAAG 4921 TTGAAAGGTT CACCTGAAGA TAACGAACAG AAGCAACTTT
TTGTTGAGCA GCACAAACAT 4981 TATCTCGACG AAATCATAGA GCAAATTTCG GAATTCAGTA
AGAGAGTCAT CCTAGCTGAT 5041 GCCAATCTGG ACAAAGTATT AAGCGCATAC AACAAGCACA
GGGATAAACC CATACGTGAG 5101 CAGGCGGAAA ATATTATCCA TTTGTTTACT CTTACCAACC
TCGGCGCTCC AGCCGCATTC 5161 AAGTATTTTG ACACAACGAT AGATCGCAAA CGATACACTT
CTACCAAGGA GGTGCTAGAC 5221 GCGACACTGA TTCACCAATC CATCACGGGA TTATATGAAA
CTCGGATAGA TTTGTCACAG 5281 CTTGGGGGTG ACTCTGGTGG TTCTGGAGGA TCTGGTGGTT
CTACTAATCT GTCAGATATT 5341 ATTGAAAAGG AGACCGGTAA GCAACTGGTT ATCCAGGAAT
CCATCCTCAT GCTCCCAGAG 5401 GAGGTGGAAG AAGTCATTGG GAACAAGCCG GAAAGCGATA
TACTCGTGCA CACCGCCTAC 5461 GACGAGAGCA CCGACGAGAA TGTCATGCTT CTGACTAGCG
ACGCCCCTGA ATACAAGCCT 5521 TGGGCTCTGG TCATACAGGA TAGCAACGGT GAGAACAAGA
TTAAGATGCT CTCTGGTGGT 5581 TCTGGAGGAT CTGGTGGTTC TACTAATCTG TCAGATATTA
TTGAAAAGGA GACCGGTAAG 5641 CAACTGGTTA TCCAGGAATC CATCCTCATG CTCCCAGAGG
AGGTGGAAGA AGTCATTGGG
5701 AACAAGCCGG AAAGCGATAT ACTCGTGCAC ACCGCCTACG
ACGAGAGCAC CGACGAGAAT 5761 GTCATGCTTC TGACTAGCGA CGCCCCTGAA TACAAGCCTT
GGGCTCTGGT CATACAGGAT 5821 AGCAACGGTG AGAACAAGAT TAAGATGCTC TCTGGTGGTT
CTCCCAAGAA GAAGAGGAAA 5881 GTCTAACCGG TCATCATCAC CATCACCATT GAGTTTAAAC
CCGCTGATCA GCCTCGACTG 5941 TGCCTTCTAG TTGCCAGCCA TCTGTTGTTT GCCCCTCCCC
CGTGCCTTCC TTGACCCTGG 6001 AAGGTGCCAC TCCCACTGTC CTTTCCTAAT AAAATGAGGA AA-
TTGCATCG CATTGTCTGA 6061 GTAGGTGTCA TTCTATTCTG GGGGGTGGGG TGGGGCAGGA CA-
GCAAGGGG GAGGATTGGG 6121 AAGACAATAG CAGGCATGCT GGGGATGCGG TGGGCTCTAT
GGCTTCTGAG GCGGAAAGAA 6181 CCAGCTGGGG CTCGATACCG TCGACCTCTA GCTAGAGCTT
GGCGTAATCA TGGTCATAGC 6241 TGTTTCCTGT GTGAAATTGT TATCCGCTCA CAATTCCACA CA-
ACATACGA GCCGGAAGCA 6301 TAAAGTGTAA AGCCTAGGGT GCCTAATGAG TGAGCTAACT CA-
CATTAATT GCGTTGCGCT 6361 CACTGCCCGC TTTCCAGTCG GGAAACCTGT CGTGCCAGCT
GCATTAATGA ATCGGCCAAC 6421 GCGCGGGGAG AGGCGGTTTG CGTATTGGGC GCTCTTCCGC
TTCCTCGCTC ACTGACTCGC 6481 TGCGCTCGGT CGTTCGGCTG CGGCGAGCGG TATCAGCTCA
CTCAAAGGCG GTAATACGGT 6541 TATCCACAGA ATCAGGGGAT AACGCAGGAA AGAACATGTG AG-
CAAAAGGC CAGCAAAAGG 6601 CCAGGAACCG TAAAAAGGCC GCGTTGCTGG CGTTTTTCCA
TAGGCTCCGC CCCCCTGACG 6661 AGCATCACAA AAATCGACGC TCAAGTCAGA GGTGGCGAAA
CCCGACAGGA CTATAAAGAT 6721 ACCAGGCGTT TCCCCCTGGA AGCTCCCTCG TGCGCTCTCC
TGTTCCGACC CTGCCGCTTA 6781 CCGGATACCT GTCCGCCTTT CTCCCTTCGG GAAGCGTGGC
GCTTTCTCAT AGCTCACGCT 6841 GTAGGTATCT CAGTTCGGTG TAGGTCGTTC GCTCCAAGCT
GGGCTGTGTG CACGAACCCC 6901 CCGTTCAGCC CGACCGCTGC GCCTTATCCG GTAACTATCG
TCTTGAGTCC AACCCGGTAA 6961 GACACGACTT ATCGCCACTG GCAGCAGCCA CTGGTAACAG
GATTAGCAGA GCGAGGTATG 7021 TAGGCGGTGC TACAGAGTTC TTGAAGTGGT GGCCTAACTA
CGGCTACACT AGAAGAACAG 7081 TATTTGGTAT CTGCGCTCTG CTGAAGCCAG TTACCTTCGG
AAAAAGAGTT GGTAGCTCTT 7141 GATCCGGCAA ACAAACCACC GCTGGTAGCG GTGGTTTTTT
TGTTTGCAAG CAGCAGATTA 7201 CGCGCAGAAA AAAAGGATCT CAAGAAGATC CTTTGATCTT
TTCTACGGGG TCTGACGCTC 7261 AGTGGAACGA AAACTCACGT TAAGGGATTT TGGTCATGAG AT-
TATCAAAA AGGATCTTCA 7321 CCTAGATCCT TTTAAATTAA AAATGAAGTT TTAAATCAAT
CTAAAGTATA TATGAGTAAA 7381 CTTGGTCTGA CAGTTACCAA TGCTTAATCA GTGAGGCACC TA-
TCTCAGCG ATCTGTCTAT 7441 TTCGTTCATC CATAGTTGCC TGACTCCCCG TCGTGTAGAT
AACTACGATA CGGGAGGGCT 7501 TACCATCTGG CCCCAGTGCT GCAATGATAC CGCGAGACCC
ACGCTCACCG GCTCCAGATT
7561 TATCAGCAAT AAACCAGCCA GCCGGAAGGG CCGAGCGCAG
AAGTGGTCCT GCAACTTTAT 7621 CCGCCTCCAT CCAGTCTATT AATTGTTGCC GGGAAGCTAG AG-
TAAGTAGT TCGCCAGTTA 7681 ATAGTTTGCG CAACGTTGTT GCCATTGCTA CAGGCATCGT
GGTGTCACGC TCGTCGTTTG 7741 GTATGGCTTC ATTCAGCTCC GGTTCCCAAC GATCAAGGCG AG-
TTACATGA TCCCCCATGT 7801 TGTGCAAAAA AGCGGTTAGC TCCTTCGGTC CTCCGATCGT
TGTCAGAAGT AAGTTGGCCG 7861 CAGTGTTATC ACTCATGGTT ATGGCAGCAC TGCATAATTC
TCTTACTGTC ATGCCATCCG 7921 TAAGATGCTT TTCTGTGACT GGTGAGTACT CAACCAAGTC
ATTCTGAGAA TAGTGTATGC 7981 GGCGACCGAG TTGCTCTTGC CCGGCGTCAA TACGGGATAA
TACCGCGCCA CATAGCAGAA 8041 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG
AAAACTCTCA AGGATCTTAC 8101 CGCTGTTGAG ATCCAGTTCG ATGTAACCCA CTCGTGCACC CA-
ACTGATCT TCAGCATCTT 8161 TTACTTTCAC CAGCGTTTCT GGGTGAGCAA AAACAGGAAG
GCAAAATGCC GCAAAAAAGG 8221 GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT
CCTTTTTCAA TATTATTGAA 8281 GCATTTATCA GGGTTATTGT CTCATGAGCG GATACATATT
TGAATGTATT TAGAAAAATA 8341 AACAAATAGG GGTTCCGCGC ACATTTCCCC GAAAAGTGCC AC-
CTGACGTC GACGGATCGG 8401 GAGATCGATC TCCCGATCCC CTAGGGTCGA CTCTCAGTAC AA-
TCTGCTCT GATGCCGCAT 8461 AGTTAAGCCA GTATCTGCTC CCTGCTTGTG TGTTGGAGGT
CGCTGAGTAG TGCGCGAGCA 8521 AAATTTAAGC TACAACAAGG CAAGGCTTGA CCGACAATTG CA-
TGAAGAAT CTGCTTAGGG 8581 TTAGGCGTTT TGCGCTGCTT CGCGATGTAC GGGCCAGATA
TACGCGTTGA CATTGATTAT 8641 TGACTAGTTA TTAATAGTAA TCAATTACGG GGTCATTAGT
TCATAGCCCA TATATGGAGT 8701 TCCGCGTTAC ATAACTTACG GTAAATGGCC CGCCTGGCTG AC-
CGCCCAAC GACCCCCGCC 8761 CATTGACGTC AATAATGACG TATGTTCCCA TAGTAACGCC AA-
TAGGGACT TTCCATTGAC 8821 GTCAATGGGT GGAGTATTTA CGGTAAACTG CCCACTTGGC AG-
TACATCAA GTGTATC
[0037] Em algumas modalidades, o editor de base de citidina é BE4 tendo uma sequência de ácido nucleico selecionada de um dos seguin- tes: Sequência de ácido nucleico de BE4 original: ATGagctcagagactggcccagtggctgtggaccccacattgagacggcg- gatcgag- ccccatgagtttgaggtattcttcgatccgagagagctccgcaaggagacct gcctgctttacgaaattaattgggggggccggcactccatttggcgacata- catcacagaa- cactaacaagcacgtcgaagtcaacttcatcgagaagttcacgacagaaaga tatttctgtccgaacacaaggtgcagcattacctggtttctcagctggag- ccgcgaatgtag- tagggccatcactgaattcctgtcaaggtatccccacgtcactctgtttatt tacatcgcaaggctgtaccaccacgctgacccccgcaatcgacaaggcctg- cggga- tttgatctcttcaggtgtgactatccaaattatgactgagcaggagtcagga tactgctggagaaactttgtgaattatagcccgagtaatgaagcccactgg-
cctaggta- tccccatctgtgggtacgactgtacgttcttgaactgtactgcatcatactg ggcctgcctccttgtctcaacattctgagaaggaagcagccacagctgaca- ttctttac- catcgctcttcagtcttgtcattaccagcgactgcccccacacattctctgg gccaccgggttgaaatctggtggttcttctggtggttctagcggcagcga- gactcccgggac- ctcagagtccgccacacccgaaagttctggtggttcttctggtggttctgat aaaaagtattctattggtttagccatcggcactaattccgttggatggg- ctgtcataac- cgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagac cgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtgg- cgaaacggca- gaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaaga accgaatatgttacttacaagaaatttttagcaatgagatggccaaag- ttgacgattcttt- ctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaa cggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaag- tac- ccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcgg acctgaggttaatctacttggctcttgcccatatgataaagttccgtggg- cactttct- cattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatc cagttagtacaaacctataatcagttgtttgaagagaaccctataaatg- caagtggcgtgga- tgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaac ctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaacct- tatagcgctct- cactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgc caaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctac-
tggcacaaattg- gagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaat cctcctatctgacatactgagagttaatactgagattaccaaggcgccgt- tatccgcttcaa- tgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccct agtccgtcagcaactgcctgagaaatataaggaaatattctttgatcag- tcgaaaaacggg- tacgcaggttatattgacggcggagcgagtcaagaggaattctacaagttta tcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaac- tcaatcgcgaa- gatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaa tccacttaggcgaattgcatgctatacttagaaggcaggaggattttta- tccgttcctcaaa- gacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatg tgggacccctggcccgagggaactctcggttcgcatggatgacaagaaag- tccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtg cgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttac- cgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagt gtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaac- ccgcctttc- taagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccg caaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatg- cttcgattctg- tcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatca tgacctcctaaagataattaaagataaggacttcctggataacgaagagaa- tgaagatatct- tagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattga ggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaaca- gttaaagagg- cgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataa gagacaagcaaagtggtaaaactattctcgattttctaaagagcgacgg- cttcgccaatag- gaactttatgcagctgatccatgatgactctttaaccttcaaagaggatata caaaaggcacaggtttccggacaaggggactcattgcacgaacatattg- cgaatcttgctgg- ttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgag ctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgaga- tggcacgcgaaaa- tcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaata gaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtg- gaaaataccca- attgcagaacgagaaactttacctctattacctacaaaatggaagggacatg tatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgat- cacattgtac- cccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctc ggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcg- taaagaaaa- tgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaa gttcgataacttaactaaagctgagaggggtggcttgtctgaacttga- caaggccggattta- ttaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagat actagattcccgaatgaatacgaaatacgacgagaacgataagctgatt- cgggaagtcaaag- taatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaatt ctataaagttagggagataaataactaccaccatgcgcacgacgcttatct- taatgccgtcg- tagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgta tggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaaca- ggagatagg- caaggctacagccaaatacttcttttattctaacattatgaatttctttaag acggaaatcactctggcaaacggagagatacgcaaacgacctttaa- ttgaaaccaatgggga- gacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaa gttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagac- cggagggtttt- caaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaa aaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttg- cctattctgtcc- tagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaa agaattattggggataacgattatggagcgctcgtcttttgaaaagaac- cccatcgactt- ccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaacta ccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggc- tagcgccgga- gagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcc tgtatttagcgtcccattacgagaagttgaaaggttcacctgaaga- taacgaacagaag- caactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaa tttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaag- tattaagcgca- tacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatcc atttgtttactcttaccaacctcggcgctccagccgcattcaagta- ttttgacacaacgata- gatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattc accaatccatcacgggattatatgaaactcggatagatttgtcacag- cttgggggtgac- tctggtggttctggaggatctggtggttctactaatctgtcagatattattg aaaaggagaccggtaagcaactggttatccaggaatccatcctcatg- ctcccagaggaggtg- gaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcct acgacgagagcaccgacgagaatgtcatgcttctgactagcgacg- cccctgaatacaag- ccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgc tctctggtggttctggaggatctggtggttctactaatctgtcagatatta- ttgaaaagga- gaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggag gtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacac- cgcctacga- cgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatac aagccttgggctctggtcatacaggatagcaacggtgagaacaagattaa- gatgctctctgg- tggttctAAAAGGACGGCGGACGGATCAGAGTTCGAGAGTCCGAAAAAAAAA CGAAAGGTCGAAtaa Sequência de ácido nucleico de otimização de códon de BE4 1: ATGTCATCCGAAACCGGGCCAGTGGCCGTAGACCCAACACTCAGGAGGCG- GATAGAAC-
CCCATGAGTTTGAAGTGTTCTTCGACCCCAGAGAGCTGCGCAAAGAGACTTG CCTCCTGTATGAAATAAATTGGGGGGGTCGCCATTCAATTTGGAGGCACAC- TAGCCAGAATA- CTAACAAACACGTGGAGGTAAATTTTATCGAGAAGTTTACCACCGAAAGATA CTTTTGCCCCAATACACGGTGTTCAATTACCTGGTTTCTGTCATGGAG- TCCATGTGGAGAA- TGTAGTAGAGCGATAACTGAGTTCCTGTCTCGATATCCTCACGTCACGTTGT TTATATACATCGCTCGGCTTTATCACCATGCGGACCCGCGGAACAGG- CAAGGTCTTCGGGAC- CTCATATCCTCTGGGGTGACCATCCAGATAATGACGGAGCAAGAGAGCGGAT ACTGCTGGCGAAACTTTGTTAACTACAGCCCAAGCAATGAGGCACACTGG- CCTAGATATCCG- CATCTCTGGGTTCGACTGTATGTCCTTGAACTGTACTGCATAATTCTGGGAC TTCCGCCATGCTTGAACATTCTGCGGCGGAAACAACCACAGCTGAC- CTTTTTCACGATTG- CTCTCCAAAGTTGTCACTACCAGCGATTGCCACCCCACATCTTGTGGGCTAC TGGACTCAAGTCTGGAGGAAGTTCAGGCGGAAGCAGCGGGTCTGAAACG- CCCGGAACCTCA- GAGAGCGCAACGCCCGAAAGCTCTGGAGGGTCAAGTGGTGGTAGTGATAAGA AATACTCCATCGGCCTCGCCATCGGTACGAATTCTGTCGGTTGGGCCGTTA- TCACCGATGAG- TACAAGGTCCCTTCTAAGAAATTCAAGGTTTTGGGCAATACAGACCGCCATT CTATAAAAAAAAACCTGATCGGCGCCCTTTTGTTTGACAGTGGTGAGACTG- CTGAAGCGAC- TCGCCTGAAGCGAACTGCCAGGAGGCGGTATACGAGGCGAAAAAACCGAATT TGTTACCTCCAGGAGATTTTCTCAAATGAAATGGCCAAGGTAGATGATAG- TTTTTTTCACCG- CTTGGAAGAAAGTTTTCTCGTTGAGGAGGACAAAAAGCACGAGAGGCACCCA ATCTTTGGCAACATAGTCGATGAGGTCGCATACCATGAGAAATATCC- TACGATCTAT- CATCTCCGCAAGAAGCTGGTCGATAGCACGGATAAAGCTGACCTCCGGCTGA TCTACCTTGCTCTTGCTCACATGATTAAATTCAGGGGCCATTTCCTGATA- GAAGGAGACCT- CAATCCCGACAATTCTGATGTCGACAAACTGTTTATTCAGCTCGTTCAGACC TATAATCAACTCTTTGAGGAGAACCCCATCAATGCTTCAGGGGTGGACG- CAAAGG- CCATTTTGTCCGCGCGCTTGAGTAAATCACGACGCCTCGAGAATTTGATAGC TCAACTGCCGGGTGAGAAGAAAAACGGGTTGTTTGGGAATCTCATAGCG- TTGAGTTTGGGAC- TTACGCCAAACTTTAAGTCTAACTTTGATTTGGCCGAAGATGCCAAATTGCA GCTGTCCAAAGATACCTATGATGACGACTTGGATAACCTTCTTGCGCAGA- TTGGTGACCAA- TACGCGGATCTGTTTCTTGCCGCAAAAAATCTGTCCGACGCCATACTCTTGT CCGATATACTGCGCGTCAATACTGAGATAACTAAGGCTCCCCTCAGCGCG- TCCATGAT- TAAAAGATACGATGAGCACCACCAAGATCTCACTCTGTTGAAAGCCCTGGTT CGCCAGCAGCTTCCAGAGAAGTATAAGGAGATATTTTTCGACCAATC- TAAAAACGGCTATG- CGGGTTACATTGACGGTGGCGCCTCTCAAGAAGAATTCTACAAGTTTATAAA GCCGATACTTGAGAAAATGGACGGTACAGAGGAATTGTTGGTTAAGCTCAA- TCGCGAGGAC- TTGTTGAGAAAGCAGCGCACATTTGACAATGGTAGTATTCCACACCAGATTC ATCTGGGCGAGTTGCATGCCATTCTTAGAAGACAAGAAGATTTTTATCCG- TTTCTGAAAGA- TAACAGAGAAAAGATTGAAAAGATACTTACCTTTCGCATACCGTATTATGTA GGTCCCCTGGCTAGAGGGAACAGTCGCTTCGCTTGGATGACTCGAAAATCA- GAAGAAACAA- TAACCCCCTGGAATTTTGAAGAAGTGGTAGATAAAGGTGCGAGTGCCCAATC TTTTATTGAGCGGATGACAAATTTTGACAAGAATCTGCCTAACGAAAAGG- TGCTTCCCAAG- CATTCCCTTTTGTATGAATACTTTACAGTATATAATGAACTGACTAAAGTGA AGTACGTTACCGAGGGGATGCGAAAGCCAGCTTTTCTCAGTGGCGAGCA- GAAAAAAGCAATA- GTTGACCTGCTGTTCAAGACGAATAGGAAGGTTACCGTCAAACAGCTCAAAG AAGATTACTTTAAAAAGATCGAATGTTTTGATTCAGTTGAGATAAGCGGAG- TAGAGGATAGA- TTTAACGCAAGTCTTGGAACTTATCATGACCTTTTGAAGATCATCAAGGATA AAGATTTTTTGGACAACGAGGAGAATGAAGATATCCTGGAAGATATAGTAC- TTACCTTGACG- CTTTTTGAAGATCGAGAGATGATCGAGGAGCGACTTAAGACGTACGCACATC TCTTTGACGATAAGGTTATGAAACAATTGAAACGCCGGCGGTATACTGG- CTGGGGCAGG- CTTTCTCGAAAGCTGATTAATGGTATCCGCGATAAGCAGTCTGGAAAGACAA TCCTTGACTTTCTGAAAAGTGATGGATTTGCAAATAGAAACTTTATGCAG- CTTATACA- TGATGACTCTTTGACGTTCAAGGAAGACATCCAGAAGGCACAGGTATCCGGC CAAGGGGATAGCCTCCATGAACACATAGCCAACCTGGCCGGCTCACCAGC- TATTAAAAAGG- GAATATTGCAAACCGTTAAGGTTGTTGACGAACTCGTTAAGGTTATGGGCCG ACACAAACCAGAGAATATCGTGATTGAGATGGCTAGGGAGAATCAGACCAC- TCAAAAAGGT- CAGAAAAATTCTCGCGAAAGGATGAAGCGAATTGAAGAGGGAATCAAAGAAC TTGGCTCTCAAATTTTGAAAGAGCACCCGGTAGAAAACACTCAGCTGCAGA- ATGAAAAGCTG- TATCTGTATTATCTGCAGAATGGTCGAGATATGTACGTTGATCAGGAGCTGG ATATCAATAGGCTCAGTGACTACGATGTCGACCACATCGTTCCTCAA- TCTTTCCTGAAAGA- TGACTCTATCGACAACAAAGTGTTGACGCGATCAGATAAGAACCGGGGAAAA TCCGACAATGTACCCTCAGAAGAAGTTGTCAAGAAGATGAAAAACTATTG- GAGACAATTG- CTGAACGCCAAGCTCATAACACAACGCAAGTTCGATAACTTGACGAAAGCCG AAAGAGGTGGGTTGTCAGAATTGGACAAAGCTGGCTTTATTAAGCGCCAA- TTGGTGGAGAC- CCGGCAGATTACGAAACACGTAGCACAAATTTTGGATTCACGAATGAATACC AAATACGACGAAAACGACAAATTGATACGCGAGGTGAAAGTGATTACGCT- TAAGAGTAAG- TTGGTTTCCGATTTCAGGAAGGATTTTCAGTTTTACAAAGTAAGAGAAATAA ACAACTACCACCACGCCCATGATGCTTACCTCAACGCGGTAGTTGGCACAG- CTCTTAT- CAAAAAATATCCAAAGCTGGAAAGCGAGTTCGTTTACGGTGACTATAAAGTA TACGACGTTCGGAAGATGATAGCCAAATCAGAGCAGGAAATTGGGAAGG- CAACCGCAAAATA- CTTCTTCTATTCAAACATCATGAACTTCTTTAAGACGGAGATTACGCTCGCG AACGGCGAAATACGCAAGAGGCCCCTCATAGAGACTAACGGCGAAACCGGG- GAGATCGTA- TGGGACAAAGGACGGGACTTTGCGACCGTTAGAAAAGTACTTTCAATGCCAC AAGTGAATATTGTTAAAAAGACAGAAGTACAAACAGGGGGGTTCAGTAAG- GAATCCATTTTG- CCCAAGCGGAACAGTGATAAATTGATAGCAAGGAAAAAAGATTGGGACCCTA AGAAGTACGGTGGTTTCGACTCTCCTACCGTTGCATATTCAGTCCTTGTAG- TTGCGAAAGTG- GAAAAGGGGAAAAGTAAGAAGCTTAAGAGTGTTAAAGAGCTTCTGGGCATAA CCATAATGGAACGGTCTAGCTTCGAGAAAAATCCAATTGACTTTCTCGAGG- CTAAAGGTTA- CAAGGAGGTAAAAAAGGACCTGATAATTAAACTCCCAAAGTACAGTCTCTTC GAGTTGGAGAATGGGAGGAAGAGAATGTTGGCATCTGCAGGGGAG- CTCCAAAAGGGGA- ACGAGCTGGCTCTGCCTTCAAAATACGTGAACTTTCTGTACCTGGCCAGCCA CTACGAGAAACTCAAGGGTTCTCCTGAGGATAACGAGCAGAAACAGCTG- TTTGTAGAGCAG- CACAAGCATTACCTGGACGAGATAATTGAGCAAATTAGTGAGTTCTCAAAAA GAGTAATCCTTGCAGACGCGAATCTGGATAAAGTTCTTTCCGCCTATAA- TAAGCACCGGGA- CAAGCCTATACGAGAACAAGCCGAGAACATCATTCACCTCTTTACCCTTACT AATCTGGGCGCGCCGGCCGCCTTCAAATACTTCGACACCACGATAGACAG- GAAAAGGTATA- CGAGTACCAAAGAAGTACTTGACGCCACTCTCATCCACCAGTCTATAACAGG GTTGTACGAAACGAGGATAGATTTGTCCCAGCTCGGCGGCGACTCAGGA- GGGTCAGGCGG- CTCCGGTGGATCAACGAATCTTTCCGACATAATCGAGAAAGAAACCGGCAAA CAGTTGGTGATCCAAGAATCAATCCTGATGCTGCCTGAAGAAG- TAGAAGAGGTGATTGGCAA- CAAACCTGAGTCTGACATTCTTGTCCACACCGCGTATGACGAGAGCACGGAC GAGAACGTTATGCTTCTCACTAGCGACGCCCCTGAGTATAAACCATGGGCG- CTGGT- CATCCAAGATTCCAATGGGGAAAACAAGATTAAGATGCTTAGTGGTGGGTCT GGAGGGAGCGGTGGGTCCACGAACCTCAGCGACATTATTGAAAAAGAGAC- TGGTAAACAAC-
TTGTAATACAAGAGTCTATTCTGATGTTGCCTGAAGAGGTGGAGGAGGTGAT TGGGAACAAACCGGAGTCTGATATACTTGTTCATACCGCCTATGACGAATC- TACTGATGAGA- ATGTGATGCTTTTaACGTCAGACGCTCCCGAGTACAAACCCTGGGCTCTGGT GATTCAGGACAGCAATGGTGAGAATAAGATTAAAATGTTGAGTGGGGGCT- CAAAGCGCACGG- CTGACGGTAGCGAATTTGAGAGCCCCAAAAAAAAACGAAAGGTCGAAtaa Sequência de ácido nucleico de otimização de códon de BE4 2: ATGAGCAGCGAGACAGGCCCTGTGGCTGTGGATCCTACACTGCGGAGAAGA- ATCGAG-
CCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACAT GCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACA- CAAGCCAGAA- CACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGG TACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGG- TCCCCTTGCGG- CGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACC CTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGA- CAGGGACTGCG- CGACCTGATCAGCAGCGGAGTGACCATCCAGATCATGACCGAGCAAGAGAGC GGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCAC- TGGCCTAGATA- TCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTG GGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGAC- CTTCTTCACAA- TCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGC CACCGGACTTAAGAGCGGAGGATCTAGCGGCGGCTCTAGCGGATCTGAGA- CACCTGGCA- CAAGCGAGTCTGCCACACCTGAGAGTAGCGGCGGATCTTCTGGCGGCTCCGA CAAGAAGTACTCTATCGGACTGGCCATCGGCACCAACTCTGTTGGATGGG- CCGTGATCAC- CGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGAC CGGCACAGCATCAAGAAGAATCTGATCGGCGCCCTGCTGTTCGACTCTGG- CGAAACAG- CCGAAGCCACCAGACTGAAGAGAACCGCCAGGCGGAGATACACCCGGCGGAA GAACCGGATCTGCTACCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGG- TGGACGACAG- CTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGACAAGAAGCAC GAGCGGCACCCCATCTTCGGCAACATCGTGGATGAGGTGGCCTAC- CACGAGAAGTACCCCAC- CATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTG AGACTGATCTACCTGGCTCTGGCCCACATGATCAAGTTCCGGGGCCACTTT- CTGATCGAGGG- CGATCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTG CAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCTCTGGCGTG- GACGCCAAGGC- TATCCTGTCTGCCAGACTGAGCAAGAGCAGAAGGCTGGAAAACCTGATCGCC CAGCTGCCTGGCGAGAAGAAGAATGGCCTGTTCGGCAACCTGATTG- CCCTGAGCCTGGGAC- TGACCCCTAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCA GCTGAGCAAGGACACCTACGACGACGACCTGGACAATCTGCTGGCCCAGA- TCGGCGATCAG- TACGCCGACTTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGA GCGATATCCTGAGAGTGAACACCGAGATCACAAAGGCCCCTCTGAGCG- CCTCTATGAT- CAAGAGATACGACGAGCACCACCAGGATCTGACCCTGCTGAAGGCCCTCGTT AGACAGCAGCTGCCAGAGAAGTACAAAGAGATTTTCTTCGATCAG- TCCAAGAACGGCTACG- CCGGCTACATTGATGGCGGAGCCAGCCAAGAGGAATTCTACAAGTTCATCAA GCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTGGTCAAGCTGAA- CAGAGAGGAC- CTGCTGCGGAAGCAGCGGACCTTCGACAATGGCTCTATCCCTCACCAGATCC ACCTGGGAGAGCTGCACGCCATTCTGCGGAGACAAGAGGACTTTTAC- CCATTCCTGAAGGA- CAACCGGGAAAAGATCGAGAAGATCCTGACCTTCAGGATCCCCTACTACGTG GGACCACTGGCCAGAGGCAATAGCAGATTCGCCTGGATGACCAGAAAGAG- CGAGGAAACCAT- CACACCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCCAGCGCTCAGTCC TTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCTAACGAGAAGGTG- CTGCCCAAG- CACTCCCTGCTGTATGAGTACTTCACCGTGTACAACGAGCTGACCAAAGTGA AATACGTGACCGAGGGAATGAGAAAGCCCGCCTTTCTGAGCGGCGAGCA- GAAAAAGG- CCATTGTGGATCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCT GAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACAGCGTGGAAATCAG- CGGCGTGGAA- GATCGGTTCAATGCCAGCCTGGGCACATACCACGACCTGCTGAAAATTATCA AGGACAAGGACTTCCTGGACAACGAAGAGAACGAGGACATTCTCGAGGACA- TCGTGCTGAC- CCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACATAC GCCCACCTGTTCGACGACAAAGTGATGAAGCAACTGAAGCGGAGGCGGTA- CACAGGCTGGGG- CAGACTGTCTCGGAAGCTGATCAACGGCATCCGGGATAAGCAGTCCGGCAAG ACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATG- CAG- CTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGG TGTCCGGCCAAGGCGATTCTCTGCACGAGCACATTGCCAACCTGGCCGGA- TCTCCCGCCAT- TAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTTGTGAAAGTG ATGGGCAGACACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAAC- CAGACCACACA- GAAGGGCCAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATC AAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAG- CTGCA- GAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGACGGGATATGTACGTG GACCAAGAGCTGGACATCAACCGGCTGAGCGACTACGATGTGGACCATA- TCGTGCCCCAGAG- CTTTCTGAAGGACGACTCCATCGATAACAAGGTCCTGACCAGAAGCGACAAG AACCGGGGCAAGAGCGATAACGTGCCCTCCGAAGAGGTGGTCAAGAAGA- TGAAGAACTAC- TGGCGACAGCTGCTGAACGCCAAGCTGATTACCCAGCGGAAGTTCGATAACC TGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTTGATAAGGCCGGCTT- CATTAAGCGGCAG- CTGGTGGAAACCCGGCAGATCACCAAACACGTGGCACAGATTCTGGACTCCC GGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAG- TCATCAC- CCTGAAGTCTAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTCTACAAA GTGCGGGAAATCAACAACTACCATCACGCCCACGACGCCTACCTGAATG- CCGTTGTTGGAA- CAGCCCTGATCAAGAAGTATCCCAAGCTGGAAAGCGAGTTCGTGTACGGCGA CTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAACAAGAGA- TCGGCAAGGC- TACCGCCAAGTACTTTTTCTACAGCAACATCATGAACTTTTTCAAGACAGAG ATCACCCTGGCCAACGGCGAGATCCGGAAAAGACCCCTGATCGAGA- CAAACGGCGAAAC- CGGGGAGATCGTGTGGGATAAGGGCAGAGATTTTGCCACAGTGCGGAAAGTG CTGAGCATGCCCCAAGTGAATATCGTGAAGAAAACCGAGGTGCAGACAGG- CGGCTTCAG- CAAAGAGTCTATCCTGCCTAAGCGGAACAGCGATAAGCTGATCGCCAGAAAG AAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGATAGCCCTACCGTGGCC- TATTCTGTG- CTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAAAAGCTCAAGAGCGTGA AAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTTGAGAAGAAC- CCGATCGACTTT- CTGGAAGCCAAGGGCTACAAAGAAGTCAAGAAGGACCTCATCATCAAGCTCC CCAAGTACAGCCTGTTCGAGCTGGAAAATGGCCGGAAGCGGATGCTGGCCT- CAGCAGG- CGAACTGCAGAAAGGCAATGAACTGGCCCTGCCTAGCAAATACGTCAACTTC CTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCAGCCCCGAGGACAA- TGAGCAAAAGCA- GCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATC AGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAACCTGGATAAGGTG- CTGTCTGCCTA- TAACAAGCACCGGGACAAGCCTATCAGAGAGCAGGCCGAGAATATCATCCAC CTGTTTACCCTGACCAACCTGGGAGCCCCTGCCGCCTTCAAGTACTTCGA- CACCACCATCGA- CCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACACTGATCCAC CAGTCTATCACCGGCCTGTACGAAACCCGGATCGACCTGTCTCAGCTCGG- CGGCGATTCTGG- TGGTTCTGGCGGAAGTGGCGGATCCACCAATCTGAGCGACATCATCGAAAAA GAGACAGGCAAGCAGCTCGTGATCCAAGAATCCATCCTGATGCTG- CCTGAAGAGGTTGAGGA- AGTGATCGGCAACAAGCCTGAGTCCGACATCCTGGTGCACACCGCCTACGAT GAGAGCACCGATGAGAACGTCATGCTGCTGACAAGCGACGCCCCTGAGTA- CAAGCCTTGGG- CTCTCGTGATTCAGGACAGCAATGGGGAGAACAAGATCAAGATGCTGAGCGG AGGTAGCGGAGGCAGTGGCGGAAGCACAAACCTGTCTGATAT- CATTGAAAAAGAAACCGGGA- AGCAACTGGTCATTCAAGAGTCCATTCTCATGCTCCCGGAAGAAGTCGAGGA AGTCATTGGAAACAAACCCGAGAGCGATATTCTGGTCCACACAGCCTATGA- CGAGTCTACA-
GACGAAAACGTGATGCTCCTGACCTCTGACGCTCCCGAGTATAAGCCCTGGG CACTTGTTATCCAGGACTCTAACGGGGAAAACAAAATCAAAATGTTG- TCCGGCGGCAGCAAG- CGGACAGCCGATGGATCTGAGTTCGAGAGCCCCAAGAAGAAACGGAAGGTgG AGtaa
[0038] “Atividade de edição de base” significa atuar para alterar qui- micamente uma base dentro de um polinucleotídeo. Em uma modali- dade, uma primeira base é convertida em uma segunda base. Em uma modalidade, a atividade de edição de base é atividade de citidina desa- minase, por exemplo, convertendo de alvo C•G em T•A. Em outra mo- dalidade, a atividade de edição de base é atividade de adenosina ou adenina desaminase, por exemplo, convertendo A•T em G•C. Em outra modalidade, a atividade de edição de base é atividade de citidina desa- minase, por exemplo, convertendo alvo C•G em T•A e atividade de ade- nosina ou adenina desaminase, por exemplo, convertendo A•T em G•C.
[0039] O termo “sistema de editor de base” ou “sistema BE” se re- fere a um sistema para editar uma nucleobase de uma sequência de nucleotídeo alvo. Em várias modalidades, o sistema de editor de base (BE) compreende (1) um domínio de ligação de nucleotídeo programá- vel de polinucleotídeo, um domínio de desaminase e um domínio de ci- tidina desaminase para desaminar nucleobases na sequência de nucle- otídeo alvo; e (2) um ou mais polinucleotídeos guia (por exemplo, RNA guia) em conjunto com o domínio de ligação de nucleotídeo programável de polinucleotídeo. Em várias modalidades, o sistema de editor de base (BE) compreende dois ou mais domínios de editor de nucleobase sele- cionados de uma adenosina desaminase e/ou uma citidina desaminase,
e DNA glicosilase, e um domínio tendo atividade de ligação específica de sequência de ácido nucleico. Em algumas modalidades, o sistema de editor de base compreende (1) um editor de base (BE) compreen- dendo um domínio de ligação de DNA programável de polinucleotídeo e um ou mais domínios de desaminase para desaminar uma ou mais nucleobases em uma sequência de nucleotídeo alvo; e (2) um ou mais RNAs guia em conjunto com o domínio de ligação de DNA programável de polinucleotídeo. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo. Em algumas modalidades, o edi- tor de base é um editor de base de citidina (CBE). Em algumas modali- dades, o editor de base é um editor de base de adenina ou adenosina (ABE). Em algumas modalidades, o editor de base é um editor de base de adenina ou adenosina (ABE) e um editor de base de citidina (CBE), por exemplo, um editor de base multiefetor.
[0040] O termo “Cas9” ou “domínio de Cas9” se refere a uma nu- clease orientada por RNA compreendendo uma proteína Cas9, ou um fragmento da mesma (por exemplo, uma proteína compreendendo um domínio de clivagem de DNA ativo, inativo ou parcialmente ativo de Cas9, e/ou o domínio de ligação de gRNA de Cas9). Uma Cas9 nu- clease é também algumas vezes referida como uma nuclease casnl ou uma nuclease associada a CRISPR (repetição palindrômica curta agru- pada regularmente espaçada). Uma Cas9 exemplificativa é Cas9 de Streptococcus pyogenes (spCas9), a sequência de aminoácido da qual é fornecida abaixo: MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI- GALLFGSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIA QLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHS- LHEQIAN- LAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL-
SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH;
sublinhado duplo: domínio RuvC)
[0041] O termo “substituição de aminoácido conservadora” ou “mu- tação conservadora” se refere à substituição de um aminoácido por ou- tro aminoácido com uma propriedade comum. Uma forma funcional de definir propriedades comuns entre aminoácidos individuais é analisar as frequências normalizadas de alterações de aminoácido entre proteínas correspondentes de organismos homólogos (Schulz, G. E. e Schirmer, R. H., Principles of Protein Structure, Springer-Verlag, Nova York (1979)). De acordo com tais análises, grupos de aminoácidos podem ser definidos, em que aminoácidos dentro de um grupo que se permu- tam preferencialmente entre si e, portanto, se assemelham mais em seu impacto na estrutura geral da proteína (Schulz, G. E. e Schirmer, R. H., supra). Exemplos não limitantes de mutações conservadoras incluem substituições de aminoácido de aminoácidos, por exemplo, lisina por ar- ginina e vice-versa, de modo que uma carga positiva possa ser mantida; ácido glutâmico por ácido aspártico e vice-versa, de modo que uma carga negativa possa ser mantida; serina por treonina, de modo que um –OH livre possa ser mantido; e glutamina por asparagina, de forma que um –NH2 livre possa ser mantido.
[0042] O termo “sequência de codificação” ou “sequência de codi- ficação de proteína”, conforme usado indistintamente aqui, se refere a um segmento de um polinucleotídeo que codifica uma proteína. A região ou sequência é delimitada mais perto da extremidade 5’ por um códon de início e mais perto da extremidade 3’ com um códon de parada. As sequências de codificação também podem ser chamadas de quadros de leitura abertos.
[0043] “Citidina desaminase” significa um polipeptídeo ou fragmento deste capaz de catalisar uma reação de desaminação que converte um grupo amino em um grupo carbonil. Em uma modalidade, a citidina de- saminase converte citosina em uracil ou 5-metilcitosina em timina.
PmCDA1 derivada de lampreia-marinha (citosina desaminase de lam- preia-marinha (Petromyzon marinus) 1), ou AID (citidina desaminase in- duzida por ativação; AICDA) derivada de um mamífero (por exemplo, ser humano, suíno, bovino, cavalo, macaco etc.), e APOBEC são citi- dina desaminases exemplificativas.
[0044] O termo “desaminase” ou “domínio de desaminase”, como aqui utilizado, se refere a uma proteína ou enzima que catalisa uma re- ação de desaminação. Em algumas modalidades, a desaminase ou do- mínio de desaminase é uma citidina desaminase, catalisando a desami- nação hidrolítica de citidina ou desoxicitidina em uridina ou desoxiuri- dina, respectivamente. Em algumas modalidades, a desaminase ou do- mínio de desaminase é uma citosina desaminase, catalisando a desa- minação hidrolítica de citosina em uracil. Em algumas modalidades, a desaminase é uma adenosina desaminase, que catalisa a desaminação hidrolítica de adenina em hipoxantina. Em algumas modalidades, a de- saminase é uma adenosina desaminase, que catalisa a desaminação hidrolítica de adenosina ou adenina (A) em inosina (I). Em algumas mo- dalidades, a desaminase ou domínio de desaminase é uma adenosina desaminase, catalisando a desaminação hidrolítica de adenosina ou de- soxiadenosina em inosina ou desoxiinosina, respectivamente. Em algu- mas modalidades, a adenosina desaminase catalisa a desaminação hi- drolítica de adenosina em ácido desoxirribonucleico (DNA). As adeno- sina desaminases (por exemplo, adenosina desaminases modificadas, adenosina desaminases evoluídas) fornecidas aqui podem ser de qual- quer organismo, tal como uma bactéria. Em algumas modalidades, a adenosina desaminase é de uma bactéria, tal como E. coli, S. aureus, S. typhi, S. putrefaciens, H. influenzae ou C. crescentus. Em algumas modalidades, a adenosina desaminase é uma TadA desaminase. Em algumas modalidades, a desaminase ou domínio de desaminase é uma variante de uma desaminase de ocorrência natural de um organismo,
tal como um ser humano, chimpanzé, gorila, macaco, vaca, cão, rato ou camundongo. Em algumas modalidades, a desaminase ou domínio de desaminase não ocorre na natureza. Por exemplo, em algumas modali- dades, a desaminase ou domínio de desaminase é pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75% pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, pelo menos 99,1%, pelo menos 99,2%, pelo menos 99,3%, pelo menos 99,4%, pelo menos 99,5%, pelo menos 99,6%, pelo menos 99,7%, pelo menos 99,8%, ou pelo menos 99,9% idêntica a uma desaminase de ocorrência natural.
[0045] “Detectar” se refere a identificar a presença, ausência ou quantidade do analito a ser detectado. Em uma modalidade, é detectada uma alteração de sequência em um polinucleotídeo ou polipeptídeo. Em outra modalidade, a presença de indels é detectada.
[0046] Por “marcador detectável”, entende-se uma composição que, quando ligada a uma molécula de interesse, a torna detectável por meios espectroscópicos, fotoquímicos, bioquímicos, imunoquímicos ou químicos. Por exemplo, os marcadores úteis incluem isótopos radioati- vos, contas magnéticas, contas metálicas, partículas coloidais, corantes fluorescentes, reagentes densos de elétrons, enzimas (por exemplo, como comumente usado em um ensaio de imunoabsorção enzimática (ELISA)), biotina, digoxigenina ou haptenos.
[0047] Por “doença”, entende-se qualquer condição ou distúrbio que prejudique ou interfira no funcionamento normal de uma célula, tecido ou órgão.
[0048] Por “quantidade eficaz”, entende-se a quantidade de um agente ou composto ativo, por exemplo, um editor de base como des- crito neste documento, que é necessário para melhorar os sintomas de uma doença em relação a um paciente não tratado ou um indivíduo sem doença, ou seja, um indivíduo saudável, ou é a quantidade de agente ou composto ativo suficiente para desencadear a resposta biológica de- sejada. A quantidade eficaz de composto(s) ativo(s) usada na prática da presente invenção para o tratamento terapêutico de uma doença varia dependendo da forma de administração, da idade, do peso corporal e da saúde geral do indivíduo. Por fim, o médico assistente ou veterinário decidirá a quantidade e o regime de dosagem apropriados. Tal quanti- dade é referida como uma quantidade “efetivo”. Em uma modalidade, uma quantidade eficaz é a quantidade de um editor de base da invenção suficiente para introduzir uma alteração em um gene de interesse em uma célula (por exemplo, uma célula in vitro ou in vivo). Em uma moda- lidade, uma quantidade eficaz é a quantidade de um editor de base ne- cessária para atingir um efeito terapêutico. Esse efeito terapêutico não precisa ser suficiente para alterar um gene patogênico em todas as cé- lulas de um indivíduo, tecido ou órgão, mas apenas alterar o gene pato- gênico em cerca de 1%, 5%, 10%, 25%, 50%, 75% ou mais das células presentes em um indivíduo, tecido ou órgão. Em uma modalidade, uma quantidade eficaz é suficiente para melhorar um ou mais sintomas de uma doença.
[0049] Em algumas modalidades, uma quantidade eficaz de uma proteína de fusão fornecida neste documento, por exemplo, de um editor de nucleobase multiefetor compreendendo um domínio de nCas9 e um ou mais domínios de desaminase (por exemplo, adenosina desaminase, citidina desaminase) se refere à quantidade que é suficiente para induzir a edição de um sítio alvo especificamente vinculado e editado pelos edi- tores de nucleobase multiefetores aqui descritos. Como será apreciado pelo versado na técnica, a quantidade eficaz de um agente, por exem- plo, uma proteína de fusão, pode variar dependendo de vários fatores como, por exemplo, a resposta biológica desejada, por exemplo, no alelo, genoma ou sítio de destino específico a ser editado, na célula ou tecido sendo direcionado, e/ou no agente que está sendo utilizado.
[0050] Em algumas modalidades, uma quantidade eficaz de uma proteína de fusão aqui fornecida, por exemplo, de uma proteína de fusão compreendendo um domínio de nCas9 pode se referir à quantidade da proteína de fusão que é suficiente para induzir a edição de um sítio alvo especificamente ligado e editado pela proteína de fusão. Como será apreciado pelo versado na técnica, a quantidade eficaz de um agente, por exemplo, uma proteína de fusão, uma nuclease, uma metilase, uma proteína híbrida, um dímero de proteína, um complexo de uma proteína (ou dímero de proteína) e um polinucleotídeo, ou um polinucleotídeo, pode variar dependendo de vários fatores, tais como, por exemplo, a resposta biológica desejada, por exemplo, no alelo, genoma ou sítio alvo específico a ser editado, a célula ou tecido sendo direcionado, e/ou o agente sendo usado.
[0051] “Fragmento” significa uma porção de uma molécula de poli- peptídeo ou ácido nucleico. Essa porção contém pelo menos 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80% ou 90% de todo o comprimento da molécula de ácido nucleico ou polipeptídeo de referência. Um fragmento pode conter 10, 20, 30, 40, 50, 60, 70, 80, 90, ou 100, 200, 300, 400, 500, 600, 700, 800, 900 ou 1000 nucleotídeos ou aminoácidos.
[0052] “RNA guia” ou “gRNA” significa um polinucleotídeo que é es- pecífico para uma sequência alvo e pode formar um complexo com uma proteína de domínio de ligação de nucleotídeo programável de polinu- cleotídeo (por exemplo, Cas9 ou Cpf1). Em uma modalidade, o polinu- cleotídeo guia é um RNA guia (gRNA). Os gRNAs podem existir como um complexo de dois ou mais RNAs, ou como uma única molécula de RNA. Os gRNAs que existem como uma única molécula de RNA podem ser referidos como RNAs guia únicos (sgRNAs), embora “gRNA” seja usado indistintamente para se referir a RNAs guia que existem como moléculas únicas ou como um complexo de duas ou mais moléculas. Normalmente, gRNAs que existem como uma única espécie de RNA compreendem dois domínios: (1) um domínio que compartilha homolo- gia com um ácido nucleico alvo (por exemplo, e direciona a ligação de um complexo de Cas9 ao alvo); e (2) um domínio que liga uma proteína Cas9. Em algumas modalidades, o domínio (2) corresponde a uma se- quência conhecida como tracrRNA, e compreende uma estrutura de haste e ansa (stem-loop). Por exemplo, em algumas modalidades, o do- mínio (2) é idêntico ou homólogo a um tracrRNA conforme fornecido em Jinek et al., Science 337:816-821 (2012), todo o conteúdo do qual é in- corporado neste documento por referência. Outros exemplos de gRNAs (por exemplo, aqueles que incluem o domínio 2) podem ser encontrados na US20160208288, intitulada “Switchable Cas9 Nucleases and Uses Thereof”, e US 9.737.604, intitulada “Delivery System For Functional Nu- cleases”, todo o conteúdo de cada uma das quais é incorporado neste documento por referência em sua totalidade. Em algumas modalidades, um gRNA compreende dois ou mais dos domínios (1) e (2), e pode ser referido como um “gRNA estendido”. Um gRNA estendido ligará duas ou mais proteínas Cas9 e ligará um ácido nucleico alvo em duas ou mais regiões distintas, conforme descrito aqui. O gRNA compreende uma se- quência de nucleotídeo que complementa um sítio alvo, que medeia a ligação do complexo nuclease/RNA ao sítio alvo, proporcionando uma especificidade de sequência do complexo nuclease:RNA.
[0053] “Hibridização” significa ligação de hidrogênio, que pode ser ligação de hidrogênio de Watson-Crick, Hoogsteen ou Hoogsteen re- versa, entre nucleobases complementares. Por exemplo, adenina e ti- mina são nucleobases complementares que emparelham por meio da formação de ligações hidrogênio.
[0054] “Aumentos” significa uma alteração positiva de pelo menos 10%, 25%, 50%, 75% ou 100%.
[0055] Os termos “inibidor do reparo de base”, “inibidor de reparo de base”, “IBR” ou seus equivalentes gramaticais referem-se a uma pro- teína que é capaz de inibir a atividade de uma enzima de reparo de ácido nucleico, por exemplo, uma enzima de reparo de excisão de base.
Em algumas modalidades, o IBR é um inibidor de reparo de excisão de base de inosina.
Inibidores de reparo de base exemplificativos incluem inibidores de APE1, Endo III, Endo IV, Endo V, Endo VIII, Fpg, hOGGl, hNEILl, T7 Endol, T4PDG, UDG, hSMUGl e hAAG.
Em algumas moda- lidades, o inibidor de reparo de base é um inibidor de Endo V ou hAAG.
Em algumas modalidades, o IBR é um inibidor de Endo V ou hAAG.
Em algumas modalidades, o IBR é um EndoV cataliticamente inativo ou um hAAG cataliticamente inativo.
Em algumas modalidades, o inibidor de reparo de base é um EndoV cataliticamente inativo ou um hAAG catali- ticamente inativo.
Em algumas modalidades, o inibidor de reparo de base é inibidor de uracil glicosilase (UGI). UGI se refere a uma proteína que é capaz de inibir uma enzima de reparo de excisão de base de ura- cil-DNA glicosilase.
Em algumas modalidades, um domínio UGI com- preende um UGI de tipo selvagem ou um fragmento de um UGI de tipo selvagem.
Em algumas modalidades, as proteínas de UGI fornecidas neste documento incluem fragmentos de UGI e proteínas homólogas a uma UGI ou um fragmento de UGI.
Em algumas modalidades, o inibidor de reparo de base é um inibidor de reparo de excisão de base de ino- sina.
Em algumas modalidades, o inibidor de reparo de base é uma “nu- clease específica de inosina cataliticamente inativa” ou “nuclease espe- cífica de inosina morta”. Sem desejar estar limitado por qualquer teoria em particular, inosina glicosilases cataliticamente inativas (por exemplo, alquil adenina glicosilase (AAG)) podem se ligar à inosina, mas não po- dem criar um sítio abásico ou remover a inosina, bloqueando esterica- mente a porção recém-formada de inosina de mecanismos de dano/re-
paro de DNA. Em algumas modalidades, a nuclease específica de ino- sina cataliticamente inativa pode ser capaz de ligar uma inosina em um ácido nucleico, mas não cliva o ácido nucleico. Nucleases específicas de inosina cataliticamente inativas exemplificativas não limitantes in- cluem alquil adenosina glicosilase cataliticamente inativa (AAG nu- clease), por exemplo, de uma endonuclease V humana e catalitica- mente inativa (nuclease EndoV), por exemplo, de E. coli. Em algumas modalidades, a AAG nuclease cataliticamente inativa compreende uma mutação em E125Q ou uma mutação correspondente em outra AAG nuclease.
[0056] Uma “inteína” é um fragmento de proteína capaz de se extir- par e juntar os fragmentos restantes (as exteínas) com uma ligação pep- tídica em um processo conhecido como splicing de proteínas. Inteínas são também referidas como “íntrons de proteína”. O processo de exci- são de uma inteína e união das porções restantes da proteína é aqui denominado “splicing de proteína” ou “splicing de proteína mediado por inteína”. Em algumas modalidades, uma inteína de uma proteína pre- cursora (uma proteína contendo inteína antes do splicing de proteína mediado por inteína) vem de dois genes. Tal inteína é referida neste documento como uma inteína dividida (por exemplo, inteína N dividida e inteína C dividida). Por exemplo, em cianobactérias, DnaE, a subuni- dade catalítica a de DNA polimerase III, é codificada por dois genes se- parados, dnaE-n e dnaE-c. A inteína codificada pelo gene dnaE-n pode ser aqui referida como “inteína-N”. A inteína codificada pelo gene dnaE- c pode ser aqui referida como “inteína-C”.
[0057] Outros sistemas de inteína também podem ser usados. Por exemplo, uma inteína sintética com base na inteína dnaE, o par de inte- ína Cfa-N (por exemplo, inteína N dividida) e Cfa-C (por exemplo, inteína C dividida), foi descrito (por exemplo, em Stevens et al., J Am Chem
Soc. 2016, 24 de fevereiro; 138(7):2162-5, aqui incorporado por referên- cia). Exemplos não limitantes de pares de inteína que podem ser usados de acordo com a presente divulgação incluem: inteína Cfa DnaE, inteína Ssp GyrB, inteína Ssp DnaX, inteína Ter DnaE3, inteína Ter ThyX, inte- ína Rma DnaB e inteína Cne Prp8 (por exemplo, como descrito na Pa- tente dos EUA Nº. 8.394.604, aqui incorporada por referência.
[0058] Sequências exemplificativas de nucleotídeo e aminoácido de inteínas são fornecidas. DNA de DnaE Inteína-N: TGCCTGTCATACGAAACCGAGATACTGACAG- TAGAATATGGCCTTCTGCCAATCGGGAAGA-
TTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAA CATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAG- TATTCGAATAC- TGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGA CAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTG-
GACCTCATGCGAGTTGACAACCTTCCTAAT Proteína de DnaE Inteína-N: CLSYETEILTVEYGLLPIGKI- VEKRIECTVYSVDNNGNIYTQPVAQWHDR GEQEVFEYCLEDGSLIRATK-
DHKFMTVDGQMLPIDEIFERELDLMRVDNL PN DNA de DnaE Inteína-C: ATGATCAAGATAGCTACAAGGAAGTATCTTGG- CAAACAAAACGTTTATGA TATTGGAGTCGAAAGAGATCACAACTTTG-
CTCTGAAGAACGGATTCATAG CTTCTAAT Inteína-C: MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN Cfa-N DNA: TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGG- CTTCTTGCCTATTGGAAAGA-
TTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTT CGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAG- TATTTGAGTAC- TGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGA CCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTG-
GATCTCAAACAAGTGGATGGATTGCCA Proteína Cfa-N: CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNR-
GEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP Cfa-C DNA: ATGAAGAGGACTGCCGATGGATCAGAGTTTGAA- TCTCCCAAGAAGAAGAGGAAAGTAAAGA-
TAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGA
GAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC Proteína Cfa-C: MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGL-
VASN
[0059] Inteína-N e inteína-C podem ser fundidas na porção N-termi- nal da Cas9 dividido e na porção C-terminal da Cas9 dividido, respecti- vamente, para a junção da porção N-terminal da Cas9 dividida e da por- ção C-terminal da Cas9 dividida. Por exemplo, em algumas modalida- des, uma inteína-N é fundida ao terminal C da porção N-terminal da Cas9 dividida, ou seja, para formar uma estrutura de N--[porção N-ter- minal da Cas9 dividida]-[inteína-N]--C. Em algumas modalidades, uma inteína-C é fundida ao terminal N da porção C-terminal da Cas9 dividida, ou seja, para formar uma estrutura de N-[inteína-C]--[porção C-terminal da Cas9 dividida]-C. O mecanismo de splicing de proteína mediado por inteína para unir as proteínas às quais as inteínas são fundidas (por exemplo, Cas9 dividida) é conhecido na técnica, por exemplo, conforme descrito em Shah et al., Chem Sci. 2014; 5(1):446-461, aqui incorporado por referência. Métodos para projetar e usar inteínas são conhecidos na técnica e descritos, por exemplo, por WO2014004336, WO2017132580, US20150344549 e US20180127780, cada um dos quais é incorporado neste documento por referência em sua totalidade.
[0060] Os termos “isolado”, “purificado” ou “biologicamente puro” re- ferem-se ao material que é livre em vários graus de componentes que normalmente o acompanham como encontrado em seu estado nativo. “Isolar” denota um grau de separação da fonte original ou arredores. “Purificar” denota um grau de separação que é maior do que o isola- mento. Uma proteína “purificada” ou “biologicamente pura” é suficiente- mente livre de outros materiais de modo que quaisquer impurezas não afetem materialmente as propriedades biológicas da proteína ou cau- sem outras consequências adversas. Ou seja, um ácido nucleico ou peptídeo desta invenção é purificado se for substancialmente livre de material celular, material viral ou meio de cultura quando produzido por técnicas de DNA recombinante, ou precursores químicos ou outros pro- dutos químicos quando sintetizados quimicamente. Pureza e homoge- neidade são tipicamente determinadas por meio de técnicas de química analítica, por exemplo, eletroforese em gel de poliacrilamida ou croma- tografia líquida de alta performance. O termo “purificado” pode denotar que um ácido nucleico ou proteína dá origem a essencialmente uma banda em um gel eletroforético. Para uma proteína que pode estar su- jeita a modificações, por exemplo, fosforilação ou glicosilação, diferen- tes modificações podem dar origem a diferentes proteínas isoladas, que podem ser purificadas separadamente.
[0061] Por “polinucleotídeo isolado”, entende-se um ácido nucleico (por exemplo, um DNA) que é livre dos genes que, no genoma de ocor- rência natural do organismo do qual a molécula de ácido nucleico da invenção é derivada, flanqueiam o gene. Portanto, o termo inclui, por exemplo, um DNA recombinante que é incorporado a um vetor; em um plasmídeo ou vírus de replicação autônoma; ou no DNA genômico de um procarioto ou eucarioto; ou que existe como uma molécula separada (por exemplo, um cDNA ou um fragmento de cDNA genômico ou produ- zido por PCR ou digestão por endonuclease de restrição) independente de outras sequências. Além disso, o termo inclui uma molécula de RNA que é transcrita de uma molécula de DNA, bem como um DNA recom- binante que é parte de um gene híbrido que codifica uma sequência de polipeptídeo adicional.
[0062] “Polipeptídeo isolado” significa um polipeptídeo da invenção que foi separado dos componentes que o acompanham naturalmente. Normalmente, o polipeptídeo é isolado quando é pelo menos 60%, em peso, livre de proteínas e moléculas orgânicas de ocorrência natural com as quais está naturalmente associado. Em algumas modalidades, a preparação é pelo menos 75%, pelo menos 90%, ou pelo menos 99%, em peso, um polipeptídeo da invenção. Um polipeptídeo isolado da in- venção pode ser obtido, por exemplo, por extração de uma fonte natural, por expressão de um ácido nucleico recombinante que codifica tal poli- peptídeo; ou sintetizando quimicamente a proteína. A pureza pode ser medida por qualquer método apropriado, por exemplo, cromatografia de coluna, eletroforese em gel de poliacrilamida ou por análise de HPLC.
[0063] O termo “ligante”, conforme usado neste documento, pode se referir a um ligante covalente (por exemplo, ligação covalente), um ligante não covalente, um grupo químico, ou uma molécula ligando duas moléculas ou porções, por exemplo, dois componentes de uma com- plexo de proteína ou um ribonucleocomplexo, ou dois domínios de uma proteína de fusão, tal como, por exemplo, um domínio de ligação de DNA programável de polinucleotídeo (por exemplo, dCas9) e um domí- nio de desaminase (por exemplo, uma adenosina desaminase, uma ci- tidina desaminase, ou uma adenosina desaminase e uma citidina desa- minase). Um ligante pode unir diferentes componentes, ou diferentes pções de componentes, de um sistema de editor de base. Por exemplo, em algumas modalidades, um ligante unir um domínio de ligação de po- linucleotídeo guia de um domínio de ligação de nucleotídeo programável de polinucleotídeo e um domínio catalítico de uma desaminase. Em al- gumas modalidades, um ligante pode unir um polipeptídeo CRISPR e a uma desaminase.
Em algumas modalidades, um ligante pode unir uma Cas9 e uma desaminase.
Em algumas modalidades, um ligante pode unir uma dCas9 e uma desaminase.
Em algumas modalidades, um li- gante pode unir uma nCas9 e uma desaminase.
Em algumas modalida- des, um ligante pode unir um polinucleotídeo guia e uma desaminase.
Em algumas modalidades, um ligante pode unir um componente de de- saminação e um componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base.
Em algumas modali- dades, um ligante pode unir uma porção de ligação de RNA de um com- ponente de desaminação e um componente de ligação de nucleotídeo programável de polinucleotídeo de um sistema de editor de base.
Em algumas modalidades, um ligante pode unir uma porção de ligação de RNA de um componente de desaminação e uma porção de ligação de RNA de um componente de ligação de nucleotídeo programável de po- linucleotídeo de um sistema de editor de base.
Um ligante pode ser po- sicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectados a cada um por meio de uma ligação covalente ou interação não covalente, conectando os dois.
Em algumas modalidades, o ligante pode ser uma molécula orgânica, um grupo, um polímero ou uma porção química.
Em algumas modalidades, o ligante pode ser um polinucleotídeo.
Em algumas modalidades, o ligante pode ser um ligante de DNA.
Em algumas modalidades, o ligante pode ser um ligante de RNA.
Em algumas modalidades, um ligante pode compreender um ap- tâmero capaz de se ligar a um ligando.
Em algumas modalidades, o li- gando pode ser carboidrato, um peptídeo, uma proteína ou um ácido nucleico.
Em algumas modalidades, o ligante pode compreender um ap- tâmero que pode ser derivado de um ribocomutador (riboswitch). O ri- bocomutador do qual o aptâmero é derivado pode ser selecionado de um ribocomutador de teofilina, um ribocomutador de pirofosfato de tia- mina (TPP), um ribocomutador de adenosina cobalamina (AdoCbl), um ribocomutador de S-adenosil metionina (SAM), um ribocomutador de SAH, um ribocomutador de mononucleotídeo de flavina (FMN), um ri- bocomutador de tetraidrofolato, um ribocomutador de lisina, um riboco- mutador de glicina, um ribocomutador de purina, um ribocomutador de GlmS, ou um ribocomutador pré-queosina1 (PreQ1). Em algumas mo- dalidades, um ligante pode compreender um aptâmero ligado a um po- lipeptídeo ou um domínio de proteína, tal como um ligando de polipep- tídeo. Em algumas modalidades, o ligando de polipeptídeo pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de pro- teína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telo- merase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA. Em algumas modalidades, o ligando de polipeptídeo pode ser uma por- ção de um componente do sistema de editor de base. Por exemplo, um componente de edição de nucleobase pode compreender um domínio de desaminase e um motivo de reconhecimento de RNA.
[0064] Em algumas modalidades, o ligante pode ser um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou pro- teína). Em algumas modalidades, o ligante pode ter cerca de 5-100 ami- noácidos de comprimento, por exemplo, cerca de 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 20-30, 30-40, 40-50, 50-60, 60-70, 70- 80, 80-90 ou 90-100 aminoácidos de comprimento. Em algumas moda- lidades, o ligante pode ter cerca de 100-150, 150-200, 200-250, 250- 300, 300-350, 350-400, 400-450 ou 450-500 aminoácidos de compri- mento. Ligantes mais longos ou mais curtos também podem ser con- templados.
[0065] Em algumas modalidades, um ligante une um domínio de li- gação de gRNA de uma nuclease programável de RNA, incluindo um domínio de nuclease Cas9, e o domínio catalítico de uma proteína de edição de ácido nucleico (por exemplo, citidina ou adenosina desami- nase). Em algumas modalidades, um ligante une uma dCas9 e uma pro- teína de edição de ácido nucleico. Por exemplo, o ligante é posicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectado a cada um desses por meio de uma ligação covalente, co- nectando assim os dois. Em algumas modalidades, o ligante é um ami- noácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, o ligante é uma molécula orgâ- nica, grupo, polímero ou porção química. Em algumas modalidades, o ligante tem 5-200 aminoácidos de comprimento, por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 35, 45, 50, 55, 60, 60, 65, 70, 70, 75, 80, 85, 90, 90, 95, 100, 101, 102, 103, 104, 105, 110, 120, 130, 140, 150, 160, 175, 180, 190, ou 200 aminoácidos de compri- mento.
[0066] Em algumas modalidades, os domínios de um editor de base são fundidos via um ligante que compreende a sequência de ami- noácido de SGGSSGSETPGTSESATPESSGGS, SGGSSGGSSGSETPGTSESATPESSGGSSGGS, ou GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTS- TEPSEGSAPGSPAGSPTSTEEGTSTE PSEGSAPGTS- TEPSEGSAPGTSESATPESGPGSEPATSGGSGGS. Em algumas mo- dalidades, domínios do editor de base são fundidos via um ligante com- preendendo a sequência de aminoácido SGSETPGTSESATPES, que pode também ser referido como o ligante XTEN. Em algumas modalida- des, o ligante tem 24 aminoácidos de comprimento. Em algumas moda- lidades, o ligante compreende a sequência de aminoácido SGGSSGGSSGSETPGTSESATPES. Em algumas modalidades, o li- gante tem 40 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoácido
SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS. Em al- gumas modalidades, o ligante tem 64 aminoácidos de comprimento. Em algumas modalidades, o ligante compreende a sequência de aminoá- cido SGGSSGGSSGSETPGTSESA- TPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGS SGGS. Em algumas modalidades, o ligante tem 92 aminoácidos de compri- mento. Em algumas modalidades, o ligante compreende a sequência de aminoácido PGSPAGSPTSTEEGTSESATPESGPGTS- TEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAP GTS- TEPSEGSAPGTSESATPESGPGSEPATS.
[0067] Por “marcador”, entende-se qualquer proteína ou polinucle- otídeo que apresenta uma alteração no nível de expressão ou atividade que está associada a uma doença ou distúrbio.
[0068] O termo “mutação”, como aqui utilizado, se refere a uma substituição de um resíduo dentro de uma sequência, por exemplo, uma sequência de aminoácido ou ácido nucleico, com outro resíduo, ou uma exclusão ou inserção de um ou mais resíduos dentro de uma sequência . As mutações são tipicamente descritas neste documento identificando o resíduo original seguido pela posição do resíduo dentro da sequência e pela identidade do resíduo recém-substituído. Vários métodos para fazer as substituições de aminoácido (mutações) fornecidos neste do- cumento são bem conhecidos na técnica, e são fornecidos, por exem- plo, por Green e Sambrook, Molecular Cloning: A Laboratory Manual (4ª ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY (2012)). Em algumas modalidades, os editores de base presentemente divulgados podem gerar com eficiência uma “mutação pretendida”, tal como uma mutação pontual, em um ácido nucleico (por exemplo, um ácido nucleico dentro de um genoma de um indivíduo) sem gerar um número significativo de mutações não intencionais, tais como mutações pontuais não intencionais. Em algumas modalidades, uma mutação in- tencional é uma mutação gerada por um editor de base específico (por exemplo, editor de base de citidina ou editor de base de adenosina) li- gado a um polinucleotídeo guia (por exemplo, gRNA), projetado especi- ficamente para gerar a mutação intencional.
[0069] Em geral, as mutações feitas ou identificadas em uma se- quência (por exemplo, uma sequência de aminoácido como aqui des- crito) são numeradas em relação a uma sequência de referência (ou de tipo selvagem), ou seja, uma sequência que não contém as mutações. O versado na técnica compreenderia prontamente como determinar a posição de mutações em sequências de ácido nucleico e aminoácido e em relação a uma sequência de referência.
[0070] O termo “mutações não conservadoras” envolve substitui- ções de aminoácido entre diferentes grupos, por exemplo, lisina por trip- tofano, ou fenilalanina por serina etc. Nesse caso, é preferível que a substituição de aminoácido não conservadora não interfira com, ou iniba a atividade biológica de, a variante funcional. A substituição de aminoá- cido não conservadora pode aumentar a atividade biológica da variante funcional, de modo que a atividade biológica da variante funcional seja aumentada em comparação com a proteína de tipo selvagem.
[0071] O termo “sequência de localização nuclear”, “Sinais de Lo- calização Nuclear” ou “NLS” se refere a uma sequência de aminoácido que promove a importação de uma proteína para o núcleo da célula. As sequências de localização nuclear são conhecidas na técnica e descri- tas, por exemplo, em Plank et al., Publicação PCT Internacional, PCT/EP2000/011690, depositado em 23 de novembro de 2000, publi- cado como WO/2001/038547 em 31 de maio de 2001, o conteúdo dos quais é incorporado neste documento por referência para sua divulga- ção de sequências de localização nuclear exemplificativas. Em outras modalidades, o NLS é uma NLS otimizado descrito, por exemplo, por
Koblan et al., Nature Biotech. 2018 doi: 10.1038/nbt.4172. Sequências otimizadas úteis nos métodos da invenção são mostradas nas Figuras 8A-8F (Koblan et al., supra). Em algumas modalidades, uma NLS com- preende a sequência de aminoácido KRTADGSEFESPKKKRKV, KRPAATKKAGQAKKKK, KKTELQTTNAENKTKKL, KRGINDRNFWR- GENGRKTR, RKSGKIAAIVVKRPRK, PKKKRKV, ou MDSLLMNRRK- FLYQFKNVRWAKGRRETYLC.
[0072] O termo “nucleobase”, “base nitrogenada” ou “base”, usado indistintamente aqui, se refere a um composto biológico contendo nitro- gênio que forma um nucleosídeo, que por sua vez é um componente de um nucleotídeo. A capacidade de as nucleobases formarem pares de bases e se empilharem leva diretamente a estruturas helicoidais de ca- deia longa, tais como ácido ribonucleico (RNA) e ácido desoxirribonu- cleico (DNA). Cinco nucleobases - adenina (A), citosina (C), guanina (G), timina (T) e uracil (U) - são chamadas de primárias ou canônicas. Adenina e guanina são derivadas de purina, e citosina, uracil e timina são derivadas de pirimidina. DNA e RNA também podem conter outras bases (não primárias) que são modificadas. Nucleobases modificadas exemplificativas não limitantes podem incluir hipoxantina, xantina, 7-me- tilguanina, 5,6-dihidrouracil, 5-metilcitosina (m5C), e 5-hidrometilcito- sina. A hipoxantina e a xantina podem ser formadas pela presença de mutagênicos, ambos por desaminação (substituição do grupo amina por grupo carbonil). A hipoxantina pode ser modificada a partir da adenina. A xantina pode ser modificada a partir da guanina. Uracil pode resultar da desaminação de citosina. Um “nucleosídeo” consiste em uma nu- cleobase e um açúcar de cinco carbonos (ribose ou desoxirribose). Exemplos de um nucleosídeo incluem adenosina, guanosina, uridina, citidina, 5-metiluridina (m5U), desoxiadenosina, desoxiguanosina, timi- dina, desoxiuridina e desoxicitidina. Exemplos de um nucleosídeo com uma nucleobase modificada inclui inosina (I), xantosina (X), 7-metilgua- nosina (m7G), dihidrouridina (D), 5-metilcitidina (m5C), e pseudouridina (Ψ). Um “nucleotídeo” consiste em uma nucleobase, um açúcar de cinco carbonos (ribose ou desoxirribose), e pelo menos um grupo fosfato.
[0073] Os termos “ácido nucleico” e “molécula de ácido nucleico”, tal como aqui utilizados, referem-se a um composto compreendendo uma nucleobase e uma porção ácida, por exemplo, um nucleosídeo, um nucleotídeo ou um polímero de nucleotídeos. Normalmente, os ácidos nucleicos poliméricos, por exemplo, moléculas de ácido nucleico com- preendendo três ou mais nucleotídeos, são moléculas lineares, em que nucleotídeos adjacentes estão ligados entre si por meio de uma ligação fosfodiéster. Em algumas modalidades, “ácido nucleico” se refere a re- síduos de ácido nucleico individuais (por exemplo, nucleotídeos e/ou nucleosídeos). Em algumas modalidades, “ácido nucleico” se refere a uma cadeia de oligonucleotídeos compreendendo três ou mais resíduos de nucleotídeo individuais. Tal como aqui utilizado, os termos “oligonu- cleotídeo”, “polinucleotídeo”, e “ácido polinucleico” podem ser usados indistintamente para se referir a um polímero de nucleotídeos (por exemplo, uma cadeia de pelo menos três nucleotídeos). Em algumas modalidades, “ácido nucleico” engloba RNA, bem como DNA de fila- mento simples e/ou duplo. Os ácidos nucleicos podem ser de ocorrência natural, por exemplo, no contexto de um genoma, um transcrito, mRNA, tRNA, rRNA, siRNA, snRNA, um plasmídeo, cosmídeo, cromossomo, cromátide ou outras moléculas de ácido nucleico de ocorrência natural. Por outro lado, uma molécula de ácido nucleico pode ser uma molécula de ocorrência não natural, por exemplo, um DNA ou RNA recombinante, um cromossomo artificial, um genoma modificado, ou fragmento deste, ou um híbrido de DNA, RNA, DNA/RNA sintético, ou incluindo nucleotí- deos ou nucleosídeos de ocorrência não natural. Além disso, os termos
“ácido nucleico”, “DNA”, “RNA” e/ou termos semelhantes incluem aná- logos de ácido nucleico, por exemplo, análogos tendo outra que não uma estrutura de fosfodiéster. Os ácidos nucleicos podem ser purifica- dos a partir de fontes naturais, produzidos usando sistemas de expres- são recombinantes e opcionalmente purificados, sintetizados quimica- mente etc. Quando apropriado, por exemplo, no caso de moléculas sin- tetizadas quimicamente, os ácidos nucleicos podem compreender aná- logos de nucleosídeo, tais como análogos tendo bases ou açúcares qui- micamente modificadas, e modificações de estrutura. Uma sequência de ácido nucleico é apresentada na direção de 5’ para 3’, salvo indica- ção em contrário. Em algumas modalidades, um ácido nucleico é ou compreende nucleosídeos naturais (por exemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoximidina, desoxigua- nosina e desoxicitidina); análogos de nucleosídeo (por exemplo, 2-ami- noadenosina, 2-tiotimidina, inosina, pirrolopirimidina, 3-metil adenosina, 5-metilcitidina, 2-aminoadenosina, C5-bromouridina, C5-fluorouridina, C5-iodouridina, C5-propinil-uridina, C5-propinil-uridina, C5-propinil-citi- dina, C5-metilcitidina, 2-aminoadenosina, 7-deazaadenosina, 7-deaza- guanosina, 8-oxoadenosina, 8-oxoguanosina, O6-metilguanina e 2-tioci- tidina); bases quimicamente modificadas; bases biologicamente modifi- cadas (por exemplo, bases metiladas); bases intercaladas; açúcares modificados (por exemplo, 2’-fluororibose, ribose, 2’-desoxirribose, ara- binose e hexose); e/ou grupos fosfato modificados (por exemplo, liga- ções fosforotioatos e 5’-N-fosforamidita).
[0074] O termo “proteína de ligação ao DNA programável de ácido nucleico” ou “napDNAbp” pode ser usado indistintamente com “domínio de ligação de nucleotídeo programável de polinucleotídeo” para se re- ferir a uma proteína que se associa a um ácido nucleico (por exemplo, DNA ou RNA), tal como como ácido nucleico guia ou polinucleotídeo guia (por exemplo, gRNA), que guia a napDNAbp para uma sequência específica de ácido nucleico.
Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo.
Em algumas modalida- des, o domínio de ligação de nucleotídeo programável de polinucleotí- deo é um domínio de ligação de RNA programável de polinucleotídeo.
Em algumas modalidades, o domínio de ligação de nucleotídeo progra- mável de polinucleotídeo é uma proteína Cas9. Uma proteína Cas9 pode associar-se a um RNA guia que guia a proteína Cas9 para uma sequência de DNA específica que é complementar ao RNA guia.
Em algumas modalidades, a napDNAbp é um domínio de Cas9, por exem- plo, uma Cas9 ativa de nuclease, uma Cas9 nickase (nCas9), ou uma Cas9 inativa de nuclease (dCas9). Exemplos não limitantes de proteí- nas de ligação de DNA programáveis de ácido nucleico incluem, Cas9 (por exemplo, dCas9 e nCas9), Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i.
Exemplos não limitantes de enzimas Cas incluem Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas8a, Cas8b, Cas8c, Cas9 (também conhecida como Csn1 ou Csx12), Cas10, Cas10d, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, Cas12i, Csy1, Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csx11, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, proteínas efetoras Cas Tipo II, proteínas efetoras Cas Tipo V, proteínas efetoras Cas Tipo VI, CARF, DinG, seus homólogos, ou suas versões modificadas ou pro- jetadas.
Outras proteínas de ligação a DNA programáveis de ácido nu- cleico também estão dentro do escopo desta divulgação, embora pos-
sam não ser listadas especificamente nesta divulgação. Ver, por exem- plo, Makarova et al. “Classification and Nomenclature of sistemas CRISPR-Cas: Ehere from Here?” CRISPR J. Out 2018; 1: 325-336. doi:
10.1089/crispr.2018.0033; Yan et al., Functionally diverse type V siste- mas CRISPR-Cas” Science. 4 de janeiro de 2019; 363(6422):88-91. doi:
10.1126/science.aav7271, todo o conteúdo de cada um dos quais é aqui incorporado por referência.
[0075] Os termos “domínio de edição de nucleobase” ou “proteína de edição de nucleobase”, tal como aqui utilizados, referem-se a uma proteína ou enzima que pode catalisar uma modificação de nucleobase em RNA ou DNA, tal como citosina (ou citidina) em uracil (ou uridina) ou timina (ou timidina), e adenina (ou adenosina) em desaminações de hi- poxantina (ou inosina), bem como adições e inserções de nucleotídeos não modelados. Em algumas modalidades, o domínio de edição de nu- cleobase é um domínio de desaminase (por exemplo, uma adenina de- saminase ou uma adenosina desaminase; ou uma citidina desaminase ou uma citosina desaminase). Em algumas modalidades, o domínio de edição de nucleobase é mais de um domínio de desaminase (por exem- plo, uma adenina desaminase ou uma adenosina desaminase e uma citidina ou uma citosina desaminase). Em algumas modalidades, o do- mínio de edição de nucleobase pode ser um domínio de edição de nu- cleobase de ocorrência natural. Em algumas modalidades, o domínio de edição de nucleobase pode ser um domínio de edição de nucleobase modificado ou desenvolvido a partir do domínio de edição de nucleo- base de ocorrência natural. O domínio de edição de nucleobase pode ser de qualquer organismo, tal como uma bactéria, ser humano, chim- panzé, gorila, macaco, vaca, cão, rato ou camundongo.
[0076] Tal como aqui utilizado, “obter” como em “obter um agente” inclui sintetizar, comprar ou, de outra forma, adquirir o agente.
[0077] Um “paciente” ou “indivíduo”, conforme aqui utilizado, se re- fere a um indivíduo mamífero ou um indivíduo com diagnóstico de, sob risco de desenvolvimento, ou suspeito de ter ou desenvolver uma do- ença ou distúrbio. Em algumas modalidades, o termo “paciente” se re- fere a um indivíduo mamífero com uma probabilidade maior do que a média de desenvolver uma doença ou distúrbio. Pacientes exemplifica- tivos podem ser seres humanos, primatas não humanos, gatos, cães, porcos, bovinos, gatos, cavalos, camelos, lhamas, cabras, ovelhas, ro- edores (por exemplo, camundongos, coelhos, ratos ou porquinhos-da- índia) e outros mamíferos que podem se beneficiar das terapias aqui divulgadas. Pacientes humanos exemplificativos podem ser machos e/ou fêmeas.
[0078] “Paciente em necessidade deste” ou “indivíduo em necessi- dade deste” é referido neste documento como um paciente diagnosti- cado com, em risco ou tendo, predeterminado a ter ou suspeito de ter uma doença ou distúrbio.
[0079] Os termos “mutação patogênica”, “variante patogênica”, “mu- tação em invólucro da doença”, “variante causadora da doença”, “muta- ção deletéria” ou “mutação predisponente” referem-se a uma alteração ou mutação genética que aumenta a suscetibilidade ou predisposição de um indivíduo a uma determinada doença ou distúrbio. Em algumas modalidades, a mutação patogênica compreende pelo menos um ami- noácido de tipo selvagem substituído por pelo menos um aminoácido patogênico em uma proteína codificada por um gene.
[0080] Os termos “proteína”, “peptídeo”, “polipeptídeo” e seus equi- valentes gramaticais são usados indistintamente aqui, e referem-se a um polímero de resíduos de aminoácido ligados entre si por ligações peptídicas (amida). Os termos referem-se a uma proteína, peptídeo ou polipeptídeo de qualquer tamanho, estrutura ou função. Normalmente,
uma proteína, peptídeo ou polipeptídeo terá pelo menos três aminoáci- dos de comprimento.
Uma proteína, peptídeo ou polipeptídeo pode re- ferir-se a uma proteína individual ou a uma coleção de proteínas.
Um ou mais dos aminoácidos em uma proteína, peptídeo ou polipeptídeo po- dem ser modificados, por exemplo, pela adição de uma entidade quí- mica como um grupo carboidrato, um grupo hidroxil, um grupo fosfato, um grupo farnesil, um grupo isofarnesil, um grupo de ácido graxo, um ligante para conjugação, funcionalização ou outras modificações etc.
Uma proteína, peptídeo ou polipeptídeo também pode ser uma única molécula ou pode ser um complexo multimolecular.
Uma proteína, pep- tídeo ou polipeptídeo pode ser apenas um fragmento de uma proteína ou peptídeo de ocorrência natural.
Uma proteína, peptídeo ou polipeptí- deo pode ser de ocorrência natural, recombinante, ou sintético, ou qual- quer combinação dos mesmos.
O termo “proteína de fusão”, como aqui utilizado, se refere a um polipeptídeo híbrido que compreende domínios de proteína de pelo menos duas proteínas diferentes.
Uma proteína pode estar localizada na porção amino-terminal (N-terminal) da proteína de fusão ou na proteína carbóxi-terminal (C-terminal) formando assim uma proteína de fusão amino-terminal ou uma proteína de fusão car- bóxi-terminal, respectivamente.
Uma proteína pode compreender dife- rentes domínios, por exemplo, um domínio de ligação de ácido nucleico (por exemplo, o domínio de ligação de gRNA de Cas9 que direciona a ligação da proteína a um sítio alvo) e um domínio de clivagem de ácido nucleico, ou um domínio catalítico de uma proteína de edição de ácido nucleico.
Em algumas modalidades, uma proteína compreende uma parte proteica, por exemplo, uma sequência de aminoácido que constitui um domínio de ligação de ácido nucleico, e um composto orgânico, por exemplo, um composto que pode atuar como um agente de clivagem de ácido nucleico.
Em algumas modalidades, uma proteína está em um complexo com, ou está em associação com, um ácido nucleico, por exemplo, RNA ou DNA. Qualquer uma das proteínas aqui fornecidas pode ser produzida por qualquer método conhecido na técnica. Por exemplo, as proteínas aqui fornecidas podem ser produzidas através de expressão e purificação de proteína recombinante, que é especialmente adequada para proteínas de fusão compreendendo um ligante peptí- dico. Métodos para expressão e purificação de proteína recombinante são bem conhecidos, e incluem aqueles descritos por Green e Sam- brook, Molecular Cloning: A Laboratory Manual (4ª ed., Cold Spring Har- bor Laboratory Press, Cold Spring Harbor, NY (2012)), todo o conteúdo dos quais é aqui incorporado por referência.
[0081] Os polipeptídeos e proteínas aqui divulgados (incluindo por- ções funcionais e variantes funcionais dos mesmos) podem compreen- der aminoácidos sintéticos no lugar de um ou mais aminoácidos de ocor- rência natural. Tais aminoácidos sintéticos são conhecidos na técnica, e incluem, por exemplo, ácido aminociclohexanocarboxílico, norleucina, ácido α-amino n-decanoico, homosserina, S-acetilaminometil-cisteína, trans-3- e trans-4-hidroxiprolina, 4-aminofenilalanina, 4-nitrofenilala- nina, 4-clorofenilalanina, 4-carboxifenilalanina, β-fenilserina β-hidroxife- nilalanina, fenilglicina, α-naftilalanina, ciclohexilalanina, ciclohexilglicina, ácido indolina-2-carboxílico, ácido 1,2,3,4-tetrahidroisoquinolina-3-car- boxílico, ácido aminomalônico, monoamida de ácido aminomalônico, N’- benzil-N’-metil-lisina, N’,N’-dibenzil-lisina, 6-hidroxilisina, ornitina, ácido α-aminociclopentano carboxílico, ácido α-aminociclohexano carboxílico, ácido α-aminocicloheptano carboxílico, ácido α-(2-amino-2-norbor- nano)-carboxílico, ácido α,γ-diaminobutírico, ácido α,β-diaminopropiô- nico, homofenilalanina, e α-terc-butilglicina. Os polipeptídeos e proteí- nas podem ser associados a modificações spós-translacionais de um ou mais aminoácidos dos constructos de polipeptídeo. Exemplos não limitantes de modificações pós-translacionais incluem fosforilação, aci- lação incluindo acetilação e formilação, glicosilação (incluindo N-ligado e O-ligado), amidação, hidroxilação, alquilação incluindo metilação e eti- lação, ubiquitilação, adição de ácido pirrolidona carboxílico, formação de pontes dissulfeto, sulfatação, miristoilação, palmitoilação, isoprenila- ção, farnesilação, geranilação, glipiação, lipoilação e iodação.
[0082] O termo “recombinante”, como aqui utilizado no contexto de proteínas ou ácidos nucleicos, se refere a proteínas ou ácidos nucleicos que não ocorrem na natureza, mas são produto da engenharia humana. Por exemplo, em algumas modalidades, uma proteína recombinante ou molécula de ácido nucleico compreende uma sequência de aminoácido ou nucleotídeo que compreende pelo menos um, pelo menos dois, pelo menos três, pelo menos quatro, pelo menos cinco, pelo menos seis, ou pelo menos sete mutações em comparação com qualquer sequência de ocorrência natural.
[0083] “Reduz” significa uma alteração negativa de pelo menos 10%, 25%, 50%, 75% ou 100%.
[0084] “Referência” significa uma condição padrão ou de controle. Em uma modalidade, a referência é uma célula do tipo selvagem ou saudável. Em outras modalidades e sem limitação, uma referência é uma célula não tratada que não seja submetida a uma condição de teste, ou seja submetida a placebo ou solução salina normal, meio, tam- pão e/ou um vetor de controle que não abrigue um polinucleotídeo de interesse.
[0085] Uma “sequência de referência” é uma sequência definida usada como base para a comparação de sequência. Uma sequência de referência pode ser um subconjunto de toda uma sequência especifi- cada; por exemplo, um segmento de uma sequência de gene ou cDNA de comprimento total, ou a sequência de gene ou cDNA completa. Para polipeptídeos, o comprimento da sequência de polipeptídeo de referên- cia será geralmente pelo menos cerca de 16 aminoácidos, pelo menos cerca de 20 aminoácidos, pelo menos cerca de 25 aminoácidos, cerca de 35 aminoácidos, cerca de 50 aminoácidos ou cerca de 100 aminoá- cidos. Para ácidos nucleicos, o comprimento da sequência de ácido nu- cleico de referência será geralmente pelo menos cerca de 50 nucleotí- deos, pelo menos cerca de 60 nucleotídeos, pelo menos cerca de 75 nucleotídeos, cerca de 100 nucleotídeos ou cerca de 300 nucleotídeos ou qualquer número inteiro entre eles. Em algumas modalidades, uma sequência de referência é uma sequência de tipo selvagem de uma pro- teína de interesse. Em outras modalidades, uma sequência de referên- cia é uma sequência de polinucleotídeo que codifica uma proteína de tipo selvagem.
[0086] Os termos “nuclease programável de RNA” e “nuclease gui- ada por RNA” são usados com (por exemplo, se liga ou se associa a) um ou mais RNAs que não são um alvo para clivagem. Em algumas modalidades, uma nuclease programável de RNA, quando em um com- plexo com um RNA, pode ser referida como um complexo nu- clease:RNA. Normalmente, o(s) RNA(s) ligado(s) é(são) referido(s) como um RNA guia (gRNA). Em algumas modalidades, a nuclease pro- gramável de RNA é a endonuclease Cas9 (sistema associado a CRISPR), por exemplo, Cas9 (Csnl) de Streptococcus pyogenes (Vide, por exemplo, “Complete genome sequence of an Ml strain of Strepto- coccus pyogenes.” Ferretti J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Primeaux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658-4663(2001); “CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.” Deltcheva E., Chylinski K., Sharma CM., Gonzales K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Nature 471:602-607(2011).
[0087] O termo “polimorfismo de nucleotídeo único (SNP)” é uma variação em um único nucleotídeo que ocorre em uma posição especí- fica no genoma, em que cada variação está presente em algum grau apreciável dentro de uma população (por exemplo, > 1%). Por exemplo, em uma posição de base específica no genoma humano, o nucleotídeo C pode aparecer na maioria dos indivíduos, mas em uma minoria de indivíduos, a posição é ocupada por um A. Isso significa que há um SNP nessa posição específica, e as duas variações de nucleotídeos possí- veis, C ou A, são ditas alelos para essa posição. SNPs fundamentam as diferenças na suscetibilidade à doença. A gravidade da doença e a forma como o corpo responde aos tratamentos também são manifesta- ções de variações genéticas. SNPs podem estar dentro de regiões de codificação de genes, regiões de não codificação de genes, ou nas re- giões intergênicas (regiões entre genes). Em algumas modalidades, os SNPs dentro de uma sequência de codificação não alteram necessaria- mente a sequência de aminoácido da proteína que é produzida, devido à degenerescência do código genético. SNPs na região de codificação são de dois tipos: SNPs sinônimos e não-sinônimos. SNPs sinônimos não afetam a sequência da proteína, enquanto SNPs não sinônimos al- teram a sequência de aminoácido da proteína. Os SNPs não sinônimos são de dois tipos: missense e nonsense. SNPs que não estão em regi- ões de codificação de proteína ainda podem afetar o splicing de genes, ligação de fator de transcrição, degradação de RNA mensageiro ou a sequência de RNA de não codificação. A expressão de gene afetada por esse tipo de SNP é conhecida como eSNP (SNP de expressão) e pode estar a montante ou a jusante do gene. Uma única variante de nucleotídeo (SNV) é uma variação em um único nucleotídeo sem quais- quer limitações de frequência e pode surgir em células somáticas. Uma variação somática de um nucleotídeo único também pode ser chamada de alteração de um único nucleotídeo.
[0088] Por “liga-se especificamente”, entende-se uma molécula de ácido nucleico, polipeptídeo ou complexo do mesmo (por exemplo, uma proteína de ligação de DNA programável de ácido nucleico e ácido nu- cleico guia), composto, ou molécula que reconhece e se liga a um poli- peptídeo e/ou molécula de ácido nucleico da invenção, mas que não reconhece substancialmente e se liga a outras moléculas em uma amostra, por exemplo, uma amostra biológica.
[0089] Moléculas de ácido nucleico úteis nos métodos da invenção incluem qualquer molécula de ácido nucleico que codifica um polipeptí- deo da invenção ou um fragmento do mesmo. Essas moléculas de ácido nucleico não precisam ser 100% idênticas a uma sequência de ácido nucleico endógena, mas exibirão tipicamente identidade substancial. Polinucleotídeos tendo “identidade substancial” coma uma sequência endógena são tipicamente capazes de hibridizar com pelo menos um filamento de uma molécula de ácido nucleico de filamento duplo. Molé- culas de ácido nucleico úteis nos métodos da invenção incluem qualquer molécula de ácido nucleico que codifica um polipeptídeo da invenção ou um fragmento do mesmo. Essas moléculas de ácido nucleico não pre- cisam ser 100% idênticas a uma sequência de ácido nucleico endógena, mas exibirão tipicamente identidade substancial. Polinucleotídeos tendo “identidade substancial” com uma sequência endógena são tipicamente capazes de hibridizar com pelo menos um filamento de uma molécula de ácido nucleico de filamento duplo. “Hibridizar” significa emparelhar para formar uma molécula de filamento duplo entre sequências de poli- nucleotídeo complementares (por exemplo, um gene aqui descrito), ou suas porções, sob várias condições de estringência. (Vide, por exemplo, Wahl, G. M. e S. L. Berger (1987) Métodos Enzymol. 152:399; Kimmel, A. R. (1987) Métodos Enzymol. 152:507).
[0090] Por exemplo, a concentração estringente de sal será normal- mente inferior a cerca de 750 mM de NaCl e 75 mM de citrato trissódico, de preferência inferior a cerca de 500 mM de NaCl e 50 mM de citrato trissódico, e mais preferencialmente inferior a cerca de 250 mM de NaCl e 25 mM de citrato trissódico. Hibridização de baixa estringência pode ser obtida na ausência de solvente orgânico, por exemplo, formamida, enquanto a hibridização de alta estringência pode ser obtida na pre- sença de pelo menos cerca de 35% de formamida, e mais preferencial- mente pelo menos cerca de 50% de formamida. Condições de tempe- ratura estringentes normalmente incluirão temperaturas de pelo menos cerca de 30ºC, mais preferencialmente de pelo menos cerca de 37ºC, e mais preferencialmente de pelo menos cerca de 42ºC. Parâmetros adi- cionais variados, como tempo de hibridização, concentração de deter- gente, por exemplo, dodecil sulfato de sódio (SDS), e a inclusão ou ex- clusão de DNA transportador, são bem conhecidos dos versados na téc- nica. Vários níveis de estringência são alcançados combinando essas várias condições conforme necessário. Em uma modalidades preferida, a hibridização ocorrerá a 30ºC em 750 mM de NaCl, 75 mM de citrato trissódico e 1% de SDS. Em uma modalidade mais preferida, a hibrida- ção ocorrerá a 37ºC em 500 mM de NaCl, 50 mM de citrato trissódico, 1% de SDS, 35% de formamida e 100 µg/ml de DNA de espermatozoide de salmão desnaturado (ssDNA). Em uma modalidade mais preferida, a hibridização ocorrerá a 42ºC em 250 mM de NaCl, 25 mM de citrato trissódico, 1% de SDS, 50% de formamida e 200 μg/ml de ssDNA. Va- riações úteis nessas condições serão prontamente evidentes para os versados na técnica.
[0091] Para a maioria das aplicações, as etapas de lavagem que seguem a hibridização também variam em estringência. As condições de estringência de lavagem podem ser definidas pela concentração de sal e pela temperatura. Como acima, a estringência de lavagem pode ser aumentada diminuindo a concentração de sal ou aumentando a tem- peratura. Por exemplo, a concentração estringente de sal para as eta- pas de lavagem será preferencialmente inferior a cerca de 30 mM de
NaCl e 3 mM de citrato trissódico, e mais preferencialmente inferior a cerca de 15 mM de NaCl e 1,5 mM de citrato trissódico. Condições de temperatura estringentes para as etapas de lavagem normalmente in- cluirão uma temperatura de pelo menos cerca de 25ºC, mais preferen- cialmente de pelo menos cerca de 42ºC, e ainda mais preferencialmente de pelo menos cerca de 68ºC. Em uma modalidade, as etapas de lava- gem ocorrerão a 25ºC em 30 mM de NaCl, 3 mM de citrato trissódico e 0,1% de SDS. Em outra modalidade, as etapas de lavagem ocorrerão a 42 C em 15 mM de NaCl, 1,5 mM de citrato trissódico e 0,1% de SDS. Em uma modalidade mais preferida, as passos de lavagem ocorrerão a 68ºC em 15 mM de NaCl, 1,5 mM de citrato trissódico e 0,1% de SDS. Variações adicionais nestas condições serão facilmente evidentes para os versados na técnica. Técnicas de hibridação são bem conhecidas dos versados na técnica e são descritas, por exemplo, em Benton e Da- vis (Science 196:180, 1977); Grunstein e Hogness (Proc. Natl. Acad. Sci., USA 72:3961, 1975); Ausubel et al. (Current Protocols in Molecular Biology, Wiley Interscience, New York, 2001); Berger e Kimmel (Guide to Molecular Cloning Techniques, 1987, Academic Press, Nova York); e Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, New York.
[0092] Por “divisão” é significado dividido em dois ou mais fragmen- tos.
[0093] Uma “proteína Cas9 dividida” ou “Cas9 dividida” se refere a uma proteína Cas9 que é fornecida como um fragmento N-terminal e um fragmento C-terminal codificado por duas sequências de nucleotí- deo separadas. Os polipeptídeos correspondentes à porção N-terminal e a porção C-terminal da proteína Cas9 podem ser unidos para formar uma proteína Cas9 “reconstituída”. Em modalidades particulares, a pro- teína Cas9 é dividida em dois fragmentos dentro de uma região desor- denada da proteína, por exemplo, conforme descrito em Nishimasu et al., Cell, Volume 156, Issue 5, pp. 935-949, 2014, ou como descrito em Jiang et al. (2016) Science 351:867-871. Arquivo PDB: 5F9R, cada um dos quais é incorporado aqui por referência. Em algumas modalidades, a proteína é dividida em dois fragmentos em qualquer C, T, A ou S den- tro de uma região de SpCas9 entre cerca dos aminoácidos A292-G364, F445-K483 ou E565-T637, ou em posições correspondentes em qual- quer outra Cas9, variante de Cas9 (por exemplo, nCas9, dCas9), ou outra napDNAbp. Em algumas modalidades, a proteína é dividida em dois fragmentos em SpCas9 T310, T313, A456, S469, ou C574. Em al- gumas modalidades, o processo de dividir a proteína em dois fragmen- tos é referido como “divisão” da proteína.
[0094] Em outras modalidades, a porção N-terminal de uma prote- ína Cas9 compreende aminoácidos 1-573 ou 1-637 S. pyogenes Cas9 de tipo selvagem (SpCas9) (Sequência de Referência NCBI: NC_002737.2, Sequência de Referência Uniprot: Q99ZW2) e a porção C-terminal da proteína Cas9 compreende uma porção de aminoácidos 574-1368 ou 638-1368 de SpCas9 de tipo selvagem.
[0095] A porção C-terminal da Cas9 dividido pode ser unida com a porção N-terminal da Cas9 dividida para formar uma proteína Cas9 completa. Em algumas modalidades, a porção C-terminal de uma pro- teína Cas9 começa de onde a porção N-terminal da proteína Cas9 ter- mina. Assim, em algumas modalidades, a porção C-terminal da Cas9 dividida compreende uma porção de aminoácidos (551-651)-1368 de spCas9. “(551-651)-1368” significa começando em um aminoácido en- tre os aminoácidos 551-651 (inclusive) e terminando no aminoácido
1368. Por exemplo, a porção C-terminal da Cas9 dividida pode compre- ender uma porção de qualquer um dos aminoácidos 551-1368, 552- 1368, 553-1368, 554-1368, 555-1368, 556-1368, 557-1368, 558-1368, 559-1368, 560-1368, 561-1368, 562-1368, 563-1368, 564-1368, 565- 1368, 566-1368, 567-1368, 568-1368, 569-1368, 570-1368, 571-1368,
572-1368, 573-1368, 574-1368, 575-1368, 576-1368, 577-1368, 578- 1368, 579-1368, 580-1368, 581-1368, 582-1368, 583-1368, 584-1368, 585-1368, 586-1368, 587-1368, 588-1368, 589-1368, 590-1368, 591- 1368, 592-1368, 593-1368, 594-1368, 595-1368, 596-1368, 597-1368, 598-1368, 599-1368, 600-1368, 601-1368, 602-1368, 603-1368, 604- 1368, 605-1368, 606-1368, 607-1368, 608-1368, 609-1368, 610-1368, 611-1368, 612-1368, 613-1368, 614-1368, 615-1368, 616-1368, 617- 1368, 618-1368, 619-1368, 620-1368, 621-1368, 622-1368, 623-1368, 624-1368, 625-1368, 626-1368, 627-1368, 628-1368, 629-1368, 630- 1368, 631-1368, 632-1368, 633-1368, 634-1368, 635-1368, 636-1368, 637-1368, 638-1368, 639-1368, 640-1368, 641-1368, 642-1368, 643- 1368, 644-1368, 645-1368, 646-1368, 647-1368, 648-1368, 649-1368, 650-1368, ou 651-1368 de spCas9. Em algumas modalidades, a porção C-terminal da proteína Cas9 dividida compreende uma porção de ami- noácidos 574-1368 ou 638-1368 de SpCas9.
[0096] “Indivíduo” significa um mamífero, incluindo, mas sem limita- ção, um mamífero humano ou não humano, tal como um primata não humano (macaco), bovino, equino, canino, ovino ou felino.
[0097] “Substancialmente idêntico” significa um polipeptídeo ou molécula de ácido nucleico exibindo pelo menos 50% de identidade com uma sequência de aminoácido de referência (por exemplo, qualquer uma das sequências de aminoácido aqui descritas) ou sequência de ácido nucleico (por exemplo, qualquer uma das sequências de ácido nucleico aqui descritas). Em algumas modalidades, tal sequência é pelo menos 60%, 80%, 85%, 90%, 95% ou até 99% idêntica ao nível de ami- noácido ou nível de ácido nucleico com uma sequência usada para com- paração.
[0098] A identidade de sequência é normalmente medida usando software de análise de sequência (por exemplo, Sequence Analysis Sof-
tware Package of the Genetics Computer Group, Universidade de Wis- consin Biotechnology Center, 1710 University Avenue, Madison, Wis. 53705, ou programas BLAST, BESTFIT, GAP ou PILEUP/PRE- TTYBOX). Esse software combina sequências idênticas ou semelhan- tes, atribuindo graus de homologia a várias substituições, exclusões e/ou outras modificações. As substituições conservadoras geralmente incluem substituições dentro dos seguintes grupos: glicina, alanina; va- lina, isoleucina, leucina; ácido aspártico, ácido glutâmico, asparagina, glutamina; serina, treonina; lisina, arginina; e fenilalanina, tirosina. Em uma abordagem exemplificativa para determinar o grau de identidade, um programa BLAST pode ser usado, com uma pontuação de probabi- lidade entre e-3 e e-100 indicando uma sequência intimamente relacio- nada.
[0099] COBALT é usado, por exemplo, com os seguintes parâme- tros: a) parâmetros de alinhamento: penalidades de lacuna-11, -1 e penalidades de lacuna final-5, -1, b) Parâmetros CDD: Use RPS BLAST ligado; Valor E de Blast 0,003; Encontre colunas conservadas e recompute, e c) Parâmetros de agrupamento de consulta: use agrupamen- tos de consulta; Tamanho de Palavra 4; Distância máxima de agrupa- mento 0,8; Alfabeto regular.
[0100] EMBOSS Needle é usado, por exemplo, com os seguintes parâmetros: a) Matriz: BLOSUM62; b) LACUNA ABERTA: 10; c) LACUNA ESTENDIDA: 0,5; d) FORMATO DE SAÍDA: par; e) PENALIDADE DE LACUNA FINAL: falso; f) LACUNA ABERTA FINAL: 10; e g) LACUNA EXTENDIDA FINAL: 0,5.
[0101] O termo “sítio alvo” se refere a uma sequência dentro de uma molécula de ácido nucleico que é modificada por um editor de nucleo- base. Em uma modalidade, o sítio alvo é desaminado por uma desami- nase ou uma proteína de fusão compreendendo uma desaminase (por exemplo, uma proteína de fusão dCas9-adenosina desaminase ou um editor de base multiefetor divulgado aqui).
[0102] Como as nucleases programáveis por RNA (por exemplo, Cas9) usam hibridização de RNA:DNA para ter como alvo os sítios de clivagem de DNA, essas proteínas podem ser direcionadas, em princí- pio, a qualquer sequência especificada pelo RNA guia. Métodos de usar nucleases programáveis por RNA, tais como Cas9, para clivagem espe- cífica de sítio (por exemplo, para modificar um genoma) são conhecidos na técnica (vide, por exemplo, Cong, L. et ah, Multiplex genome engine- ering using CRISPR/Cas systems. Science 339, 819-823 (2013); Mali, P. et ah, RNA-guided human genome engineering via Cas9. Science 339, 823-826 (2013); Hwang, WY et ah, Efficient genome editing in ze- brafish using a CRISPR-Cas system. Nature biotechnology 31, 227-229 (2013); Jinek, M. et ah, RNA-programmed genome editing in human cells. eLife 2, e00471 (2013); Dicarlo, JE et ah, Genome engineering in Saccharomyces cerevisiae using sistemas CRISPR-Cas. Nucleic acids research (2013); Jiang, W. et ah RNA-guided editing of bacterial geno- mes using sistemas CRISPR-Cas. Nature biotechnology 31, 233-239 (2013); todo o conteúdo de cada dos quais é aqui incorporado por refe- rência).
[0103] Tal como aqui utilizado, os termos “tratar”, “tratando”, “trata- mento” e semelhantes referem-se à redução ou melhoria de um distúr- bio e/ou sintomas associados com a obtenção de um efeito farmacoló- gico e/ou fisiológico desejado. Será apreciado que, embora não seja im-
pedido, o tratamento de um distúrbio ou condição não requer que o dis- túrbio, condição ou sintomas associados a ele sejam completamente eliminados. Em algumas modalidades, o efeito é terapêutico, ou seja, sem limitação, o efeito reduz parcialmente ou completamente reduz, di- minui, anula, ameniza, alivia, diminui a intensidade de, ou cura uma do- ença e/ou sintoma adverso atribuível à doença. Em algumas modalida- des, o efeito é preventivo, ou seja, o efeito protege ou previne a ocor- rência ou recorrência de uma doença ou condição. Para este fim, os métodos presentemente divulgados compreendem a administração de uma quantidade terapeuticamente eficaz de uma composição como aqui descrito.
[0104] “Inibidor de uracil glicosilase” ou “UGI” significa um agente que inibe o sistema de reparo de excisão de uracil. Em uma modalidade, o agente é uma proteína ou fragmento deste que se liga a uma uracil- DNA glicosilase do hospedeiro e impede a remoção de resíduos de ura- cil do DNA. Em uma modalidade, um UGI é uma proteína, um fragmento da mesma, ou um domínio que é capaz de inibir uma enzima de reparo de excisão de base de uracil-DNA glicosilase. Em algumas modalida- des, um domínio de UGI compreende um UGI de tipo selvagem ou uma versão modificada dele. Em algumas modalidades, um domínio de UGI compreende um fragmento da sequência de aminoácido exemplificativa apresentada abaixo. Em algumas modalidades, um fragmento de UGI compreende uma sequência de aminoácido que compreende pelo me- nos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou 100% da sequência de UGI exemplificativa fornecida abaixo. Em algu- mas modalidades, um UGI compreende uma sequência de aminoácido que é homóloga à sequência de aminoácido de UGI exemplificativa ou fragmento desta, conforme estabelecido abaixo. Em algumas modalida- des, o UGI, ou uma parte dele, é pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, pelo menos 99,5%, pelo menos 99,9% ou 100% idêntico a um UGI de tipo selvagem ou uma sequência de UGI, ou parte dela, conforme esta- belecido abaixo. Um UGI exemplificativo compreende uma sequência de aminoácido como segue: >splP14739IUNGI_BPPB2 Inibidor de Uracil-DNA glicosilase MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDES- TDENVMLLT S D APE YKPW ALVIQDS NGENKIKML.
[0105] Os intervalos fornecidos neste documento são entendidos como uma abreviatura para todos os valores dentro do intervalo. Por exemplo, um intervalo de 1 a 50 é entendido como incluindo qualquer número, combinação de números ou subintervalo do grupo que consiste em 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, ou 50.
[0106] A citação de uma lista de grupos químicos em qualquer defi- nição de uma variável neste documento inclui definições dessa variável como qualquer grupo único ou combinação de grupos listados. A citação de uma modalidade para uma variável ou aspecto aqui inclui essa mo- dalidade como qualquer modalidade única ou em combinação com quaisquer outras modalidades ou porções das mesmas.
[0107] Quaisquer composições ou métodos fornecidos neste docu- mento podem ser combinados com uma ou mais de quaisquer das ou- tras composições e métodos fornecidos neste documento.
[0108] A descrição e exemplos neste documento ilustram modalida- des da presente divulgação em detalhes. Deve ser entendido que esta divulgação não está limitada às modalidades particulares aqui descritas e, como tal, podem variar. Aqueles versados na técnica reconhecerão que existem inúmeras variações e modificações desta divulgação, que são abrangidas dentro de seu escopo.
[0109] Todos os termos devem ser entendidos como seriam enten- didos por um versado na técnica. A menos que definido de outra forma, todos os termos técnicos e científicos usados neste documento têm o mesmo significado que o comumente entendido por alguém versado na técnica à qual a divulgação se refere.
[0110] A prática de algumas modalidades aqui divulgadas em- prega, salvo indicação em contrário, técnicas convencionais de imuno- logia, bioquímica, química, biologia molecular, microbiologia, biologia celular, DNA genômico e recombinante, que estão dentro da perícia na técnica. Vide, por exemplo, Sambrook e Green, Molecular Cloning: A Laboratory Manual, 4ª Edição (2012); a série Current Protocols in Mole- cular Biology (F. M. Ausubel, et al. eds.); a série Métodos In Enzymology (Academic Press, Inc.), PCR 2: A Practical Approach (M.J. MacPherson, B.D. Hames e G.R. Taylor eds. (1995)), Harlow e Lane, eds. (1988) An- tibodies, A Laboratory Manual, e Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6ª edição (R.I. Freshney, ed. (2010)).
[0111] Embora várias características da presente divulgação pos- sam ser descritas no contexto de uma única modalidade, as caracterís- ticas também pode ser fornecidas separadamente ou em qualquer com- binação adequada. Por outro lado, embora a presente divulgação possa ser descrita neste documento no contexto de modalidades separadas para maior clareza, a presente divulgação também pode ser implemen- tada em uma única modalidade. Os títulos das seções aqui utilizados são apenas para fins organizacionais e não devem ser interpretados como limitando o assunto descrito.
[0112] As características da presente divulgação são apresentadas com particularidade nas reivindicações anexas. Uma melhor compreen- são das características e vantagens da presente invenção será obtida por referência à descrição detalhada a seguir que estabelece modalida- des ilustrativas, nas quais os princípios da divulgação são utilizados, e em vista dos desenhos anexos, conforme descrito abaixo.
BREVE DESCRIÇÃO DOS DESENHOS
[0113] A Figura 1 mostra uma comparação da atividade modifica- dora de base do editor de base convencional ABE7.10 (parte superior) em relação a pNMG-B79 (meio), que é um editor de nucleobase multi- efetor, em relação à sequência não tratada (parte inferior).
[0114] A Figura 2 fornece esquemas mostrando três versões de edi- tores de nucleobase multiefetores.
[0115] Figuras 3A e 3B. A Figura 3A fornece esquemas dos editores de nucleobases multiefetores usados para modificar o DNA genômico mostrado na Figura 3B. A Figura 3B mostra uma comparação da ativi- dade de modificação de base dos editores de nucleobase multiefetores mostrados na Figura 3A.
[0116] Figuras 4A-4C. A Figura 4A fornece esquemas mostrando os domínios presentes nos editores de nucleobase multiefetores que foram usados para modificar um sítio HBG1 como mostrado nas Figuras 4B e 4C.
[0117] Figuras 5A-5C. A Figura 5A mostra uma comparação da ati- vidade de edição de base do editor de base convencional ABE7.10 (parte superior) em relação a pNMG-B79 (meio) em relação à sequência não tratada (parte inferior). Um esquema do editor de nucleobase mul- tiefetor pNMG-B79 também é fornecido. A Figura 5B mostra leituras exemplificativas dos resultados de sequenciamento resumidos na Fi- gura 5A. A Figura 5C mostra os resultados de sequenciamento para um experimento comparando a atividade do editor de base convencional ABE7.10 (parte superior) em relação a pNMG-B79.
[0118] A Figura 6 mostra uma comparação de taxas de indel entre ABE7.10 e pNMG-B79.
[0119] A Figura 7A e a Figura 7B mostram uma comparação da ati- vidade de edição de base do editor de base convencional ABE7.10 (parte superior) em relação aos editores de nucleobase multiefetores e sequência não tratada designados na parte inferior da Figura 7B. O per- centual de indels gerados é mostrado na extremidade direita da figura.
[0120] Figuras 8A-8F. As Figuras 8A e 8B são, respectivamente, um mapa de plasmídeo e sequência de nucleotídeo otimizada em códon para pCMV_ABEmax. As Figuras 8C e 8D são, respectivamente, um mapa de plasmídeo e sequência de nucleotídeo otimizada em códon para pCMV_AncBE4max. As Figuras 8E e 8F são, respectivamente, um mapa de plasmídeo e sequência de nucleotídeo otimizada em códon para pCMV_BE4max.
DESCRIÇÃO DETALHADA DA DIVULGAÇÃO
[0121] A invenção apresenta editores de nucleobase multiefetores e métodos de usá-los para gerar modificações em sequências de nu- cleobase alvo. A invenção é baseada, pelo menos em parte, na desco- berta surpreendente de que uma proteína de fusão compreendendo um domínio de citidina desaminase, domínio de nCas9, e domínio de ade- nosina desaminase é capaz de introduzir edições de base dupla em uma sequência alvo. Em particular, um editor de nucleobase multiefetor de polipeptídeo único converteu A em G e C em T em DNA quando ex- presso em células de mamíferos, por exemplo, células HEK293T.
[0122] Os editores de nucleobase multiefetores da invenção são proteínas de fusão que são úteis, inter alia, para edição direcionada de sequências de ácido nucleico. Tais proteínas de fusão podem ser utili- zadas para edição direcionada de DNA in vitro, por exemplo, para intro- duzir mutações que alteram a atividade de uma sequência reguladora, por exemplo, ou que alteram a atividade de uma proteína codificada, tal como uma região de determinação de complementaridade (CDR) de um anticorpo. Editor de Nucleobase
[0123] É aqui divulgado um editor de base ou um editor de nucleo- base para editar, modificar ou alterar uma sequência de nucleotídeo alvo de um polinucleotídeo. Aqui descrito é um editor de nucleobase ou um editor de base compreendendo um domínio de ligação de nucleotí- deo programável de polinucleotídeo e um domínio de edição de nucleo- base. Em uma modalidade específica, é fornecido um editor de nucleo- base multiefetor, que compreende um ou mais (por exemplo, dois) de um domínio de adenosina desaminase e um domínio de citidina desa- minase, bem como um domínio de DNA glicosilase, em que os domínios acima mencionados são fundidos a um domínio de ligação de polinucle- otídeo, formando assim um editor de nucleobase capaz de induzir mu- danças em múltiplas bases diferentes dentro de uma molécula de ácido nucleico. Um domínio de ligação de nucleotídeo programável de polinu- cleotídeo, quando em conjunto com um polinucleotídeo guia ligado (por exemplo, gRNA), pode se ligar especificamente a uma sequência de polinucleotídeo alvo (ou seja, por meio de emparelhamento de bases complementares entre bases do ácido nucleico guia ligado e bases da sequência de polinucleotídeo alvo) e, desse modo, localizar o editor de base para a sequência de ácido nucleico alvo desejada para ser editada. Em algumas modalidades, a sequência de polinucleotídeo alvo compre- ende DNA de filamento simples ou DNA de filamento duplo. Em algumas modalidades, a sequência de polinucleotídeo alvo compreende o RNA. Em algumas modalidades, a sequência de polinucleotídeo alvo compre- ende um híbrido de DNA-RNA. Domínio de Ligação de Nucleotídeo Programável de Polinucleotídeo
[0124] Deve ser apreciado que os domínios de ligação de nucleo- tídeo programável de polinucleotídeo também podem incluir proteínas programáveis de ácido nucleico que se ligam a RNA. Por exemplo, o domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser associado a um ácido nucleico que guia o domínio de ligação de nucleotídeo programável de polinucleotídeo a um RNA. Outras proteí- nas de ligação de DNA programáveis por ácido nucleico também estão dentro do escopo desta divulgação, embora não sejam especificamente listadas nesta divulgação.
[0125] Um domínio de ligação de nucleotídeo programável de poli- nucleotídeo de um editor de base pode, por si só, compreender um ou mais domínios. Por exemplo, um domínio de ligação de nucleotídeo pro- gramável de polinucleotídeo pode compreender um ou mais domínios de nuclease. Em algumas modalidades, o domínio de nuclease de um domínio de ligação de nucleotídeo programável de polinucleotídeo pode compreender uma endonuclease ou uma exonuclease. Aqui, o termo “exonuclease” se refere a uma proteína ou polipeptídeo capaz de digerir um ácido nucleico (por exemplo, RNA ou DNA) de extremidades livres, e o termo “endonuclease” se refere a uma proteína ou polipeptídeo ca- paz de catalisar (por exemplo, clivar) regiões internas em um ácido nu- cleico (por exemplo, DNA ou RNA). Em algumas modalidades, uma en- donuclease pode clivar um único filamento de um ácido nucleico de fila- mento duplo. Em algumas modalidades, uma endonuclease pode clivar ambos os filamentos de uma molécula de ácido nucleico de filamento duplo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser uma desoxirribonuclease. Em algumas modalidades, um domínio de ligação de nucleotídeo programá- vel de polinucleotídeo pode ser uma ribonuclease.
[0126] Em algumas modalidades, um domínio de nuclease de um domínio de ligação de nucleotídeo programável de polinucleotídeo pode cortar zero, um ou dois filamentos de um polinucleotídeo alvo. Em al-
guns casos, o domínio de ligação de nucleotídeo programável de poli- nucleotídeo pode compreender um domínio de nickase. Aqui, o termo “nickase” se refere a um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo um domínio de nuclease que é ca- paz de clivar apenas um filamento dos dois filamentos em uma molécula de ácido nucleico duplexada (por exemplo, DNA). Em algumas modali- dades, uma nickase pode ser derivada de uma forma totalmente ativa cataliticamente (por exemplo, natural) de um domínio de ligação de nu- cleotídeo programável de polinucleotídeo, introduzindo uma ou mais mutações no domínio de ligação de nucleotídeo programável de polinu- cleotídeo ativo. Por exemplo, quando um domínio de ligação de nucleo- tídeo programável de polinucleotídeo compreende um domínio de nickase derivado de Cas9, um domínio de nickase derivado de Cas9 pode incluir uma mutação D10A e uma histidina na posição 840. Nesses casos, o resíduo H840 mantém a atividade catalítica e pode, assim, cli- var um único filamento do duplex de ácido nucleico. Em outro exemplo, um domínio de nickase derivado de Cas9 pode compreender uma mu- tação em H840A, enquanto o resíduo de aminoácido na posição 10 per- manece um D. Em algumas modalidades, uma nickase pode ser deri- vada de uma forma totalmente ativa cataliticamente (por exemplo, natu- ral) de um domínio de ligação de nucleotídeo programável de polinucle- otídeo removendo toda ou uma porção de um domínio de nuclease que não é necessário para a atividade de nickase. Por exemplo, quando um domínio de ligação de nucleotídeo programável de polinucleotídeo com- preende um domínio de nickase derivado de Cas9, um domínio de nickase derivado de Cas9 pode compreender uma exclusão de todos ou uma porção do domínio RuvC ou do domínio HNH.
[0127] A sequência de aminoácido de uma Cas9 cataliticamente ativa exemplificativa é como segue:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA- TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD.
[0128] Um editor de base compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo compreendendo um do- mínio de nickase é, assim, capaz de gerar uma quebra de DNA de fila- mento simples (corte (nick)) em uma sequência alvo de polinucleotídeo específica (por exemplo, determinada pela sequência de complementa- ridade de um ácido nucleico guia ligado). Em algumas modalidades, a cadeia de uma sequência de polinucleotídeo alvo duplex de ácido nu- cleico que é clivada por um editor de base compreendendo um domínio de nickase (por exemplo, domínio de nickase derivado de Cas9) é a cadeia que não é editada pelo editor de base (ou seja, a cadeia que é clivada pelo editor de base é oposta a uma cadeia compreendendo uma base a ser editada). Em outras modalidades, um editor de base com- preendendo um domínio de nickase (por exemplo, domínio de nickase derivado de Cas9) pode clivar a cadeia de uma molécula de DNA que está sendo direcionada para edição. Em tais casos, a cadeia não dire- cionada não é clivada.
[0129] São também fornecidos aqui editores de base compreen- dendo um domínio de ligação de nucleotídeo programável de polinucle- otídeo que é cataliticamente morto (ou seja, incapaz de clivar uma se- quência de polinucleotídeo alvo). Aqui, os termos “cataliticamente morto” e “nuclease morta” são usados indistintamente para se referir a um domínio de ligação de nucleotídeo programável de polinucleotídeo que tem uma ou mais mutações e/ou exclusões resultando em sua in- capacidade de clivar uma cadeia de um ácido nucleico. Em algumas modalidades, um editor de base de domínio de ligação de nucleotídeo programável de polinucleotídeo cataliticamente morto pode não ter ati- vidade de nuclease como resultado de mutações pontuais específicas em um ou mais domínios de nuclease. Por exemplo, no caso de um editor de base compreendendo um domínio de Cas9, a Cas9 pode com- preender uma mutação em D10A e uma mutação em H840A. Essas mutações inativam ambos os domínios de nuclease, resultando na perda de atividade de nuclease. Em outras modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo catalitica- mente morto pode compreender uma ou mais exclusões de toda ou uma porção de um domínio catalítico (por exemplo, domínios RuvC1 e/ou HNH). Em modalidades adicionais, um domínio de ligação de nucleotí- deo programável de polinucleotídeo cataliticamente morto compreende uma mutação pontual (por exemplo, D10A ou H840A), bem como uma exclusão de toda ou uma porção de um domínio de nuclease.
[0130] São também contempladas aqui mutações capazes de ge- rar um domínio de ligação de nucleotídeo programável de polinucleotí- deo cataliticamente morto a partir de uma versão previamente funcional do domínio de ligação de nucleotídeo programável de polinucleotídeo. Por exemplo, no caso de Cas9 cataliticamente morta (“dCas9”), são for- necidas variantes com mutações diferentes de D10A e H840A, que re- sultam em Cas9 inativada por nuclease. Essas mutações, a título de exemplo, incluem outras substituições de aminoácido em D10 e H840, ou outras substituições dentro dos domínios de nuclease de Cas9 (por exemplo, substituições no subdomínio de nuclease HNH e/ou no sub- domínio RuvC1). Domínios de dCas9 inativos de nuclease adequados adicionais podem ser evidentes para aqueles versados na técnica com base nesta divulgação e conhecimento no campo, e estão dentro do escopo desta divulgação. Tais domínios de Cas9 inativos de nuclease adequados exemplificativos adicionais incluem, mas sem limitação, do- mínios mutantes D10A/H840A, D10A/D839A/H840A, e D10A/D839A/H840A/N863A (vide, por exemplo, Prashant et al., CAS9 transcriptional activators for target specificity screening and paired nickases for cooperative genome engineering. Nature Biotechnology. 2013; 31(9): 833-838, todo o conteúdo do qual é incorporado neste do- cumento por referência).
[0131] Exemplos não limitantes de um domínio de ligação de nu- cleotídeo programável de polinucleotídeo que pode ser incorporado em um editor de base incluem um domínio derivado de proteína CRISPR, uma nuclease de restrição, uma meganuclease, nuclease TAL (TALEN), e uma nuclease de dedo de zinco (ZFN). Em alguns casos, um editor de base compreende um domínio de ligação de nucleotídeo programá- vel de polinucleotídeo compreendendo uma proteína natural ou modifi- cada ou porção desta que, através de um ácido nucleico guia, é capaz de se ligar a uma sequência de ácido nucleico durante modificação me- diada por CRISPR (ou seja, Repetições Palindrômicas Curtas Agrupada Regularmente Interespaçadas) de um ácido nucleico. Tal proteína é re- ferida neste documento como uma “proteína CRISPR”. Nesse sentido, é aqui divulgado um editor de base compreendendo um domínio de li- gação de nucleotídeo programável de polinucleotídeo compreendendo toda ou uma porção de uma proteína CRISPR (ou seja, um editor de base compreendendo como um domínio toda ou uma porção de uma proteína CRISPR, também referida como um “domínio derivado da pro- teína CRISPR” do editor de base). Um domínio derivado da proteína CRISPR incorporado a um editor de base pode ser modificado em com- paração com uma versão natural ou de tipo selvagem da proteína CRISPR. Por exemplo, conforme descrito abaixo, um domínio derivado de proteína CRISPR pode compreender uma ou mais mutações, inser-
ções, exclusões, rearranjos e/ou recombinações em relação a uma ver- são natural ou de tipo selvagem ou da proteína CRISPR.
[0132] CRISPR é um sistema imune adaptativo que oferece prote- ção contra elementos genéticos móveis (vírus, elementos transponíveis e plasmídeos conjugativos). Os agrupamentos de CRISPR contêm es- paçadores, sequências complementares aos elementos móveis antece- dentes e ácidos nucleicos invasores do alvo. Os agrupamentos de CRISPR são transcritos e processados em RNA CRISPR (crRNA). Em sistemas CRISPR tipo II, o processamento correto do pré-crRNA requer um pequeno RNA trans-codificado (tracrRNA), ribonuclease endógena 3 (rnc) e uma proteína Cas9. O tracrRNA serve como um guia para o processamento de pré-crRNA auxiliado pela ribonuclease 3. Posterior- mente, Cas9/crRNA/tracrRNA endonucleoliticamente cliva o alvo de dsDNA linear ou circular complementar ao espaçador. A cadeia alvo não complementar ao crRNA é primeiramente cortada endonucleolitica- mente e, em seguida, aparada 3’-5’ exonucleoliticamente. Na natureza, a ligação e clivagem de DNA normalmente requer proteína e ambos os RNAs. No entanto, RNAs guia únicos (“sgRNA”, ou simplesmente “gNRA”) podem ser projetados de modo a incorporar aspectos de am- bos crRNA e tracrRNA em uma única espécie de RNA. Vide, por exem- plo, Jinek M., Chylinski K., Fonfara I., Hauer M., Doudna J. A., Charpen- tier E. Science 337:816-821 (2012), todo o conteúdo do qual é aqui in- corporado por referência. Cas9 reconhece um motivo curto nas sequên- cias de repetição de CRISPR (o motivo adjacente de PAM ou protoes- paçador) para ajudar a distinguir o self e o não self.
[0133] Em algumas modalidades, os métodos descritos neste do- cumento podem utilizar uma proteína Cas projetada. Um RNA guia (gRNA) é um RNA sintético curto composto por uma sequência de ar- cabouço necessária para ligação de Cas e um espaçador de ∼20 nucle-
otídeos definido pelo usuário que define o alvo genômico a ser modifi- cado. Assim, um versado na técnica poder alterar o alvo genômico da especificidade de proteína Cas é parcialmente determinado por quão específica a sequência de direcionamento de gRNA é para o alvo genô- mico em comparação com o resto do genoma.
[0134] Em algumas modalidades, a sequência de arcabouço de gRNA é como segue: GUUUUAGAGC UAGAAAUAGC AAGUUAAAAU
AAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU.
[0135] Em algumas modalidades, um domínio derivado de proteína CRISPR incorporado em um editor de base é uma endonuclease (por exemplo, desoxirribonuclease ou ribonuclease) capaz de se ligar a um polinucleotídeo alvo quando em conjunto com um ácido nucleico guia ligado. Em algumas modalidades, um domínio derivado de proteína CRISPR incorporado em um editor de base é uma nickase capaz de se ligar a um polinucleotídeo alvo quando em conjunto com um ácido nu- cleico guia ligado. Em algumas modalidades, um domínio derivado de proteína CRISPR incorporado em um editor de base é um domínio ca- taliticamente morto, capaz de se ligar a um polinucleotídeo alvo quando em conjunto com um ácido nucleico guia ligado. Em algumas modalida- des, um polinucleotídeo alvo ligado por um domínio derivado de proteína CRISPR de um editor de base é DNA. Em algumas modalidades, um polinucleotídeo alvo ligado por um domínio derivado de proteína CRISPR de um editor de base é RNA.
[0136] Proteínas Cas que podem ser usadas aqui incluem classe 1 e classe 2. Exemplos não limitantes de proteínas Cas incluem Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5d, Cas5t, Cas5h, Cas5a, Cas6, Cas7, Cas8, Cas9 (também conhecida como Csn1 ou Csx12), Cas10, Csy1, Csy2, Csy3, Csy4, Cse1, Cse2, Cse3, Cse4, Cse5e, Csc1, Csc2, Csa5, Csn1, Csn2, Csm1, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1,
Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx1S, Csf1, Csf2, CsO, Csf4, Csd1, Csd2, Cst1, Cst2, Csh1, Csh2, Csa1, Csa2, Csa3, Csa4, Csa5, Cas12a/Cpf1, Cas12b/C2c1, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, Cas12i, CARF, DinG, homólogos das mesmas ou versões mo- dificadas das mesmas. Uma enzima CRISPR não modificada pode ter atividade de clivagem de DNA, tal como Cas9, que possui dois domínios funcionais de endonuclease: RuvC e HNH. Uma enzima CRISPR pode direcionar a clivagem de uma ou ambas as cadeias em uma sequência alvo, tal como dentro de uma sequência alvo e/ou dentro de um com- plemento de uma sequência alvo. Por exemplo, uma enzima CRISPR pode direcionar a clivagem de uma ou ambas as cadeias dentro de cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 50, 100, 200, 500, ou mais pares de bases do primeiro ou último nucleotídeo de uma sequên- cia alvo.
[0137] Pode ser usado um vetor que codifica uma enzima CRISPR que é mutada com relação a uma enzima de tipo selvagem correspon- dente, tal que a enzima CRISPR mutada não tem a capacidade de clivar uma ou ambas as cadeias de um polinucleotídeo alvo contendo uma sequência alvo. Cas9 pode se referir a um polipeptídeo com pelo menos ou pelo menos cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas9 exemplificativo de tipo selvagem (por exemplo, Cas9 de S. pyogenes). Cas9 pode se referir a um polipeptídeo com no máximo ou no máximo cerca de 50%, 60%, 70%, 80%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou 100% de identidade de sequência e/ou homologia de sequência com um polipeptídeo Cas9 exemplificativo de tipo selvagem (por exem- plo, de S. pyogenes). Cas9 pode se referir ao tipo selvagem ou a uma forma modificada da proteína Cas9 que pode compreender uma altera- ção de aminoácido, tal como uma exclusão, inserção, substituição, va- riante, mutação, fusão, quimera ou qualquer combinação dos mesmos.
[0138] Em algumas modalidades, um domínio derivado de proteína CRISPR de um editor de base pode incluir toda ou uma porção de Cas9 de Corynebacterium ulcerans (Refs NCBI: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (Refs NCBI: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (Ref NCBI: NC_021284.1); Prevotella intermedia (Ref NCBI: NC_017861.1); Spiroplasma taiwa- nense (Ref NCBI: NC_021846.1); Streptococcus iniae (Ref NCBI: NC_021314.1); Belliella baltica (Ref NCBI: NC_018010.1); Psychrofle- xus torquis (Ref NCBI: NC_018721.1); Streptococcus thermophilus (Ref NCBI: YP_820832.1); Listeria innocua (Ref NCBI: NP_472073.1); Campylobacter jejuni (Ref NCBI: YP_002344900.1); Neisseria meningi- tidis (Ref NCBI: YP_002342100.1), Streptococcus pyogenes, ou Sta- phylococcus aureus. Domínios Cas9 de Editores de Nucleobase
[0139] Sequências e estruturas de nuclease Cas9 são bem conhe- cidas daqueles versados na técnica (vide, por exemplo, “Complete ge- nome sequence of an Ml strain of Streptococcus pyogenes.” Ferretti et al., J.J., McShan W.M., Ajdic D.J., Savic D.J., Savic G., Lyon K., Prime- aux C, Sezate S., Suvorov A.N., Kenton S., Lai H.S., Lin S.P., Qian Y., Jia H.G., Najar F.Z., Ren Q., Zhu H., Song L., White J., Yuan X., Clifton S.W., Roe B.A., McLaughlin R.E., Proc. Natl. Acad. Sci. U.S.A. 98:4658- 4663(2001); “CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.” Deltcheva E., Chylinski K., Sharma C.M., Gonza- les K., Chao Y., Pirzada Z.A., Eckert M.R., Vogel J., Charpentier E., Na- ture 471:602-607(2011); e “A programmable dual-RNA-guided DNA en- donuclease in adaptive bacterial immunity.” Jinek M., Chylinski K., Fon- fara I., Hauer M., Doudna J.A., Charpentier E. Science 337:816-
821(2012), todo o conteúdo de cada um dos quais é aqui incorporado por referência). Ortólogos de Cas9 foram descritos em várias espécies, incluindo, mas sem limitação, S. pyogenes e S. thermophilus. Sequên- cias e nucleases Cas9 adequadas adicionais serão evidentes para aqueles versados na técnica com base nesta divulgação, e tais sequên- cias e nucleases Cas9 incluem sequências de Cas9 dos organismos e loci divulgados em Chylinski, Rhun e Charpentier, “The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems” (2013) RNA Bi- ology 10:5, 726-737; todo o conteúdo do qual é incorporado aqui por referência.
[0140] Em alguns aspectos, uma proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp) é um domínio de Cas9. Domí- nios de Cas9 exemplificativos não limitantes são providos neste docu- mento. O domínio de Cas9 pode ser um domínio de Cas9 ativo de nu- clease, um domínio de Cas9 inativo de nuclease, ou uma Cas9 nickase. Em algumas modalidades, o domínio de Cas9 é um domínio ativo de nuclease. Por exemplo, um domínio de Cas9 pode ser um domínio de Cas9 que corta ambas as cadeias de um ácido nucleico duplexado (por exemplo, ambas as cadeias de uma molécula de DNA duplexada). Em algumas modalidades, o domínio de Cas9 compreende qualquer uma das sequências de aminoácido apresentadas aqui. Em algumas moda- lidades, o domínio de Cas9 compreende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácido apresentadas aqui. Em algumas modalidades, o domínio de Cas9 compreende uma sequência de aminoácido que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44,
45, 46, 47, 48, 49, 50 ou mais mutações em comparação com qualquer uma das sequências de aminoácido apresentadas aqui. Em algumas modalidades, o domínio de Cas9 compreende uma sequência de ami- noácido que tem pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000, pelo menos 1100, ou pelo menos 1200 resíduos de aminoácido idênticos contíguos em comparação com qualquer uma das sequências de aminoácido apre- sentadas aqui.
[0141] Em algumas modalidades, proteínas compreendendo frag- mentos de Cas9 são fornecidas. Por exemplo, em algumas modalida- des, uma proteína compreende um dos dois domínios de Cas9: (1) o domínio de ligação de gRNA de Cas9; ou (2) o domínio de clivagem de DNA de Cas9. Em algumas modalidades, as proteínas compreendendo Cas9 ou seus fragmentos são referidas como “variantes de Cas9”. Uma variante de Cas9 compartilha homologia com Cas9, ou um fragmento da mesma. Por exemplo, uma variante de Cas9 é pelo menos cerca de 70% idêntica, pelo menos cerca de 80% idêntica, pelo menos cerca de 90% idêntica, pelo menos cerca de 95% idêntica, pelo menos cerca de 96% idêntica, pelo menos cerca de 97% idêntica, pelo menos aproxima- damente 98% idêntica, pelo menos cerca de 99% idêntica, pelo menos cerca de 99,5% idêntica, ou pelo menos cerca de 99,9% idêntica a Cas9 de tipo selvagem. Em algumas modalidades, a variante de Cas9 pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais alterações de aminoá-
cido em comparação com Cas9 de tipo selvagem. Em algumas modali- dades, a variante de Cas9 compreende um fragmento de Cas9 (por exemplo, um domínio de ligação de gRNA ou um domínio de clivagem de DNA), tal que o fragmento seja pelo menos cerca de 70% idêntico, pelo menos cerca de 80% idêntico, pelo menos cerca de 90% idêntico, pelo menos cerca de 95% idêntico, pelo menos cerca de 96% idêntico, pelo menos cerca de 97% idêntico, pelo menos cerca de 98% idêntico, pelo menos cerca de 99% idêntico, pelo menos cerca de 99,5% idêntico, ou pelo menos cerca de 99,9% idêntico ao fragmento correspondente de Cas9 de tipo selvagem. Em algumas modalidades, o fragmento tem pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95% idêntico, pelo menos 96%, pelo me- nos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% do comprimento de aminoácido de uma Cas9 de tipo selvagem correspon- dente. Em algumas modalidades, o fragmento tem pelo menos 100 ami- noácidos de comprimento. Em algumas modalidades, o fragmento tem pelo menos 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000, 1050, 1100, 1150, 1200, 1250, ou pelo menos 1300 aminoácidos de comprimento.
[0142] Em algumas modalidades, as proteínas de fusão Cas9, con- forme fornecidas neste documento, compreendem a sequência de ami- noácido de de comprimento total de uma proteína Cas9, por exemplo, uma das sequências de Cas9 fornecidas neste documento. Em outras modalidades, no entanto, as proteínas de fusão, conforme fornecidas neste documento, não compreendem uma sequência de Cas9 de com- primento total, mas apenas um ou mais fragmentos da mesma. Sequên- cias de aminoácido exemplificativas de domínios de Cas9 e fragmentos de Cas9 adequados são aqui fornecidos, e as sequências de domínios e fragmentos de Cas9 adequadas adicionais serão evidentes para os versados na técnica.
[0143] Uma proteína Cas9 pode se associar com um RNA guia que orienta a proteína Cas9 a uma sequência de DNA específica que tem complementaridade ao RNA guia. Em algumas modalidades, o domínio de ligação de nucleotídeo programável de polinucleotídeo é um domínio de Cas9, por exemplo, uma Cas9 ativa de nuclease, uma Cas9 nickase (nCas9), ou uma Cas9 inativa de nuclease (dCas9). Exemplos de pro- teínas de ligação de DNA programáveis de ácido nucleico incluem, sem limitação, Cas9 (por exemplo, dCas9 e nCas9), Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i.
[0144] Em algumas modalidades, Cas9 de tipo selvagem corres- ponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_017053.1, sequências de nucleotídeo e aminoácido como seguem). ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGA- TGGGCGGTGAT-
CACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACA GACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAG- TGGAGAGACAG- CGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAA GAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAG- TAGATGATAG- TTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCAT GAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTAT- CATGAGAAATATCCAAC- TATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTG CGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGT- CATTTTTTGATTGAGG- GAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGT ACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAG- TAGATGCTAAAG- CGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGC TCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTG- CTTTGTCATTGGGA- TTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTAC AGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAA- TTGGAGATCAA- TATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTT CAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTT- CAATGATTAAG- CGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGAC AACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACG- GATATGCAGGT- TATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAA TTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCG- TGAAGATTTGCTG- CGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGG GTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTT- TAAAAGACAATCG- TGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCA TTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAG- TCTGAAGAAACAATTAC- CCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTT ATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTAC- TACCAAAACATAG- TTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATAT GTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACA- GAAGAAAGCCATTG- TTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG- TTGAAGATAGA- TTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATA AAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTT- TAACATTGAC- CTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCAC CTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGG- TTGGGGACG- TTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACA ATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAG- CTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGG TGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCA- GTCCTGCTAT- TAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTA ATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCA- GACAACT- CAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTA TCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACT- CAATTGCAAAA- TGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGAC CAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTT- CCACAAAGTTT- CATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAAT CGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGA- TGAAAAACTATTGGA- GACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAAC GAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTAT- CAAACGCCAATTGG- TTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCAT GAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGAT- TACCTTAAAA- TCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTG AGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTG- GAACTG- CTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTA TAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGG- CAAAGCAACCG- CAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTAC ACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGA- AACTGGAGAAA- TTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCAT GCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATT- CTCCAAGGAGTCAA- TTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGA TCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCC- TAGTGGTTGC- TAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTA GGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGAC- TTTTTAGAAGC- TAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATAT AGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGA- GAATTA- CAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATT TAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAA- CAAAAACAATTG- TTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTG AATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCT- TAGTGCATATAA- CAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTA TTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATA- CAACAATTGATCG- TAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAA TCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGG- TGACTGA MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI- GALLFGSGETAEA- TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIA QLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHS- LHEQIAN- LAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL
DATLIHQSITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[0145] Em algumas modalidades, Cas9 de tipo selvagem corres- ponde a, ou compreende as seguintes sequências de de nucleotídeo e/ou aminoácido: ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGA- TGGGCTGTCA-
TAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACAC AGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAG- TGGCGAAACGG- CAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAA GAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAG- TTGACGATT- CTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACA TGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATAT- CATGAAAAGTAC- CCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGG ACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGG- CACTTTCT- CATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATC CAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATG- CAAGTGGCGTGGA- TGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAAC CTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCT- TATAGCGCTCT- CACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGC CAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTAC- TGGCACAAATTG- GAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAAT CCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGT- TATCCGCTTCAA- TGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCT AGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAG- TCGAAAAACGGG- TACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTA TCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAAC- TCAATCGCGAA- GATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAA TCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTA- TCCGTTCCTCAAA- GACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATG TGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAG- TCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTG CGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTAC- CGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGT GTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAAC- CCGCCTTTC- TAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCG CAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATG- CTTCGATTCTG- TCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCA TGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAA- TGAAGATATCT- TAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGA GGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACA- GTTAAAGAGG- CGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAA GAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGG- CTTCGCCAATAG- GAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATA CAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTG- CGAATCTTGCTGG- TTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAG CTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGA- TGGCACGCGAAAA- TCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATA GAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTG- GAAAATACCCA- ATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATG TATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGAT- CACATTGTAC- CCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTC GGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCG- TAAAGAAAA- TGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAA GTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGA- CAAGGCCGGATTTA- TTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGAT ACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATT- CGGGAAGTCAAAG- TAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATT CTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCT- TAATGCCGTCG- TAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTA TGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACA- GGAGATAGG- CAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAG ACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAA- TTGAAACCAATGGGGA- GACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAA GTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGAC- CGGAGGGTTTT- CAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAA AAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTG- CCTATTCTGTCC- TAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAA AGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAAC- CCCATCGACTT- CCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTA CCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGC- TAGCGCCGGA- GAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCC TGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGA- TAACGAACAGAAG- CAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAA TTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAG- TATTAAGCGCA- TACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCC ATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTA- TTTTGACACAACGATA- GATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTC ACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAG- CTTGGGGGTGACGGA- TCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTG ATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCA- GGA MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA- TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL
DATLIHQSITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[0146] Em algumas modalidades, Cas9 de tipo selvagem corres- ponde a Cas9 de Streptococcus pyogenes (Sequência de Referência NCBI: NC_002737.2 (sequência de nucleotídeo como segue); e Se- quência de Referência Uniprot: Q99ZW2 (sequência de aminoácido como segue): ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGA- TGGGCGGTGAT-
CACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACA GACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAG- TGGAGAGACAG- CGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAA GAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAG- TAGATGATAG- TTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCAT GAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTAT- CATGAGAAATATCCAAC- TATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTG CGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGT- CATTTTTTGATTGAGG- GAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGT ACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAG- TAGATGCTAAAG- CGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGC TCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTG- CTTTGTCATTGGG- TTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTA CAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAA- ATTGGAGATCA- ATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTT TCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAG- CTTCAATGAT- TAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTT CGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAAT- CAAAAAACGGATATG- CAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAA ACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAA- TCGTGAAGA- TTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATT CACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTA- TCCATTTTTAAAAGA- CAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTT GGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAG- TCTGAAGAAACAAT- TACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCA TTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAG- TACTACCAAAACA- TAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAA TATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACA- GAAGAAAGCCATTG- TTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGA AGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAG- TTGAAGATAGA- TTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATA AAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTT- TAACATTGAC- CTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCAC CTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGG- TTGGGGACG- TTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACA ATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAG- CTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAG TGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGG- TAGCCCTGCTAT- TAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTA ATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAAT- CAGACAACT- CAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTA TCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACT- CAATTGCAAAA- TGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGAC CAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTT- CCACAAAGTTT- CCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAAT CGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGA- TGAAAAACTATTGGA- GACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAAC GAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTAT- CAAACGCCAATTGG- TTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCAT GAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGAT- TACCTTAAAA- TCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTG AGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTG- GAACTG- CTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTA TAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGG- CAAAGCAACCG- CAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTAC ACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGA- AACTGGAGAAA- TTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCAT GCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATT- CTCCAAGGAGTCAA- TTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGA TCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCC- TAGTGGTTGC- TAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTA GGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGAC- TTTTTAGAAGC- TAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATAT AGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGA- GAATTA- CAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATT TAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAA- CAAAAACAATTG- TTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTG AATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCT- TAGTGCATATAA- CAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTA TTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATA- CAACAATTGATCG- TAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAA TCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGG- TGACTGA MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA- TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL-
SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC)
[0147] Em algumas modalidades, Cas9 se refere a Cas9 de: Corynebacterium ulcerans (Refs NCBI: NC_015683.1, NC_017317.1); Corynebacterium diphtheria (Refs NCBI: NC_016782.1, NC_016786.1); Spiroplasma syrphidicola (Ref NCBI: NC_021284.1); Prevotella interme- dia (Ref NCBI: NC_017861.1); Spiroplasma taiwanense (Ref NCBI: NC_021846.1); Streptococcus iniae (Ref NCBI: NC_021314.1); Belliella baltica (Ref NCBI: NC_018010.1); Psychroflexus torquisI (Ref NCBI: NC_018721.1); Streptococcus thermophilus (Ref NCBI: YP_820832.1), Listeria innocua (Ref NCBI: NP_472073.1), Campylobacter jejuni (Ref NCBI: YP_002344900.1) ou Neisseria meningitidis (Ref NCBI: YP_002342100.1) ou a uma Cas9 de qualquer outro organismo.
[0148] Deve ser apreciado que proteínas Cas9 adicionais (por exemplo, uma Cas9 de morte de nuclease (dCas9), uma Cas9 nickase (nCas9), ou uma Cas9 ativa de nuclease), incluindo variantes e homó- logos das mesmas, estão dentro do escopo desta divulgação. Proteínas Cas9 exemplificativas incluem, sem limitação, aquelas fornecidas abaixo. Em algumas modalidades, a proteína Cas9 é uma Cas9 de morte de nuclease (dCas9). Em algumas modalidades, a proteína Cas9 é uma Cas9 nickase (nCas9). Em algumas modalidades, a proteína Cas9 é uma Cas9 ativa de nuclease.
[0149] Em algumas modalidades, o domínio de Cas9 é um domínio de Cas9 inativo para nuclease (dCas9). Por exemplo, o domínio de dCas9 pode se ligar a uma molécula de ácido nucleico duplexada (por exemplo, por meio de uma molécula de gRNA) sem clivar nenhuma das cadeias da molécula de ácido nucleico duplexada. Em algumas modali- dades, o domínio de dCas9 inativo de nuclease compreende uma mu- tação D10X e uma mutação H840X da sequência de aminoácido apre- sentada aqui, ou uma mutação correspondente em qualquer sequência de aminoácido aqui fornecida, em que X é qualquer alteração de ami- noácido. Em algumas modalidades, o domínio de dCas9 inativo para nuclease compreende uma mutação D10A e uma mutação H840A da sequência de aminoácido aqui apresentada, ou uma mutação corres- pondente em quaisquer das sequências de aminoácido aqui fornecidas. A título de exemplo, um domínio de Cas9 inativo para nuclease compre- ende a sequência de aminoácido apresentada no vetor de clonagem pPlatTET-gRNA2 (Nº. de Acesso BAV54124).
[0150] A sequência de aminoácido de uma Cas9 cataliticamente inativa exemplificativa (dCas9) é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL
DATLIHQSITGLYETRIDLSQLGGD (vide, por exemplo, Qi et al., “Repurposing CRISPR as an RNA-guided platform for sequence-specific control de gene expression.” Cell. 2013;
152(5):1173-83, todo o conteúdo do qual é aqui incorporado por refe- rência).
[0151] Em algumas modalidades, uma Cas9 nuclease tem um do- mínio de clivagem de DNA inativo (por exemplo, inativado), ou seja, a Cas9 é uma nickase, referida como uma proteína “nCas9” (para “nickase” Cas9). Uma proteína Cas9 inativada por nuclease pode ser intercambiavelmente referida como uma proteína “dCas9” (para Cas9 “morta” por nuclease) ou Cas9 cataliticamente inativa. Métodos para ge- rar uma proteína Cas9 (ou um fragmento da mesma) tendo um domínio de clivagem de DNA inativo são conhecidos (vide, por exemplo, Jinek et al., Science. 337:816-821(2012); Qi et al., “Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expres- sion” (2013) Cell. 28;152(5):1173-83, todo o conteúdo de cada um dos quais é aqui incorporado por referência). Por exemplo, o domínio de cli- vagem de DNA de Cas9 é conhecido por incluem dois subdomínios, o subdomínio de nuclease HNH e o subdomínio RuvC1. O subdomínio HNH cliva a cadeia complementar ao gRNA, ao passo que o subdomínio RuvC1 cliva a cadeia não complementar. Mutações dentro desses sub- domínios podem silenciar a atividade de nuclease de Cas9. Por exem- plo, as mutações D10A e H840A inativam completamente a atividade de nuclease de S. pyogenes Cas9 (Jinek et al., Science. 337:816- 821(2012); Qi et al., Cell. 28;152(5):1173-83 (2013)).
[0152] Em algumas modalidades, o domínio de dCas9 compreende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntico a qualquer um dos domínios de dCas9 providos neste documento. Em algumas modalidades, um domínio de Cas9 compreende uma sequên- cia de aminoácidos que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,
15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais mutações em comparação com qualquer uma das sequências de ami- noácido apresentadas aqui. Em algumas modalidades, um domínio de Cas9 compreende uma sequência de aminoácido que tem pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000, pelo menos 1100, ou pelo menos 1200 resíduos de aminoácido contíguos idênticos em comparação com qualquer uma das sequências de aminoácido apresentadas aqui.
[0153] Em algumas modalidades, dCas9 corresponde a, ou com- preende em parte ou no todo, uma sequência de aminoácido de Cas9 tendo uma ou mais mutações que inativam a atividade de Cas nuclease. Por exemplo, em algumas modalidades, um domínio de dCas9 compre- ende D10A e uma mutação em H840A ou mutações correspondentes em outra Cas9.
[0154] Em algumas modalidades, a dCas9 compreende a sequên- cia de aminoácido de dCas9 (D10A e H840A): MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL-
SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD (sublinhado simples: domínio HNH; sublinhado duplo: domínio RuvC).
[0155] Em algumas modalidades, um domínio de Cas9 compreende uma mutação em D10A, enquanto o resíduo na posição 840 permanece uma histidina na sequência de aminoácido provida acima, ou em posi- ções correspondentes em qualquer uma das sequências de aminoácido providas neste documento.
[0156] Em outras modalidades, variantes de dCas9 tendo mutações diferentes de D10A e H840A são providas, que, por exemplo, resultam em Cas9 inativada por nuclease (dCas9). Tais mutações, a título de exemplo, incluem outras substituições de aminoácido em D10 e H840, ou outras substituições dentro dos domínios de nucleases de Cas9 (por exemplo, substituições no subdomínio de nuclease HNH e/ou o subdo- mínio RuvC1). Em algumas modalidades, variantes ou homólogos de dCas9 são providos, que são pelo menos cerca de 70% idênticos, pelo menos cerca de 80% idênticos, pelo menos cerca de 90% idênticos, pelo menos cerca de 95% idênticos, pelo menos cerca de 98% idênti- cos, pelo menos cerca de 99% idênticos, pelo menos cerca de 99,5% idênticos, ou pelo menos cerca de 99,9% idênticos. Em algumas moda- lidades, variantes de dCas9 são providas tendo sequências de aminoá- cido que são mais curtas, ou mais longas, em cerca de 5 aminoácidos, cerca de 10 aminoácidos, cerca de 15 aminoácidos, cerca de 20 amino- ácidos, cerca de 25 aminoácidos, cerca de 30 aminoácidos, cerca de 40 aminoácidos, cerca de 50 aminoácidos, cerca de 75 aminoácidos, cerca de 100 aminoácidos ou mais.
[0157] Em algumas modalidades, o domínio de Cas9 é uma Cas9 nickase. A Cas9 nickase pode ser uma proteína que é capaz de clivar apenas uma cadeia de uma molécula de ácido nucleico duplexada (por exemplo, uma molécula de DNA duplexada). Em algumas modalidades, a Cas9 nickase cliva a cadeia alvo de uma molécula de ácido nucleico duplexada, o que significa que a Cas9 nickase cliva a cadeia que é a base emparelhada a (complementar a) um gRNA (por exemplo, um sgRNA) que é ligado a uma Cas9. Em algumas modalidades, uma Cas9 nickase compreende uma mutação em D10A e tem uma histidina na posição 840. Em algumas modalidades, a Cas9 nickase cliva a cadeia não-alvo e não editada de base de uma molécula de ácido nucleico du- plexada, o que significa que a Cas9 nickase cliva a cadeia que não é emparelhada em base a um gRNA (por exemplo, um sgRNA) que é li- gado à Cas9. Em algumas modalidades, uma Cas9 nickase compre- ende uma mutação em H840A e tem um resíduo de ácido aspártico na posição 10, ou uma mutação correspondente. Em algumas modalida- des, a Cas9 nickase compreende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das Cas9 nickases pro- vidas neste documento. Cas9 nickases adequadas adicionais serão evi- dentes para aqueles versados na técnica com base nesta divulgação e conhecimento no campo, e estão dentro do escopo desta divulgação.
[0158] A sequência de aminoácido de uma cas9 nickase catalitica- mente exemplificatica (nCas9) é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD
[0159] Em algumas modalidades, Cas9 se refere a uma Cas9 de archaea (por exemplo, nanoarchaea), que constitui um domínio e reino de micróbios procarióticos unicelulares. Em algumas modalidades, a proteína de ligação de nucleotídeo programável pode ser uma proteína CasX ou CasY, que foi descrita, por exemplo, em Burstein et al., “New sistemas CRISPR-Cas from uncultivated microbes.” Cell Res. 2017 Feb
21. doi: 10.1038/cr.2017.21, todo o conteúdo da qual é aqui incorporado por referência. Usando metagenômicos resolvidos por genoma, um nú- mero de sistemas CRISPR-Cas foi identificado, incluindo a primeira Cas9 reportada no domínio Archaea de vida. Essa pproteína Cas9 di- vergente foi encontrada em nanoarchaea pouco estudadas como parte de um sistema CRISPR-Cas ativo. Em bactérias, dois sistemas previa- mente conhecidos foram descobertos, CRISPR-CasX e CRISPR-CasY, que estão dentre os sistemas mais compactos já descobertos. Em algu- mas modalidades, em um sistema de editor de base descrito neste do- cumento, Cas9 é substituído por CasX, ou uma variante de CasX. Em algumas modalidades, em um sistema de editor de base descrito neste documento, Cas9 é substituído por CasY, ou uma variante de CasY. Deve ser apreciado que outras proteínas de ligação de DNA orientadas por RNA podem ser usadas como uma proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp), e estão dentro do escopo desta divulgação.
[0160] Em algumas modalidades, a proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão providas neste documento pode ser uma proteína CasX ou CasY. Em algumas modalidades, a napDNAbp é uma proteína CasX. Em algumas modalidades, a napDNAbp é uma proteína CasY. Em al- gumas modalidades, a napDNAbp compreende uma sequência de ami- noácido que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a uma proteína CasX ou CasY de ocor- rência natural. Em algumas modalidades, a proteína de ligação de nu- cleotídeo programável é uma proteína CasX ou CasY de ocorrência na- tural. Em algumas modalidades, a proteína de ligação de nucleotídeo programável compreende uma sequência de aminoácido que é pelo me- nos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer proteína CasX ou CasY descrita neste documento. Deve ser apreciado que CasX e CasY de outras espécies bacterianas podem também ser usadas de acordo com a presente divulgação.
[0161] Uma sequência de aminoácido de CasX exemplificativa ((uniprot.org/uniprot/F0NN87; uniprot.org/uniprot/F0NH53) tr|F0NN87|F0NN87_SULIH OS de proteína Casx associada a CRISPR = Sulfolobus islandicus (cepa HVE10/4) GN = SiH_0402 PE=4 SV=1) é como segue: MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKN- NEDAAAER-
RGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKN FSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLE- VEPHYLIIAAAGWVLTRLGKA- KVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSV TNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIAR- NALSISSNM- RERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISA YVNGELIRGEG.
[0162] Uma sequência de aminoácido de CasX exemplificativa (>tr|F0NH53|F0NH53_SULIR proteína associada a CRISPR, Casx OS = Sulfolobus islandicus (cepa REY15A) GN=SiRe_0771 PE=4 SV=1) é como segue: MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKN- NEDAAAER-
RGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKN FSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMA- AAGWVLTRLGKA- KVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSV TNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIAR- NALSISSNM- RERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAY VNGELIRGEG.
[0163] CasX de Deltaproteobactéria MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKK- PEVMPQVISNNA-
ANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKP EMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVA- EHEKLILLAQLKPVK-
DSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKA LSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKEN- LEYPSVTLPPQPHT- KEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERR ENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNEN- DHKKREGSLEN-
PKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEAR NAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGN- PFAVEAENRVV- DISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDI KKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFI- WNDLLSLETGLIKLAN- GRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIP AVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQR- RAGGYSRKFASKS- RNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKM EDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLK- KTSDGWAT- TLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRR DEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNS- TEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
[0164] Uma sequência de aminoácido de CasY exemplificativa ((ncbi.nlm.nih.gov/protein/APG80656.1) >APG80656.1 proteína CasY associada a CRISPR [bactéria do grupo Parcubacteria não cultivada]) é como segue: MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREI- VSAINDDY-
VGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVA EVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKK- DIIDCFKAEYRE- RHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNP LNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYI- GIGNSGTAFSNFL- GEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLRE PKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMIN- RFGESDTKEEA- VVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQ EALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPN- FYGDSKRELYK- KYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSV YRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKN- RVRLPSTENIAKA- GIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDIS ALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKE- FITRSAI- QTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEK SLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIK- CKQYKTLGRGQN- KIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDAL TVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTA- LEITGDSAKILDQN- FISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLA LKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKN- LQTTVWGKLAVASEI- SASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMR PPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQAS- QTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI.
[0165] Em algumas modalidades, a proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp) é um efetor único de um sis- tema CRISPR-Cas microbiano. Efetores únicos de sistemas CRISPR- Cas microbianos incluem, sem limitação, Cas9, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i. Tipicamente, sistemas CRISPR-Cas microbianos são divididos em sistemas Classe 1 e Classe 2. Sistemas Classe 1 têm complexos efetores multissubunidade, enquanto sistemas Classe 2 têm um único efetor de proteína. Por exemplo, Cas9 e Cpf1 são efetores Classe 2. Adicionalmente a Cas9 e Cpf1, três sistemas CRISPR-Cas Classe 2 distintos (Cas12b/C2c1, e Cas12c/C2c3) foram descritos por Shmakov et al., “Discovery and Functional Characterization of Diverse Class 2 CRISPR Cas Systems”, Mol. Cell, 2015 Nov. 5; 60(3): 385-397, todo o conteúdo do qual é aqui incorporado por referência. Efetores de dois dos sistemas, Cas12b/C2c1, e Cas12c/C2c3, contêm domínios de endonuclease tipo RuvC relacionados a Cpf1. Um terceiro sistema con- tém um efetor com dois domínios HEPN RNase predicados. A produção de RNA de CRISPR maduro é independente de tracrRNA, diferente- mente da produção de RNA de CRISPR por Cas12b/C2c1. Cas12b/C2c1 depende de ambos RNA de CRISPR e tracrRNA para cli- vagem de DNA.
[0166] A estrutura de cristal de Aliciclobaccillus acidoterras- tris Cas12b/C2c1 (AacC2c1) foi reportada no complexo com um RNA guia de molécula única quimérico (sgRNA). Vide, por exemplo, Liu et al., “C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism”, Mol. Cell, 2017 Jan. 19; 65(2):310-322, todo o conteúdo do qual é aqui incorporado por referência. A estrutura de cristal também foi reportada em Aliciclobacillus acidoterrestris C2c1 ligado a DNAs alvo como complexos ternários. Vide, por exemplo, Yang et al., “PAM-depen- dent Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas en- donuclease”, Cell, 2016 Dec. 15; 167(7):1814-1828, todo o conteúdo do qual é aqui incorporado por referência. Conformações cataliticamente competentes de AacC2c1, ambas com cadeias de DNA alvo e não alvo, foram capturadas independentemente positionadas dentro de uma única bolsa catalítica de RuvC, com clivagem mediada por Cas12b/C2c1 resultando em uma quebra escalonada de sete nucleotí- deos de DNA alvo. Comparações estruturais entre complexos ternários de Cas12b/C2c1 e contrapartes de Cas9 e Cpf1 previamente identifica- das demonstram a diversidade de mecanismos usados por sistemas CRISPR-Cas9.
[0167] Em algumas modalidades, a proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp) de qualquer uma das proteínas de fusão providas neste documento pode ser uma Cas12b/C2c1, ou uma proteína Cas12c/C2c3. Em algumas modalidades, a napDNAbp é uma proteína Cas12b/C2c1. Em algumas modalidades, a napDNAbp é uma proteína Cas12c/C2c3. Em algumas modalidades, a napDNAbp compreende uma sequência de aminoácido que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a uma proteína Cas12b/C2c1 ou Cas12c/C2c3 de ocorrência natural. Em algumas modalidades, a napDNAbp é uma proteína Cas12b/C2c1 ou Cas12c/C2c3 de ocorrência natural. Em algumas modalidades, a napD- NAbp compreende uma sequência de aminoácido que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos
97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de napDNAbp providas neste docu- mento. Deve ser apreciado que Cas12b/C2c1 ou Cas12c/C2c3 de ou- tras espécies bacterianas podem também ser usadas de acordo com a presente divulgação.
[0168] Uma Cas12b/C2c1 ((uniprot.org/uniprot/T0D7A2#2) sp|T0D7A2|C2C1_ALIAG endonuclease associada a CRISPR C2c1 OS = sequência de aminoácido de Aliciclobacillus acido-terrestris (cepa ATCC 49025/DSM 3922/ CIP 106132/NCIMB 13137/GD3B) GN=c2c1 PE=1 SV=1) é como segue: MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQEN- LYRRSPNGDGEQECD-
KTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAK GDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKE- KAETRKSADR- TADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIE RMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKE- ASPGLESKEQTA- HYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFA KLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIW- TRFDKLGGN- LHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLP RDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLN- VSVRVQSQSE- ARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLR VMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDN- LVAVHERSQLLKL- PGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLI EQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRH- MGKQVRDWRK- DVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRA EKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYAL- DERGKGKWVAKYPPCQLIL- LEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFS SRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPL- RADDLIPTGE- GEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDG ELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKL- SEEEAELLVEADE- AREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQD SACENTGDI.
[0169] Sequência de Referência NCBI de BhCas12b (Bacillus his- ashii): WP_095142515 MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYM- NILKLIRQEAI-
YEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILREL YEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKI- AGDPSWEEEKK- KWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSV RRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQAL- KALEQYEKER- QEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQR KHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKK- DAKQQATFTLADPI- NHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWE EKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGAR- VQFDRDHL- RRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKEL TEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIE- GKLFFPIKG- TELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQ QFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVA- FLKQLHKRLE- VEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEV RRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKK- KWQAKNPACQIIL- FEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFS SRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVL- KEGDLYPDKGGEKFIS- LSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESK DQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILK- DS- FDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSI STIEDDSSKQSMKRPAATKKAGQAKKKK
[0170] Em algumas modalidades, a Cas12b é BvCas12B, que é uma variante de BhCas12b e compreende as seguintes alterações em relação a BhCas12B: S893R, K846R, e E837G.
[0171] Sequência de Referência NCBI de BvCas12b (Bacillus sp. V3-13): WP_101661451.1 MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQE- AIGDKTKEAYQAE-
LINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNK FLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKD- PTVKIFDN- LNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESW NRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAP- NDGYFITSR- QIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRE NRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYES- PGGTNLNLF- KLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVK GKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFN- LVVDVAPLQE- TRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLE GMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRS- FLLNLPGEVVT- KNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQS YDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPY- VGQIVSKWRKGLSEGRKN- LAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNV KDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLN- RYLFNLDRSRRENS- RLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTE EDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKK- DSDNNELTVIHA- DINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGS FVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQK- KYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
[0172] A nuclease Cas9 possui dois domínios funcionais de endo- nuclease: RuvC e HNH. Cas9 sofre uma mudança conformacional na ligação ao alvo que posiciona os domínios de nuclease para clivar ca- deias opostas do DNA alvo. O resultado final da clivagem de DNA me- diada por Cas9 é uma quebra de cadeia dupla (DSB) dentro do DNA alvo (∼3-4 nucleotídeos a montante da sequência PAM). A DSB resul- tante é então reparada por uma de duas vias gerais de reparo: (1) a via de junção de extremidades não homólogas (NHEJ) eficiente, mas su- jeita a erros; ou (2) a via de reparo dirigido por homologia (HDR) menos eficiente, mas de alta fidelidade.
[0173] A “eficiência” de junção de extremidade não homóloga (NHEJ) e/ou reparo dirigido por homologia (HDR) pode ser calculada por qualquer método conveniente. Por exemplo, em alguns casos, a efi-
ciência pode ser expressa em termos de porcentagem de HDR de su- cesso. Por exemplo, um ensaio de nuclease de avaliação pode ser usado para gerar produtos de clivagem e a razão de produtos para subs- trato pode ser usada para calcular a porcentagem. Por exemplo, uma enzima de nuclease de análise pode ser usada, a qual cliva diretamente o DNA contendo uma sequência de restrição recém-integrada como re- sultado de HDR bem-sucedido. Mais substrato clivado indica uma maior porcentagem de HDR (uma maior eficiência de HDR). Como exemplo ilustrativo, uma fração (porcentagem) de HDR pode ser calculada usando a seguinte equação [(produtos de clivagem)/(substrato mais produtos de clivagem)] (por exemplo, (b+c)/(a+b+c), em que “a” é a in- tensidade de banda do substrato de DNA e “b” e “c” são os produtos de clivagem).
[0174] Em alguns casos, a eficiência pode ser expressa em termos de porcentagem de NHEJ de sucesso. Por exemplo, um ensaio de en- donuclease T7 I pode ser usado para gerar produtos de clivagem e a razão de produtos para substrato pode ser usada para calcular a por- centagem de NHEJ. A endonuclease T7 I cliva o DNA heteroduplex in- compatível que surge da hibridização de cadeias de DNA mutante e do tipo selvagem (NHEJ gera pequenas inserções ou exclusões aleatórias (indels) no sítio da quebra original). Mais clivagem indica uma porcen- tagem maior de NHEJ (uma maior eficiência de NHEJ). Como um exem- plo ilustrativo, uma fração (porcentagem) de NHEJ pode ser calculada usando a seguinte equação: (1- (1-(b+c)/(a+b+c))1/2)×100, em que “a” é a intensidade de banda do substrato de DNA e” b “e” c “são os produtos de clivagem (Ran et. al., Cell. 12 de setembro de 2013; 154(6):1380-9; e Ran et al., Nat Protoc. 2013 Nov.; 8(11):2281–2308).
[0175] A via de reparo de NHEJ é o mecanismo de reparo mais ativo, e frequentemente causa pequenas inserções ou exclusões de nu- cleotídeo (indels) no sítio de DSB. A aleatoriedade do reparo de DSB mediado por NHEJ tem implicações práticas importantes, pois uma po- pulação de células expressando Cas9 e um gRNA ou um polinucleotí- deo guia pode resultar em uma variedade de mutações. Na maioria dos casos, NHEJ dá origem a pequenos indels no DNA alvo que resultam em exclusões de aminoácido, inserções ou mutações desocamento de quadro levando a códons de parada prematuros dentro do quadro de leitura aberto (ORF) do gene alvo. O resultado final ideal é uma mutação em perda de função dentro do gene alvo.
[0176] Embora o reparo de DSB mediado por NHEJ muitas vezes interrompa o quadro de leitura aberto do gene, o reparo dirigido por ho- mologia (HDR) pode ser usado para gerar alterações de nucleotídeo específicas que variam de uma única alteração de nucleotídeo a gran- des inserções como a adição de um fluoróforo ou etiqueta.
[0177] A fim de utilizar HDR para edição de gene, um modelo de reparo de DNA contendo a sequência desejada pode ser entregue em uma célula tipo de interesse com o gRNA(s) e Cas9 ou Cas9 nickase. O modelo de reparo pode conter a edição desejada, bem como a se- quência homóloga adicional imediatamente a montante e a jusante do alvo (denominada braços de homologia esquerdo e direito). O compri- mento de cada braço de homologia pode depender do tamanho da alte- ração que está sendo introduzida, com inserções maiores requerendo braços de homologia mais longos. O modelo de reparo pode ser um oligonucleotídeo de cadeia simples, oligonucleotídeo de cadeia dupla ou um plasmídeo de DNA de cadeia dupla. A eficiência de HDR é geral- mente baixa (<10% dos alelos modificados) mesmo em células que ex- pressam Cas9, gRNA e um modelo de reparo exógeno. A eficiência de HDR pode ser aumentada sincronizando células, uma vez que o HDR ocorre durante as fases S e G2 de um ciclo de célula. Genes quimica- mente ou geneticamente inibidores envolvidos em NHEJ também po- dem aumentar a frequência de HDR.
[0178] Em algumas modalidades, Cas9 é uma Cas9 modificada. Uma dada sequência de direcionamento de gRNA pode ter sítios adici- onais em todo o genoma em que existe homologia parcial. Esses sítios são chamados de alvos não específicos (off-targets) e precisam ser con- siderados ao projetar um gRNA. Além de otimizar o projeto de gRNA, a especificidade de CRISPR também pode ser aumentada por meio de modificações em Cas9. A Cas9 gera quebras de cadeia dupla (DSBs) por meio da atividade combinada de dois domínios de nuclease, RuvC e HNH. Cas9 nickase, um mutante D10A de SpCas9, mantém um do- mínio de nuclease e gera um corte (nick) de DNA em vez de um DSB. O sistema de nickase também pode ser combinado com edição de ge- nes mediada por HDR para edições de genes específicos.
[0179] Em alguns casos, Cas9 é uma proteína Cas9 variante. Um polipeptídeo Cas9 variante tem uma sequência de aminoácido que é diferente por um aminoácido (por exemplo, tem uma exclusão, inserção, substituição, fusão) em comparação com a sequência de aminoácido de uma proteína Cas9 de tipo selvagem. Em alguns casos, o polipeptídeo Cas9 variante tem uma alteração de aminoácido (por exemplo, exclu- são, inserção ou substituição) que reduz a atividade de nuclease de um polipeptídeo Cas9. Por exemplo, em alguns casos, o polipeptídeo Cas9 variante tem menos de 50%, menos de 40%, menos de 30%, menos de 20%, menos de 10%, menos de 5%, ou menos de 1% da atividade de nuclease da proteína Cas9 de tipo selvagem correspondente. Em al- guns casos, a proteína Cas9 variante não tem atividade de nuclease substancial. Quando uma proteína Cas9 em questão é uma proteína Cas9 variante que não tem atividade de nuclease substancial, ela pode ser referida como “dCas9”.
[0180] Em alguns casos, a proteína Cas9 variante reduziu a ativi- dade de nuclease. Por exemplo, uma proteína Cas9 variante exibe me- nos do que cerca de 20%, menos do que cerca de 15%, menos do que cerca de 10%, menos do que cerca de 5%, menos do que cerca de 1%, ou menos do que cerca de 0,1% da atividade de endonuclease de uma proteína Cas9 de tipo selvagem, por exemplo, uma proteína Cas9 de tipo selvagem
[0181] Em alguns casos, uma proteína Cas9 variante pode clivar a cadeia complementar de uma sequência alvo guia, mas tem capacidade reduzida para clivar a cadeia não complementar de uma sequência alvo guia de cadeia dupla. Por exemplo, a proteína Cas9 variante pode ter uma mutação (substituição de aminoácido) que reduz a função do do- mínio RuvC. Como um exemplo não limitante, em algumas modalida- des, uma proteína Cas9 variante tem um D10A (aspartato para alanina na posição de aminoácido 10) e pode, portanto, clivar a cadeia comple- mentar de uma sequência alvo guia de cadeia dupla, mas tem capaci- dade reduzida de clivar a cadeia não complementar de uma sequência alvo guia de cadeia dupla (resultando assim em uma quebra de cadeia simples (SSB) em vez de uma quebra de cadeia dupla (DSB) quando a proteína Cas9 variante cliva um ácido nucleico alvo de cadeia dupla) (vide, por exemplo, Jinek et al., Science. 17 de agosto de 2012; 337 (6096): 816-21).
[0182] Em alguns casos, uma proteína Cas9 variante pode clivar a cadeia não complementar de uma sequência alvo guia de cadeia dupla, mas tem capacidade reduzida de clivar a cadeia complementar da se- quência alvo guia. Por exemplo, a proteína Cas9 variante pode ter uma mutação (substituição de aminoácido) que reduz a função do domínio HNH (motivos de domínio RuvC/HNH/RuvC). Como um exemplo não limitante, em algumas modalidades, a proteína Cas9 variante tem uma mutação em H840A (histidina para alanina na posição de aminoácido 840) e pode, portanto, clivar a cadeia não complementar da sequência alvo guia, mas tem capacidade reduzida de clivar a cadeia complemen- tar da sequência alvo guia (resultando assim em uma SSB em vez de uma DSB quando a proteína Cas9 variante cliva uma sequência alvo guia de cadeia dupla). Essa proteína Cas9 tem uma capacidade redu- zida de clivar uma sequência alvo guia (por exemplo, uma sequência alvo guia de cadeia simples), mas mantém a capacidade de se ligar a uma sequência alvo guia (por exemplo, uma sequência alvo guia de ca- deia simples).
[0183] Em alguns casos, uma proteína Cas9 variante tem uma ca- pacidade reduzida de clivar ambas as cadeias complementar e não complementar de um DNA alvo de cadeia dupla. A título de exemplo não limitante, em alguns casos, a proteína Cas9 variante abriga ambas as mutações em D10A e H840A, tal que o polipeptídeo tem uma capaci- dade reduzida de clivar ambas as cadeias complementar e não comple- mentar de um DNA alvo de cadeia dupla. Essa proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples).
[0184] Como outro exemplo não limitante, em alguns casos, a pro- teína Cas9 variante abriga mutações W476A e W1126A, tal que o poli- peptídeo tem uma capacidade reduzida de clivar um DNA alvo. Tal pro- teína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia sim- ples).
[0185] Como outro exemplo não limitante, em alguns casos, a pro- teína Cas9 variante abriga mutações em P475A, W476A, N477A, D1125A, W1126A e D1127A, tal que o polipeptídeo tem uma capaci- dade reduzida de clivar um DNA alvo. Essa proteína Cas9 tem uma ca- pacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples).
[0186] Como outro exemplo não limitante, em alguns casos, a pro- teína Cas9 variante abriga mutações em H840A, W476A, e W1126A, tal que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Essa proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Como outro exemplo não limitante, em alguns casos, a proteína Cas9 variante abriga mutações em H840A, D10A, W476A, e W1126A, tal que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Essa proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Em algumas modalidades, a variante Cas9 res- taurou o resíduo de His catalítico na posição 840 em um domínio HNH de Cas9 (A840H).
[0187] Como outro exemplo não limitante, em alguns casos, a pro- teína Cas9 variante abriga mutações H840A, P475A, W476A, N477A, D1125A, W1126A e D1127A, tal que o polipeptídeo tem uma capaci- dade reduzida de clivar um DNA alvo. Essa proteína Cas9 tem uma ca- pacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Como outro exem- plo não limitante, em alguns casos, a proteína Cas9 variante abriga mu- tações em D10A, H840A, P475A, W476A, N477A, D1125A, W1126A e D1127A, tal que o polipeptídeo tem uma capacidade reduzida de clivar um DNA alvo. Essa proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Em alguns casos, quando uma proteína Cas9 variante abriga mutações em W476A e W1126A ou quando a proteína
Cas9 variante abriga mutações em P475A, W476A, N477A, D1125A, W1126A e D1127A, a proteína Cas9 variante não se liga de forma efici- ente a uma sequência PAM. Assim, em alguns casos, quando essa pro- teína Cas9 variante é usada em um método de ligação, o método não requer uma sequência PAM. Em outras palavras, em alguns casos, quando essa proteína Cas9 variante é usada em um método de ligação, o método pode incluir um RNA guia, mas o método pode ser realizado na ausência de uma sequência PAM (e a especificidade de ligação é, portanto, fornecida pelo segmento de direcionamento do RNA guia). Ou- tros resíduos podem ser mutados para atingir os efeitos acima (isto é, inativar uma ou as outras porções de nuclease). Como exemplos não limitantes, os resíduos D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987 podem ser alterados (ou seja, substituí- dos). Além disso, outras mutações além das substituições de alanina são adequadas.
[0188] Em algumas modalidades, uma proteína Cas9 variante que tem atividade catalítica reduzida (por exemplo, quando uma proteína Cas9 tem uma mutação em D10, G12, G17, E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987, por exemplo, D10A, G12A, G17A, E762A, H840A, N854A, N863A, H982A, H983A, A984A e/ou D986A), a proteína Cas9 variante ainda pode se ligar ao DNA alvo de maneira es- pecífica de sítio (porque ainda é guiado para uma sequência de DNA alvo por um RNA guia), desde que mantenha a capacidade de interagir com o RNA guia.
[0189] Em algumas modalidades, a proteína Cas variante pode ser spCas9, spCas9-VRQR, spCas9-VRER, xCas9 (sp), saCas9, saCas9- KKH, spCas9-MQKSER, spCas9-LRKIQK ou spCas9-LRVSQL.
[0190] Alternativas para Cas9 de S. pyogenes podem incluir endo- nucleases guiadas por RNA da família Cpf1 que exibem atividade de clivagem em células de mamíferos. CRISPR de Prevotella e Francisella
1 (CRISPR/Cpf1) é uma tecnologia de edição de DNA análoga ao sis- tema CRISPR/Cas9. Cpf1 é uma endonuclease guiada por RNA de um sistema CRISPR/Cas de classe II.
Esse mecanismo imune adquirido é encontrado em bactérias Prevotella e Francisella.
Os genes Cpf1 estão associados ao locus CRISPR, codificador de uma endonuclease que utiliza um RNA guia para encontrar e clivar o DNA viral.
Cpf1 é uma endonuclease menor e mais simples que Cas9, superando algumas das limitações do sistema CRISPR/Cas9. Ao contrário das nucleases Cas9, o resultado da clivagem de DNA mediada por Cpf1 é uma quebra de cadeia dupla com uma pequena saliência em 3’. O padrão de clivagem escalonado de Cpf1 pode abrir a possibilidade de transferência de gene direcional, análogo à clonagem de enzima de restrição tradicional, que pode aumentar a eficiência de edição de gene.
Como as variantes e ortólogos de Cas9 descritos acima, Cpf1 também pode expandir o nú- mero de sítios que podem ser direcionados por CRISPR para regiões ricas em AT ou genomas ricos em AT que não possuem os sítios NGG PAM favorecidos por SpCas9. O locus Cpf1 contém um domínio alfa/beta misto, um RuvC-I seguido por uma região helicoidal, um RuvC- II e um domínio semelhante a dedo de zinco.
A proteína Cpf1 tem um domínio de endonuclease semelhante a RuvC que é similar ao domínio RuvC de Cas9. Além disso, Cpf1 não tem um domínio de endonuclease HNH, e o N-terminal de Cpf1 não tem o lóbulo de reconhecimento alfa- helicoidal de Cas9. A arquitetura de domínio CRISPR-Cas de Cpf1 mos- tra que Cpf1 é funcionalmente único, sendo classificado como sistema CRISPR Classe 2, tipo V.
Os loci de Cpf1 codificam proteínas Cas1, Cas2 e Cas4 mais semelhantes aos tipos I e III do que aos sistemas do tipo II.
Cpf1 funcional não precisa do RNA de CRISPR transativador (tracrRNA), portanto, apenas CRISPR (crRNA) é necessário.
Isso bene- ficia a edição de genoma porque Cpf1 não é apenas menor do que
Cas9, mas também tem uma molécula de sgRNA menor (cerca de me- tade dos nucleotídeos de Cas9). O complexo Cpf1-crRNA cliva o DNA ou RNA alvo pela identificação de um motivo adjacente de protoespa- çador 5’-YTN-3’ em contraste com o PAM rico em G direcionado por Cas9. Após a identificação de PAM, Cpf1 introduz uma quebra de ca- deia dupla de DNA semelhante à extremidade pegajosa de 4 ou 5 nu- cleotídeos salientes.
[0191] Alguns aspectos da divulgação fornecem proteínas de fusão compreendendo domínios que atuam como proteínas de ligação de DNA programáveis de ácido nucleico, que podem ser utilizadas para guiar uma proteína, tal como um editor de base, para uma sequência de ácido nucleico específiao (por exemplo, DNA ou RNA). Em modalidades particulares, uma proteína de fusão compreende um domínio de prote- ína de ligação de DNA programável de ácido nucleico e um domínio de desaminase. Proteínas de ligação de DNA incluem, sem limitação, Cas9 (por exemplo, dCas9 e nCas9), Cas12a/Cpf1, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h e Cas12i. Um exemplo de uma proteína de ligação de polinucleotídeo programá- vel que tem especificidade de PAM diferente de Cas9 são Repetições Palindrômicas Curtas Agrupadas Regularmente Interespaçadas de Pre- votella e Francisella1 (Cpf1). Semelhante a Cas9, Cpf1 também é um efetor de CRISPR classe 2. Foi demonstrado que Cpf1 medeia interfe- rência robusta de DNA com características distintas de Cas9. Cpf1 é uma endonuclease guiada por RNA simples sem tracrRNA e utiliza um motivo adjacente a protoespaçador rico em T (TTN, TTTN ou YTN). Além disso, Cpf1 cliva o DNA por meio de uma quebra de cadeia dupla escalonada de DNA. Das 16 proteínas da família Cpf1, duas enzimas de Acidaminococcus e Lachnospiraceae demonstraram ter atividade de edição de genoma eficiente em células humanas. As proteínas Cpf1 são conhecidas na técnica e foram descritas anteriormente, por exemplo,
em Yamano et al., “Crystal structure of Cpf1 in complex with guide RNA and target DNA.” Cell (165) 2016, p. 949-962; todo o conteúdo do qual é aqui incorporado por referência.
[0192] Também útil nas presentes composições e métodos são va- riantes de Cpf1 inativas por nuclease (dCpf1) que podem ser usadas como um domínio de proteína de ligação de polinucleotídeo programá- vel de sequência de nucleotídeo guia. A proteína Cpf1 tem um domínio de endonuclease semelhante a RuvC que é similar ao domínio RuvC de Cas9, mas não tem um domínio de endonuclease HNH, e o terminal N de Cpf1 não tem o lóbulo de reconhecimento alfa-helicoidal de Cas9. Foi demonstrado em Zetsche et al., Cell, 163, 759-771, 2015 (que é in- corporado aqui por referência) que, o domínio semelhante a RuvC de Cpf1 é responsável por clivar ambas as cadeias de DNA e a inativação do domínio semelhante a RuvC inativa a atividade de nuclease Cpf1. Por exemplo, mutações correspondentes a D917A, E1006A ou D1255A em Francisella novicida Cpf1 inativam a atividade de nuclease Cpf1. Em algumas modalidades, o dCpf1 da presente divulgação compreende mutações correspondentes a D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/D1255A ou D917A/E1006A/D1255A. Deve-se entender que quaisquer mutações, por exemplo, mutações em substituição, exclusões ou inserções que inativam o domínio RuvC de Cpf1, podem ser utilizadas de acordo com a presente divulgação.
[0193] Em algumas modalidades, a proteína de ligação de nucleo- tídeo programável de ácido nucleico de qualquer uma das proteínas de fusão providas neste documento pode ser uma proteína de Cpf1. Em algumas modalidades, a proteína de Cpf1 é uma Cpf1 nickase (nCpf1). Em algumas modalidades, a proteína de Cpf1 é um Cpf1 inativo por nu- clease (dCpf1). Em algumas modalidades, o Cpf1, o nCpf1 ou o dCpf1 compreende uma sequência de aminoácido que é pelo menos 85%,
pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a uma sequência de Cpf1 divulgada neste documento. Em algumas mo- dalidades, o dCpf1 compreende uma sequência de aminoácido que é pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a uma sequência de Cpf1 divulgada neste documento, e compreende mutações correspondentes a D917A, E1006A, D1255A, D917A/E1006A, D917A/D1255A, E1006A/D1255A, ou D917A/E1006A/D1255A. Deve ser apreciado que Cpf1 de outras espé- cies bacterianas podem também ser usadas de acordo com a presente divulgação.
[0194] A sequência de aminoácido de Francisella novicida Cpf1 de tipo selvagem segue. D917, E1006, e D1255 estão em negrito e subli- nhadas. MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0195] A sequência de aminoácido de Francisella novicida Cpf1 D917A segue. (A917, E1006, e D1255 estão em negrito e sublinhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0196] A sequência de aminoácido de Francisella novicida Cpf1
E1006A segue. (D917, A1006, e D1255 estão em negrito e sublinha- das). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0197] A sequência de aminoácido de Francisella novicida Cpf1 D1255A segue. (As posições de mutação D917, E1006 e A1255 estão em negrito e sublinhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN
[0198] A sequência de aminoácido de Francisella novicida Cpf1 D917A/E1006A segue. (A917, A1006, e D1255 estão em negrito e sub- linhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0199] A sequência de aminoácido de Francisella novicida Cpf1 D917A/D1255A segue. (A917, E1006, e A1255 estão em negrito e sub- linhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFEDLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0200] A sequência de aminoácido de Francisella novicida Cpf1
E1006A/D1255A segue. (D917, A1006 e A1255 estão em negrito e sub- linhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0201] A sequência de aminoácido de Francisella novicida Cpf1 D917A/E1006A/D1255A segue. (A917, A1006 e A1255 estão em ne- grito e sublinhadas). MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKA- KQIIDKYHQFFI-
EEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIK DSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEA- LEIIKSFKGW- TTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPE AINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLN- QSGITKFNTIIGGK- FVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVID KLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLS- KIYFKNDKS- LTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKY LSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDN- LAQISIKYQNQGKK- DLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLV FEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEP- DNTAILFIKDD- KYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKS IKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSIS- KHPEWKDFG- FRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYN KDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPK- KITHPAKEAI- ANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEIN LLLKEKANDVHILSIARGERHLAYYTLVDGKGNIIKQDTFNIIGN- DRMKTNYHDKLAAIEK- DRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKR GRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFK- KMGKQTGIIYY- VPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSF DYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLK- DYSIEYGHGE- CIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFF DSRQAPKNMPQDAAANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNE- EYFEFVQNRNN.
[0202] Em algumas modalidades, um dos domínios de Cas9 pre- sentes na proteína de fusão pode ser substituído por um domínio de proteína de ligação de DNA programável de sequência de nucleotídeo guia que não tem requisitos para uma sequência PAM.
[0203] Em algumas modalidades, o domínio de Cas é um domínio de Cas9 de Staphylococcus aureus (SaCas9). Em algumas modalida- des, o domínio de SaCas9 é uma SaCas9 ativa de nuclease, uma Sa- Cas9 inativa de nuclease (SaCas9d), ou uma SaCas9 nickase (Sa- Cas9n). Em algumas modalidades, o domínio de SaCas9 compreende uma mutação em N579A, ou uma mutação correspondente em qualquer uma das sequências de aminoácido providas neste documento.
[0204] Em algumas modalidades, o domínio de SaCas9, o domínio de SaCas9d ou o domínio de SaCas9n pode ser ligar a uma sequência de ácido nucleico tendo uma PAM não canônica. Em algumas modali- dades, o domínio de SaCas9, o domínio de SaCas9d ou o domínio de SaCas9n pode ser ligar a uma sequência de ácido nucleico tendo uma sequência de NNGRRT ou NNGRRT PAM. Em algumas modalidades,
o domínio de SaCas9 compreende uma ou mais de uma mutação em E781X, a N967X e R1014X, ou uma mutação correspondente em qual- quer uma das sequências de aminoácido providas neste documento, em que X é qualquer aminoácido. Em algumas modalidades, o domínio de SaCas9 compreende uma ou mais de uma mutação em E781K, N967K e R1014H, ou uma ou mais mutações correspondentes em qualquer uma das sequências de aminoácido providas neste documento. Em al- gumas modalidades, o domínio de SaCas9 compreende uma mutação em E781K, N967K ou R1014H, ou mutações correspondentes em qual- quer uma das sequências de aminoácido providas neste documento.
[0205] A sequência de aminoácido de uma SaCas9 exemplificativa é como segue: MKRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKR- GARR-
LKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSA ALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLER- LKKDGEVRGSIN- RFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPF GWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDE- NEKLEYYEK- FQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDI KDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQE- EIEQISNLKGYTGTHN- LSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFIL SPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMI- NEMQKRNRQTNERIEEI- IRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIP RSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILN- LAKGKGRISKTK- KEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVK SINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAK- KVMENQM- FEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELI NDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHD- PQTYQKLKLI- MEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITD DYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSK- CYEEAKKLKKIS- NQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMN DKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG.
[0206] Nesta sequência, o resíduo N579, que está sublinhado e em negrito, pode ser mutado (por exemplo, para um A579) para gerar uma SaCas9 nickase.
[0207] A sequência de aminoácido de uma SaCas9n exemplifica- tiva é como segue: KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKR- GARR-
LKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSA ALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLER- LKKDGEVRGSIN- RFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPF GWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDE- NEKLEYYEK- FQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDI KDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQE- EIEQISNLKGYTGTHN- LSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFIL SPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMI- NEMQKRNRQTNERIEEI- IRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIP RSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILN- LAKGKGRISKTK- KEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVK SINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAK- KVMENQM- FEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRELI NDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHD- PQTYQKLKLI- MEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITD DYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSK- CYEEAKKLKKIS- NQAEFIASFYNNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMN DKRPPRIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG.
[0208] Nesta sequência, o resíduo A579, que pode ser mutado a partir de N579 para gerar uma SaCas9 nickase, está sublinhado e em negrito.
[0209] A sequência de aminoácidos de uma SaKKH Cas9 exempli- ficativa é como segue: KRNYILGLDIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKR- GARR-
LKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSA ALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLER- LKKDGEVRGSIN- RFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPF GWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDE- NEKLEYYEK- FQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDI KDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQE- EIEQISNLKGYTGTHN- LSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFIL SPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMI- NEMQKRNRQTNERIEEI- IRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIP RSVSFDNSFNNKVLVKQEEASKKGNRTPFQYLSSSDSKISYETFKKHILN- LAKGKGRISKTK- KEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVK SINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAK- KVMENQM- FEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLI NDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHD- PQTYQKLKLI- MEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITD DYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSK- CYEEAKKLKKIS- NQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMN DKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG.
[0210] O resíduo A579 acima, que pode ser mutado a partir de N579 para gerar uma SaCas9 nickase, está sublinhado e em negrito. Resí- duos K781, K967 e H1014 acima, que podem ser mutados a partir de E781, N967 e R1014 para gerar uma SaKKH Cas9 estão sublinhados e em itálico. Domínios de Cas9 de Alta Fidelidade
[0211] Alguns aspectos da divulgação proporcionam domínios de Cas9 de alta fidelidade. Em algumas modalidades, domínios de Cas9 de alta fidelidade são domínios de Cas9 modificados compreendendo uma ou mais mutações que reduzem interações eletrostáticas entre o domínio de Cas9 e a estrutura principal de açúcar-fosfato de um DNA, em relação a um domínio de Cas9 de tipo selvagem correspondente. Domínios de Cas9 de alta fidelidade que reduziram as interações ele- trostáticas com a estrutura principal de açúcar-fosfato do DNA podem ter menos efeitos de alvo não específico. Em algumas modalidades, o domínio de Cas9 (por exemplo, um domínio de Cas9 de tipo selvagem) compreende uma ou mais mutações que diminuem a associação entre o domínio de Cas9 e estrutura principal de açúcar-fosfato de um DNA. Em algumas modalidades, um domínio de Cas9 compreende uma ou mais mutações que diminuem a associação entre um domínio de Cas9 e a estrutura principal de açúcar-fosfato de DNA em pelo menos 1%, pelo menos 2%, pelo menos 3%, pelo menos 4%, pelo menos 5%, pelo menos 10%, pelo menos 15%, pelo menos 20%, pelo menos 25%, pelo menos 30%, pelo menos 35%, pelo menos 40%, pelo menos 45%, pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, ou pelo menos 70%.
[0212] Em algumas modalidades, qualquer uma das proteínas de fusão Cas9 providas neste documento compreende uma ou mais de uma mutação em N497X, R661X, Q695X e/ou Q926X, ou uma mutação correspondente em qualquer uma das sequências de aminoácido provi- das neste documento, em que X é qualquer aminoácido. Em algumas modalidades, qualquer uma das proteínas de fusão Cas9 providas neste documento compreende uma ou mais de uma mutação em N497A, R661A, Q695A e/ou Q926A, ou uma mutação correspondente em qual- quer uma das sequências de aminoácido providas neste documento. Em algumas modalidades, o domínio de Cas9 compreende uma muta- ção em D10A, ou uma mutação correspondente em qualquer uma das sequências de aminoácido providas neste documento. Os domínios de Cas9com alta fidelidade são conhecidos na técnica e seriam evidentes para a pessoa versada. Por exemplo, domínios de Cas9 com alta fideli- dade foram descritos em Kleinstiver, B.P., et al. “High-fidelity CRISPR- Cas9 nucleases with no detectable genome-wide off-targets effects.” Nature 529, 490-495 (2016); e Slaymaker, I.M., et al. “Rationally engi- neered Cas9 nucleases with improved specificity.” Science 351, 84-88 (2015); todo o conteúdo dos quais é aqui incorporado por referência.
[0213] Em algumas modalidades, a Cas9 modificado é uma enzima Cas9 de alta fidelidade. Em algumas modalidades, a enzima Cas9 de alta fidelidade é SpCas9 (K855A), eSpCas9 (1.1), SpCas9-HF1, ou va- riante Cas9 hiperprecisa (HypaCas9). A Cas9 modificado eSpCas9(1.1) contém substituições de alanina que enfraquecem as interações entre o sulco HNH/RuvC e a cadeia de DNA não alvo, evitando a separação de cadeia e corte em locais de alvo não específico. Da mesma forma, SpCas9-HF1 diminui a edição de alvo não específico por meio de subs- tituições de alanina que interrompem as interações de Cas9 com a es- trutura principal de fosfato de DNA. HypaCas9 contém mutações (SpCas9 N692A/M694A/Q695A/H698A) no domínio REC3 que aumen- tam a revisão de Cas9 e discriminação de alvos. Todas as três enzimas de alta fidelidade geram menos edição de alvo não específico do que Cas9 do tipo selvagem.
[0214] Uma Cas9 de alta fidelidade exemplificativa é fornecida abaixo.
[0215] Mutações em domínio de Cas9 de alta fidelidade em relação a Cas9 são mostradas em negrito e sublinhadas. MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTAFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGALSRKLING IRDKQSGKTILDFLKSDGFANRNFMALIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRAITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL
DATLIHQSITGLYETRIDLSQLGGD Polinucleotídeos Guia
[0216] Em uma modalidade, o polinucleotídeo guia é um RNA guia. Um complexo RNA/Cas pode ajudar a “guiar” a proteína Cas para um DNA alvo. Cas9/crRNA/tracrRNA cliva endonucleoliticamente o alvo de dsDNA linear ou circular complementar ao espaçador. A cadeia alvo não complementar a crRNA é primeiro cortada endonucleoliticamente e, em seguida, aparada 3’-5’ exonucleoliticamente. Na natureza, a clivagem e ligação de DNA tipicamente requerem proteína e ambos os RNAs. No entanto, RNAs guia únicos (“sgRNA” ou simplesmente “gNRA”) podem ser projetados de modo a incorporar aspectos de ambos crRNA e tracrRNA em uma única espécie de RNA. Vide, por exemplo, Jinek M. et al., Science 337:816-821 (2012), todo o conteúdo do qual é aqui in- corporado por referência. Cas9 reconhece um motivo curto nas sequên- cias de repetição de CRISPR (o motivo adjacente de PAM ou protoes- paçador) para ajudar a distinguir o self e o não self. As sequências e estruturas de Cas9 nuclease são bem conhecidas por aqueles versados na técnica (vide, por exemplo, “Complete genome sequence of na M1 strain of Streptococcus pyogenes.” Ferretti, J.J. et al., Natl. Acad. Sci. USA 98:4658 -4663 (2001); “CRISPR RNA maturation by trans-coded small RNA and host factor RNase III.” Deltcheva E. et al., Nature 471:602-607 (2011); e “Programmable dual-RNA-guided DNA endonu- clease in adaptive bacterial immunity.” Jinek M.et al, Science 337: 816- 821 (2012), todo o conteúdo de cada um dos quais é aqui incorporado por referência). Ortólogos de Cas9 foram descritos em várias espécies, incluindo, mas sem limitação, S. pyogenes e S. thermophilus. Sequên- cias e Cas nucleases adequadas adicionais podem ser evidentes para os versados na técnica com base nesta divulgação, e tais sequências e Cas9 nucleases incluem sequências de Cas9 dos organismos e loci di- vulgados em Chylinski, Rhun, e Charpentier, “The tracrRNA and Cas9 families of type II CRISPR-Cas Immunity systems” (2013) RNA Biology 10:5, 726-737; todo o conteúdo do qual é aqui incorporado por referên- cia. Em algumas modalidades, uma Cas9 nuclease tem um domínio de clivagem de DNA inativo (por exemplo, inativado), ou seja, uma Cas9 é uma nickase.
[0217] Em algumas modalidades, o polinucleotídeo guia é pelo me-
nos um RNA guia único (“sgRNA” ou “gNRA”). Em algumas modalida- des, o polinucleotídeo guia é pelo menos um tracrRNA. Em algumas modalidades, o polinucleotídeo guia não requer sequência PAM para guiar o domínio de ligação de DNA programável de polinucleotídeo (por exemplo, Cas9 ou Cpf1) para a sequência de nucleotídeo alvo.
[0218] O domínio de ligação de nucleotídeo programável de polinu- cleotídeo (por exemplo, um domínio derivado de CRISPR) dos editores de base divulgados neste documento pode reconhecer uma sequência de polinucleotídeo alvo por associação com um polinucleotídeo guia. Um polinucleotídeo guia (por exemplo, gRNA) é obrigatório de cadeia simples e pode ser programado para se ligar especificamente a um sítio (ou seja, por meio de emparelhamento de base complementar) a uma sequência alvo de um polinucleotídeo, direcionando assim um editor de base que está em conjunto com o ácido nucleico guia para a sequência alvo. Um polinucleotídeo guia pode ser DNA. Um polinucleotídeo guia pode ser RNA. Em alguns casos, o polinucleotídeo guia compreende nucleotídeos naturais (por exemplo, adenosina). Em alguns casos, o po- linucleotídeo guia compreende nucleotídeos não naturais (ou artificiais) (por exemplo, ácido nucleico de peptídeo ou análogos de nucleotídeo). Em alguns casos, a região de direcionamento de uma sequência de ácido nucleico guia pode ter pelo menos 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 nucleotídeos de comprimento. Uma re- gião de direcionamento de um ácido nucleico guia pode ter entre 10-30 nucleotídeos de comprimento, ou entre 15-25 nucleotídeos de compri- mento, ou entre 15-20 nucleotídeos de comprimento.
[0219] Em algumas modalidades, um polinucleotídeo guia compre- ende dois ou mais polinucleotídeos individuais, que podem interagir en- tre si por meio de, por exemplo, emparelhamento de base complementar (por exemplo, um polinucleotídeo guia duplo). Por exemplo, um polinu- cleotídeo guia pode compreender um CRISPR RNA (crRNA) e um
CRISPR RNA transativador (tracrRNA). Por exemplo, um polinucleotí- deo guia pode compreender um ou mais CRISPR RNAs transativadores (tracrRNA).
[0220] Em sistemas CRISPR tipo II, o direcionamento de um ácido nucleico por uma proteína CRISPR (por exemplo, Cas9) exige o empa- relhamento de base complementar entre uma primeira molécula de RNA (crRNA) compreendendo uma sequência que reconhece a sequência alvo e a segunda molécula de RNA (trRNA) compreendendo sequências de repetição que formam uma região de arcabouço que estabiliza o complexo de RNA guia-proteína CRISPR. Tais sistemas de RNA guia duplos podem ser empregados como um polinucleotídeo guia para dire- cionar os editores de base divulgados neste documento para uma se- quência de polinucleotídeo alvo.
[0221] Em algumas modalidades, o editor de base provido neste do- cumento utiliza um polinucleotídeo guia único (por exemplo, gRNA). Em algumas modalidades, o editor de base provido neste documento utiliza um polinucleotídeo guia duplo (por exemplo, gRNAs duplos). Em algu- mas modalidades, o editor de base provido neste documento utiliza um ou mais polinucleotídeos guia (por exemplo, gRNA múltiplo). Em algu- mas modalidades, um polinucleotídeo guia único é utilizado para dife- rentes editores de base descritos neste documento. Por exemplo, um polinucleotídeo guia único pode ser utilizado para um editor de base de citidina e um editor de base de adenosina.
[0222] Em outras modalidades, um polinucleotídeo guia pode com- preender tanto a porção de direcionamento de polinucleotídeo do ácido nucleico quanto a porção de arcabouço do ácido nucleico em uma única molécula (isto é, um ácido nucleico guia de uma molécula única). Por exemplo, um polinucleotídeo guia de molécula única pode ser um RNA guia único (sgRNA ou gRNA). Aqui, o termo sequência de polinucleotí-
deo guia contempla qualquer ácido nucleico único, duplo ou multimolé- cula, capaz de interagir com e direcionar um editor de base para uma sequência de polinucleotídeo alvo.
[0223] Tipicamente, um polinucleotídeo guia (por exemplo, com- plexo crRNA/trRNA ou um gRNA) compreende um “segmento de poli- nucleotídeo alvo” que inclui uma sequência capaz de reconhecer e se ligar a uma sequência de polinucleotídeo alvo, e um “segmento de liga- ção de proteína” que estabiliza o polinucleotídeo guia dentro de um com- ponente de domínio de ligação de nucleotídeo programável de polinu- cleotídeo de um editor de base. Em algumas modalidades, o segmento de direcionamento de polinucleotídeo do polinucleotídeo guia reco- nhece e se liga a um polinucleotídeo de DNA, facilitando assim a edição de uma base no DNA. Em outros casos, o segmento de direcionamento de polinucleotídeo do polinucleotídeo guia reconhece e se liga a um po- linucleotídeo de RNA, facilitando assim a edição de uma base em RNA. Aqui, um “segmento” se refere a uma seção ou região de uma molécula, por exemplo, um trecho contíguo de nucleotídeos no polinucleotídeo guia. Um segmento também pode se referir a uma região/seção de um complexo, de modo que um segmento pode compreender regiões de mais de uma molécula. Por exemplo, quando um polinucleotídeo guia compreende múltiplas moléculas de ácido nucleico, o segmento de liga- ção de proteína pode incluir toda ou uma porção de múltiplas moléculas separadas que são, por exemplo, hibridizadas ao longo de uma região de complementaridade. Em algumas modalidades, um segmento de li- gação de proteína de um RNA de direcionamento de DNA que compre- ende duas moléculas separadas pode compreender (i) pares de bases 40-75 de uma primeira molécula de RNA que tem 100 pares de base de comprimento; e (ii) pares de bases 10-25 de uma segunda molécula de RNA que tem 50 pares de bases de comprimento. A definição de “seg- mento”, a menos que definido de outra forma especificamente em um contexto particular, não é limitada a um número específico de pares de base totais, não é limitado a qualquer número particular de pares de base de uma determinada molécula de RNA, não é limitado a um deter- minado número de moléculas separadas dentro de um complexo, e pode incluir regiões de moléculas de RNA que são de qualquer compri- mento total e podem incluir regiões com complementaridade a outras moléculas.
[0224] Um RNA guia ou um polinucleotídeo guia pode compreender dois ou mais RNAs, por exemplo, CRISPR RNA (crRNA) e crRNA tran- sativador (tracrRNA). Um RNA guia ou um polinucleotídeo guia pode às vezes compreender um RNA de cadeia simples, ou um RNA guia único (sgRNA) formado pela fusão de uma porção (por exemplo, uma porção funcional) de crRNA e tracrRNA. Um RNA guia ou um polinucleotídeo guia também pode ser um RNA duplo compreendendo um crRNA e um tracrRNA. Além disso, um crRNA pode se hibridizar com um DNA alvo.
[0225] Como discutido acima, um RNA guia ou um polinucleotídeo guia pode ser um produto de expressão. Por exemplo, um DNA que co- difica um RNA guia pode ser um vetor compreendendo uma sequência que codifica o RNA guia. Um RNA guia ou um polinucleotídeo guia pode ser transferido para uma célula por transfecção da célula com um RNA guia isolado ou DNA de plasmídeo compreendendo uma sequência que codifica o RNA guia e um promotor. Um RNA guia ou um polinucleotídeo guia também pode ser transferido para uma célula de outra maneira, tal como usando entrega de genes mediada por vírus.
[0226] Um RNA guia ou um polinucleotídeo guia pode ser isolado. Por exemplo, um RNA guia pode ser transfectado na forma de um RNA isolado em uma célula ou organismo. Um RNA guia pode ser preparado por transcrição in vitro usando qualquer sistema de transcrição in vitro conhecido na técnica. Um RNA guia pode ser transferido para uma cé-
lula na forma de RNA isolado, em vez de na forma de plasmídeo com- preendendo a sequência de codificação para um RNA guia.
[0227] Um RNA guia ou um polinucleotídeo guia pode compreender três regiões: uma primeira região na extremidade 5’ que pode ser com- plementar a um sítio alvo em uma sequência cromossômica, uma se- gunda região interna que pode formar uma estrutura de haste em alça, e uma terceira região 3’ que pode ser de cadeia simples. Uma primeira região de cada RNA guia também pode ser diferente, de modo que cada RNA guia oriente uma proteína de fusão para um sítio alvo específico. Além disso, a segunda e a terceira regiões de cada RNA guia podem ser idênticas em todos os RNAs guia.
[0228] Uma primeira região de um RNA guia ou um polinucleotídeo guia pode ser complementar à sequência em um sítio alvo em uma se- quência cromossômica, de modo que a primeira região do RNA guia pode emparelhar base com o sítio alvo. Em alguns casos, uma primeira região de um RNA guia pode compreender de ou de cerca de 10 nucle- otídeos a 25 nucleotídeos (isto é, de 10 nucleotídeos a 25 nucleotídeos; ou de cerca de 10 nucleotídeos a cerca de 25 nucleotídeos; ou de 10 nucleotídeos a cerca de 25 nucleotídeos; ou de cerca de 10 nucleotí- deos a 25 nucleotídeos) ou mais. Por exemplo, uma região de empare- lhamento de base entre uma primeira região de um RNA guia e um sítio alvo em uma sequência cromossômica pode ter ou pode ter cerca de 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 23, 24, 25, ou mais nucle- otídeos de comprimento. Às vezes, uma primeira região de um RNA guia pode ter ou ter cerca de 19, 20 ou 21 nucleotídeos de comprimento.
[0229] Um RNA guia ou um polinucleotídeo guia também pode com- preender uma segunda região que forma uma estrutura secundária. Por exemplo, uma estrutura secundária formada por um RNA guia pode compreender uma haste (ou grampo) e uma alça. O comprimento de um alça e uma haste pode variar. Por exemplo, uma alça pode variar de ou de cerca de 3 a 10 nucleotídeos de comprimento, e uma haste pode variar de ou de cerca de 6 a 20 pares de base de comprimento. Uma haste pode compreender um ou mais bojos de 1 a 10 ou cerca de 10 nucleotídeos. O comprimento total de uma segunda região pode variar de ou de cerca de 16 a 60 nucleotídeos de comprimento. Por exemplo, uma alça pode ter ou pode ter cerca de 4 nucleotídeos de comprimento e uma haste pode ter ou pode ter cerca de 12 pares de base.
[0230] Um RNA guia ou um polinucleotídeo guia também pode com- preender uma terceira região na extremidade 3’ que pode ser essenci- almente de cadeia simples. Por exemplo, uma terceira região às vezes não é complementar a nenhuma sequência cromossômica em uma cé- lula de interesse e às vezes não é complementar ao resto de um RNA guia. Além disso, o comprimento de uma terceira região pode variar. Uma terceira região pode ter mais de ou mais do que cerca de 4 nucle- otídeos de comprimento. Por exemplo, o comprimento de uma terceira região pode variar de cerca de 5 a 60 nucleotídeos de comprimento.
[0231] Um RNA guia ou um polinucleotídeo guia pode ter como alvo qualquer éxon ou íntron de um gene alvo. Em alguns casos, um guia pode ter como alvo o éxon 1 ou 2 de um gene, em outros casos; um guia pode ter como alvo o éxon 3 ou 4 de um gene. Uma composição pode compreender vários RNAs guia que têm como alvo o mesmo éxon ou, em alguns casos, vários RNAs guia que podem ter como alvo dife- rentes éxons. Um éxon e um íntron de um gene podem ser direcionados.
[0232] Um RNA guia ou um polinucleotídeo guia pode ter como alvo uma sequência de ácido nucleico de ou de cerca de 20 nucleotídeos. Um ácido nucleico alvo pode ter menos ou menos do que cerca de 20 nucleotídeos. Um ácido nucleico alvo pode ter pelo menos ou pelo me- nos cerca de 5, 10, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, ou qualquer um que entre 1-100 nucleotídeos de comprimento. Um ácido nucleico alvo pode ter no máximo ou no máximo cerca de 5, 10, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 40, 50, ou qualquer um entre 1- 100 nucleotídeos de comprimento. Uma sequência de ácido nucleico alvo pode ter ou pode ter cerca de 20 bases imediatamente a 5’ do pri- meiro nucleotídeo de PAM. Um RNA guia pode ter como alvo uma se- quência de ácido nucleico. Um ácido nucleico alvo pode ter pelo menos ou pelo menos cerca de 1-10, 1-20, 1-30, 1-40, 1-50, 1-60, 1-70, 1-80, 1-90, ou 1-100 nucleotídeos.
[0233] Um polinucleotídeo guia, por exemplo, um RNA guia, pode se referir a um ácido nucleico que pode hibridizar com outro ácido nu- cleico, por exemplo, o ácido nucleico alvo ou protoespaçador em um genoma de uma célula. Um polinucleotídeo guia pode ser RNA. Um po- linucleotídeo guia pode ser DNA. O polinucleotídeo guia pode ser pro- gramado ou projetado para se ligar a uma sequência de sítio de ácido nucleico especificamente. Um polinucleotídeo guia pode compreender uma cadeia polinucleotídica e pode ser denominado um polinucleotídeo guia único. Um polinucleotídeo guia pode compreender duas cadeias de polinucleotídeo e pode ser chamado de polinucleotídeo guia duplo. Um RNA guia pode ser introduzido em uma célula ou embrião como uma molécula de RNA. Por exemplo, uma molécula de RNA pode ser trans- crita in vitro e/ou pode ser sintetizada quimicamente. Um RNA pode ser transcrito a partir de uma molécula de DNA sintético, por exemplo, um fragmento de gene gBlocks®. Um RNA guia pode então ser introduzido em uma célula ou embrião como uma molécula de RNA. Um RNA guia também pode ser introduzido em uma célula ou embrião na forma de uma molécula de ácido nucleico não RNA, por exemplo, molécula de DNA. Por exemplo, um DNA codificando um RNA guia pode ser opera- cionalmente ligado à sequência de controle do promotor para expressão do RNA guia em uma célula ou embrião de interesse. Uma sequência de codificação de RNA pode ser operacionalmente ligada a uma se- quência de promotor que é reconhecida por RNA polimerase III (Pol III).
Os vetores de plasmídeo que podem ser usados para expressar RNA guia incluem, mas sem limitação, vetores px330 e vetores px333. Em alguns casos, um vetor de plasmídeo (por exemplo, vetor px333) pode compreender pelo menos duas sequências de DNA de codificação de RNA.
[0234] Métodos para selecionar, projetar e validar polinucleotídeos guia, por exemplo, RNAs guia e sequências de direcionamento são des- critos neste documento e conhecidos por aqueles versados na técnica. Por exemplo, para minimizar o impacto da promiscuidade potencial de substrato de um domínio de desaminase no sistema de editor de nu- cleobase (por exemplo, um domínio AID), o número de resíduos que poderiam ser acidentalmente direcionados para desaminação (por exemplo, resíduos C de alvo não específico que podem potencialmente residir em ssDNA dentro do locus de ácido nucleico alvo) podem ser minimizados. Além disso, ferramentas de software podem ser usadas para otimizar os gRNAs correspondentes a uma sequência de ácido nu- cleico alvo, por exemplo, para minimizar a atividade total de alvo não específico em todo o genoma. Por exemplo, para cada escolha de do- mínio de direcionamento possível usando Cas9 de S. pyogenes, todas as sequências de alvo não específico (PAMs selecionadas anteriores, por exemplo, NAG ou NGG) podem ser identificadas em todo o genoma, as quais contêm até certo número (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9, ou 10) de pares de bases incompatíveis. As primeiras regiões de gRNAs complementares a um sítio alvo podem ser identificadas, e todas as pri- meiras regiões (por exemplo, crRNAs) podem ser classificadas de acordo com sua pontuação de alvo não específico total prevista; os do- mínios de direcionamento mais bem classificados representam aqueles que provavelmente terão maior e menor atividade de alvo não especí- fico. Os gRNAs de direcionamento candidatos podem ser avaliados fun- cionalmente usando métodos conhecidos na técnica e/ou conforme apresentados neste documento.
[0235] Como um exemplo não limitante, sequências de hibridiza- ção de DNA alvo em crRNAs de um RNA guia para uso com Cas9s podem ser identificadas usando um algoritmo de busca de sequência de DNA. O projeto de gRNA pode ser realizado usando um software de projeto de gRNA personalizado baseado na ferramenta pública cas-of- finder, conforme descrito em Bae S., Park J., & Kim J.-S. Cas-OFFinder: A fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 30, 1473-1475 (2014). Esse software pontua guias após calcular sua propensão a alvos não específicos em todo o genoma. Tipicamente, correspondências va- riando de correspondências perfeitas a 7 incompatibilidades são consi- deradas para guias de comprimento de 17 a 24. Uma vez que os sítios de alvos não específicos são determinados computacionalmente, uma pontuação agregada é calculada para cada guia e resumida em uma saída tabular usando um interface web. Além de identificar potenciais sítios alvo adjacentes a sequências PAM, o software também identifica todas as sequências PAM adjacentes que diferem em 1, 2, 3 ou mais de 3 nucleotídeos dos sítios alvo selecionados. Sequências de DNA ge- nômico para uma sequência de ácido nucleico alvo, por exemplo, um gene alvo pode ser obtido e elementos repetidos podem ser rastreados usando ferramentas disponíveis publicamente, por exemplo, o pro- grama RepeatMasker. O RepeatMasker pesquisa sequências de DNA de entrada para elementos repetidos e regiões de baixa complexidade. A saída é uma anotação detalhada das repetições presentes em uma determinada sequência de consulta.
[0236] Após a identificação, primeiras regiões de RNAs guia, por exemplo, crRNAs, podem ser classificados em camadas com base em sua distância para o sítio alvo, sua ortogonalidade e presença de 5’ nu-
cleotídeos para correspondências próximas com sequências PAM rele- vantes (por exemplo, uma 5’ G com base na identificação de correspon- dências próximas no genoma humano contendo uma PAM relevante, por exemplo, NGG PAM para S. pyogenes, NNGRRT ou NNGRRV PAM para S. aureus). Como aqui utilizado, a ortogonalidade se refere ao nú- mero de sequências no genoma humano que contêm um número mí- nimo de incompatibilidades com a sequência alvo. Um “alto nível de or- togonalidade” ou “boa ortogonalidade” pode, por exemplo, referir-se a domínios de direcionamento de 20-mer que não possuem sequências idênticas no genoma humano além do alvo pretendido, nem quaisquer sequências que contenham uma ou duas incompatibilidades na sequên- cia alvo. Os domínios de direcionamento com boa ortogonalidade po- dem ser selecionados para minimizar a clivagem de DNA de alvo não específico.
[0237] Em algumas modalidades, um sistema repórter pode ser usado para detectar a atividade de edição de base e testar polinucleotí- deos guia candidatos. Em algumas modalidades, um sistema repórter pode compreender um ensaio baseado em gene repórter, em que a ati- vidade de edição de base leva à expressão do gene repórter. Por exem- plo, um sistema repórter pode incluir um gene repórter compreendendo um códon de início desativado, por exemplo, uma mutação na cadeia modelo de 3’-TAC-5’ para 3’-CAC-5’. Após a desaminação bem-suce- dida do alvo C, o mRNA correspondente será transcrito como 5’-AUG- 3’ em vez de 5’-GUG-3’, permitindo a tradução do gene repórter. Genes repórteres adequados serão evidentes para os versados na técnica. Exemplos não limitantes de genes repórteres incluem o gene codifi- cando proteína fluorescente verde (GFP), proteína fluorescente verme- lha (RFP), luciferase, fosfatase alcalina secretada (SEAP), ou qualquer outro gene cuja expressão seja detectável e evidente para aqueles ver- sados na técnica. O sistema repórter pode ser usado para testar muitos gRNAs diferentes, por exemplo, a fim de determinar qual(is) resíduo(s) com relação à sequência de DNA alvo a respectiva desaminase terá como alvo. Os sgRNAs que têm como alvo a cadeia não modelo tam- bém podem ser testados para avaliar os efeitos de alvo não específico de uma proteína de edição de base específica, por exemplo, uma pro- teína de fusão de desaminase Cas9. Em algumas modalidades, tais gRNAs podem ser projetados de forma que o códon de início mutado não seja pareado com o gRNA. Os polinucleotídeos guia podem com- preender ribonucleotídeos padrão, ribonucleotídeos modificados (por exemplo, pseudouridina), isômeros de ribonucleotídeos e/ou análogos de ribonucleotídeos. Em algumas modalidades, o polinucleotídeo guia pode compreender pelo menos um rótulo detectável. O rótulo detectável pode ser um fluoróforo (por exemplo, FAM, TMR, Cy3, Cy5, Texas Red, Oregon Green, Alexa Fluors, Halo tags, ou corante fluorescente ade- quado), uma etiqueta de detecção (por exemplo, biotina, digoxigenina, e semelhantes), pontos quânticos ou partículas de ouro.
[0238] Os polinucleotídeos guia podem ser sintetizados quimica- mente, sintetizados enzimaticamente ou uma combinação destes. Por exemplo, o RNA guia pode ser sintetizado usando métodos padrão de síntese de fase sólida à base de fosforamidita. Alternativamente, o RNA guia pode ser sintetizado in vitro ligando operacionalmente o DNA que codifica o RNA guia a uma sequência de controle de promotor que é reconhecida por uma RNA polimerase de fago. Exemplos de sequências promotoras de fago adequadas incluem sequências promotoras T7, T3, SP6 ou suas variações. Em modalidades em que o RNA guia compre- ende duas moléculas separadas (por exemplo, crRNA e tracrRNA), o crRNA pode ser sintetizado quimicamente e o tracrRNA pode ser sinte- tizado enzimaticamente.
[0239] Em algumas modalidades, um sistema de editor de base pode compreender vários polinucleotídeos guia, por exemplo, gRNAs.
Por exemplo, os gRNAs podem ter como alvo um ou mais loci de destino (por exemplo, pelo menos 1 gRNA, pelo menos 2 gRNA, pelo menos 5 gRNA, pelo menos 10 gRNA, pelo menos 20 gRNA, pelo menos 30 g RNA, pelo menos 50 gRNA) compreendidos em um sistema de editor de base. As múltiplas sequências de gRNA podem ser arranjadas em tandem e são preferencialmente separadas por uma repetição direta.
[0240] Uma sequência de DNA que codifica um RNA guia ou um polinucleotídeo guia também pode fazer parte de um vetor. Além disso, um vetor pode compreender sequências de controle de expressão adi- cionais (por exemplo, sequências potenciadoras, sequências Kozak, se- quências de poliadenilação, sequências de terminação transcricional etc.), sequências de marcadores selecionáveis (por exemplo, GFP ou genes de resistência a antibióticos, tais como puromicina), origens de replicação, e assim por diante. Uma molécula de DNA que codifica um RNA guia também pode ser linear. Uma molécula de DNA que codifica um RNA guia ou um polinucleotídeo guia também pode ser circular.
[0241] Em algumas modalidades, um ou mais componentes de um sistema de editor de base pode ser codificado por sequências de DNA. Essas sequências de DNA podem ser introduzidas em um sistema de expressão, por exemplo, uma célula, em conjunto ou separadamente. Por exemplo, sequências de DNA codificando um domínio de ligação de nucleotídeo programável de polinucleotídeo e o RNA guia podem ser introduzidos em uma célula, cada sequência de DNA pode ser parte de uma molécula separada (por exemplo, um vetor contendo a sequência de codificação de domínio de ligação de nucleotídeo programável de polinucleotídeo e um segundo vetor contendo a sequência de codifica- ção de RNA guia) ou ambos podem fazer parte de uma mesma molécula (por exemplo, um vetor contendo sequência de codificação (e regula- dora) para ambos o domínio de ligação de nucleotídeo programável de polinucleotídeo e o RNA guia).
[0242] Um polinucleotídeo guia pode compreender uma ou mais modificações para fornecer um ácido nucleico com um recurso novo ou aprimorado. Um polinucleotídeo guia pode compreender uma etiqueta de afinidade de ácido nucleico. Um polinucleotídeo guia pode compre- ender nucleotídeo sintético, análogo de nucleotídeo sintético, derivados de nucleotídeo e/ou nucleotídeos modificados.
[0243] Em alguns casos, um gRNA ou um polinucleotídeo guia pode compreender modificações. Uma modificação pode ser feita em qual- quer local de um gRNA ou um polinucleotídeo guia. Mais de uma modi- ficação pode ser feita em um gRNA único ou um polinucleotídeo guia. Um gRNA ou um polinucleotídeo guia pode sofrer controle de qualidade após uma modificação. Em alguns casos, o controle de qualidade pode incluir PAGE, HPLC, MS ou qualquer combinação dos mesmos.
[0244] Uma modificação de um gRNA ou um polinucleotídeo guia pode ser uma substituição, inserção, exclusão, modificação química, modificação física, estabilização, purificação ou qualquer combinação dos mesmos.
[0245] Um gRNA ou um polinucleotídeo guia também pode ser mo- dificado por 5’ adenilato, 5’ guanosina-trifosfato cap, 5’N7-Metilguano- sina-trifosfato cap, 5’trifosfato cap, 3’ fosfato, 3’ tiofosfato, 5’ fosfato, 5’ tiofosfato, dímero de timidina Cis-Syn, trímeros, espaçador C12, espa- çador C3, espaçador C6, dSpacer, espaçador PC, rSpacer, espaçador 18, modificações 9,3’-3’ de espaçador, modificações 5’-5’, abásico, acri- dina, azobenzeno, biotina, biotina BB, biotina TEG, colesteril TEG, des- tiobiotina TEG, DNP TEG, DNP-X, DOTA, dT-Biotina, biotina dupla, bi- otina PC, psoraleno C2, psoraleno C6, TINA, 3’DABCYL, inibidor de bu- raco negro 1, inibidor de buraco negro 2, DABCYL SE, dT-DABCYL, IRDye QC-1, QSY-21, QSY-35, QSY-7, QSY-9, ligante de carboxil, li- gantes de tiol, análogo purina de 2’-desoxirribonucleosídeo, análogo pi-
rimidina de 2’-desoxirribonucleosídeo, análogo de ribonucleosídeo, aná- logo de 2’-O-metil ribonucleosídeo, análogos de açúcar modificados, ba- ses wobble/universais, rótulo de corante fluorescente, 2’-fluoro RNA, 2’- O-metil RNA, metilfosfonato, fosfodiéster DNA, fosfodiéster RNA, DNA fosfotioato, RNA fosforotioato, UNA, pseudouridina-5’-trifosfato, 5’-me- tilcitidina-5’-trifosfato, ou qualquer combinação dos mesmos.
[0246] Em alguns casos, uma modificação é permanente. Em ou- tros casos, uma modificação é transitória. Em alguns casos, várias mo- dificações são feitas em um gRNA ou em um polinucleotídeo guia. Uma modificação de gRNA ou polinucleotídeo guia pode alterar as proprie- dades físico-químicas de um nucleotídeo, tais como sua conformação, polaridade, hidrofobicidade, reatividade química, interações de empare- lhamento de bases ou qualquer combinação das mesmas.
[0247] A sequência PAM pode ser qualquer sequência PAM conhe- cida na técnica. Sequências PAM adequadas incluem, mas sem limita- ção, NGG, NGA, NGC, NGN, NGT, NGCG, NGAG, NGAN, NGNG, NGCN, NGCG, NGTN, NNGRRT, NNNRRT, NNGRR(N), TTTV, TYCV, TYCV, TATV, NNNNGATT, NNAGAAW, ou NAAAAC. Y é uma pirimi- dina; N é qualquer base de nucleotídeo; W é A ou T.
[0248] Uma modificação também pode ser um substituto de fosfo- rotioato. Em alguns casos, uma ligação fosfodiéster natural pode ser suscetível à rápida degradação por nucleases celulares e; uma modifi- cação da ligação internucleotídica usando substitutos de ligação de fos- forotioato (PS) pode ser mais estável em relação à hidrólise por degra- dação celular. Uma modificação pode aumentar a estabilidade de um gRNA ou de um polinucleotídeo guia. Uma modificação também pode aumentar a atividade biológica. Em alguns casos, um RNA gRNA inten- sificado por fosforotioato pode inibir RNase A, RNase T1, nucleases de soro de bezerro ou quaisquer combinações dos mesmos. Essas propri-
edades podem permitir a utilização de PS-RNA gRNAs a serem utiliza- dos em aplicações em que a exposição a nucleases seja de alta proba- bilidade in vivo ou in vitro. Por exemplo, ligações de fosforotioato (PS) podem ser introduzidas entre os últimos 3-5 nucleotídeos na extremi- dade 5’- ou 3’- de um gRNA que pode inibir a degradação da exonu- clease. Em alguns casos, ligações fosforotioato podem ser adicionadas ao longo de todo um gRNA para reduzir o ataque por endonucleases. Motivo Adjacente de Protoespaçador
[0249] O termo “motivo adjacente de protoespaçador (PAM)” ou mo- tivo semelhante a PAM se refere a uma sequência de DNA de 2-6 pares de base imediatamente após a sequência de DNA direcionada pela nu- clease Cas9 no sistema imune adaptativo bacteriano CRISPR. Em al- gumas modalidades, a PAM pode ser uma 5’ PAM (ou seja, localizada a montante da extremidade 5’ do protoespaçador). Em outras modalida- des, a PAM pode ser uma 3’ PAM (ou seja, localizada a jusante da ex- tremidade 5’ do protoespaçador).
[0250] A sequência PAM é essencial para a ligação de alvo, mas a sequência exata depende de um tipo de proteína Cas.
[0251] Um editor de base provido neste documento pode compre- ender um domínio derivado de proteína CRISPR que é capaz de se ligar a uma sequência de nucleotídeo que contém uma sequência de motivo adjacente de protoespaçador canônico ou não canônico (PAM). Um sítio PAM é uma sequência de nucleotídeo em proximidade com uma se- quência de polinucleotídeo alvo. Alguns aspectos da divulgação pre- veem que editores de base compreendendo todas ou uma porção de proteínas CRISPR que possuem diferentes especificidades de PAM. Por exemplo, tipicamente, proteínas Cas9, tais como Cas9 de S. pyo- genes (spCas9), requerem uma sequência NGG PAM canônica para se ligar a uma região de ácido nucleico particular, em que o “N” em “NGG” é adenina (A), timina ( T), guanina (G) ou citosina (C), e o G é guanina.
Uma PAM pode ser específica de proteína CRISPR e pode ser diferente entre diferentes editores de base compreendendo diferentes domínios derivados de proteína CRISPR. Uma PAM pode ser 5’ ou 3’ de uma sequência alvo. Uma PAM pode estar a montante ou a jusante de uma sequência alvo. Um PAM pode ter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais nucleotídeos de comprimento. Geralmente, uma PAM está entre 2-6 nu- cleotídeos de comprimento. Várias variantes de PAM são descritas na Tabela 1 abaixo. Tabela 1. Proteínas Cas9 sequências PAM correspondentes Variante PAM spCas9 NGG spCas9-VRQR NGA spCas9-VRER NGCG xCas9 (sp) NGN saCas9 NNGRRT saCas9-KKH NNNRRT spCas9-MQKSER NGCG spCas9-MQKSER NGCN spCas9-LRKIQK NGTN spCas9-LRVSQK NGTN spCas9-LRVSQL NGTN SpyMacCas9 NAA Cpf1 5’ (TTTV)
[0252] Em algumas modalidades, a PAM é NGT. Em algumas mo- dalidades, a NGT PAM é uma variante. Em algumas modalidades, a variante NGT PAM é criada por meio de mutações direcionadas em um ou mais resíduos 1335, 1337, 1135, 1136, 1218 e/ou 1219. Em algumas modalidades, a variante NGT PAM é criada através de mutações direci- onadas em um ou mais resíduos 1219, 1335, 1337, 1218. Em algumas modalidades, a variante NGT PAM é criada por meio de mutações dire- cionadas em um ou mais resíduos 1135, 1136, 1218, 1219 e 1335. Em algumas modalidades, a variante NGT PAM é selecionada do conjunto de mutações direcionadas fornecidas nas Tabelas 2 e 3 abaixo.
Tabela 2: Mutações em variante de NGT PAM em resíduos 1219, 1335, 1337, 1218 Variante E1219V R1335Q T1337 G1218 1 F V T 2 F V R 3 F V Q 4 F V L 5 F V T R 6 F V R R 7 F V Q R 8 F V L R 9 L L T 10 L L R 11 L L Q 12 L L L 13 F I T 14 F I R 15 F I Q 16 F I L 17 F G C 18 H L N 19 F G C A 20 H L N V
21 L A W 22 L A F 23 L A Y 24 I A W 25 I A F 26 I A Y Tabela 3: Mutações em variante de NGT PAM em resíduos 1135, 1136, 1218, 1219, e 1335 Variante D1135L S1136R G1218S E1219V R1335Q 27 G 28 V 29 I 30 A 31 W 32 H 33 K 34 K 35 R 36 Q 37 T 38 N 39 I 40 A 41 N 42 Q 43 G 44 L 45 S 46 T
47 L 48 I 49 V 50 N 51 S 52 T 53 F 54 Y 55 N1286Q I1331F
[0256] Em algumas modalidades, a variante de NGT PAM é selecionada da variante 5, 7, 28, 31, ou 36 nas Tabelas 2 e 3. Em algumas modali- dades, as variantes melhoraram o reconhecimento de NGT PAM.
[0257] Em algumas modalidades, as variantes de NGT PAM têm muta- ções nos resíduos 1219, 1335, 1337 e/ou 1218. Em algumas modalida- des, a variante de NGT PAM é selecionada com mutações para reco- nhecimento aprimorado das variantes fornecidas na Tabela 4 abaixo. Tabela 4: Mutações em variantes de NGT PAM em resíduos 1219, 1335, 1337, e 1218 Variante E1219V R1335Q T1337 G1218 1 F V T 2 F V R 3 F V Q 4 F V L 5 F V T R 6 F V R R 7 F V Q R 8 F V L R
[0253] Em algumas modalidades, a NGT PAM é selecionada das variantes providas na Tabela 5 abaixo.
Table 5. NGT PAM variantes Variante de NGTN D1135 S1136 G1218 E1219 A1322R R1335 T1337 Variante 1 LRKIQK L R K I - Q K Variante 2 LRSVQK L R S V - Q K Variante 3 LRSVQL L R S V - Q L Variante 4 LRKIRQK L R K I R Q K Variante 5 LRSVRQK L R S V R Q K Variante 6 LRSVRQL L R S V R Q L
[0254] Em algumas modalidades, o domínio de Cas9 é um domínio de Cas9 de Streptococcus pyogenes (SpCas9). Em algumas modalida- des, o domínio de SpCas9 é uma SpCas9 ativa de nuclease, uma SpCas9 inativa de nuclease (SpCas9d), ou uma SpCas9 nickase (SpCas9n). Em algumas modalidades, a SpCas9 compreende uma mu- taçaõ de D9X, ou uma mutação correspondente em qualquer uma das sequências de aminoácido providas neste documento, em que X é qual- quer aminoácido, exceto D. Em algumas modalidades, a SpCas9 com- preende uma mutação em D9A, ou uma mutação correspondente em qualquer uma das sequências de aminoácido providas neste docu- mento. Em algumas modalidades, o domínio de SpCas9, o domínio de SpCas9d, ou o domínio de SpCas9n podem ser ligar a uma sequência de ácido nucleico tendo uma PAM não canônica. Em algumas modali- dades, o domínio de SpCas9, o domínio de SpCas9d, ou o domínio de SpCas9n podem ser ligar a uma sequência de ácido nucleico tendo uma sequência de NGG, NGA ou NGCG PAM.
[0255] Em algumas modalidades, o domínio de SpCas9 compre- ende uma ou mais de uma mutação em D1135X, R1335X e T1336X, ou uma mutação correspondente em qualquer uma das sequências de ami- noácido providas neste documento, em que X é qualquer aminoácido. Em algumas modalidades, o domínio de SpCas9 compreende um ou mais de uma mutação em D1135E, R1335Q e T1336R, ou uma mutação correspondente em qualquer uma das sequências de aminoácido provi- das neste documento. Em algumas modalidades, o domínio de SpCas9 compreende uma mutação em D1135E, R1335Q, e T1336R, ou muta- ções correspondentes em qualquer uma das sequências de aminoácido providas neste documento. Em algumas modalidades, o domínio de SpCas9 compreende um ou mais de uma mutação em D1135X, R1335X e T1336X, ou uma mutação correspondente em qualquer uma das se- quências de aminoácido providas neste documento, em que X é qual- quer aminoácido. Em algumas modalidades, o domínio de SpCas9 com- preende um ou mais de uma mutação em D1135V, R1335Q e T1336R, ou uma mutação correspondente em qualquer uma das sequências de aminoácido providas neste documento. Em algumas modalidades, o do- mínio de SpCas9 compreende uma mutação em D1135V, R1335Q e T1336R, ou mutações correspondentes em qualquer uma das sequên- cias de aminoácido providas neste documento. Em algumas modalida- des, o domínio de SpCas9 compreende uma ou mais de uma mutação em D1135X, G1217X, R1335X e T1336X, ou uma mutação correspon- dente em qualquer uma das sequências de aminoácido providas neste documento, em que X é qualquer aminoácido. Em algumas modalida- des, o domínio de SpCas9 compreende uma ou mais de uma mutação em D1135V, G1217R, R1335Q e T1336R, ou uma mutação correspon- dente em qualquer uma das sequências de aminoácido providas neste documento. Em algumas modalidades, o domínio de SpCas9 compre- ende uma mutação em D1135V, G1217R, R1335Q e T1336R, ou muta- ções correspondentes em qualquer uma das sequências de aminoácido providas neste documento.
[0256] Em algumas modalidades, um domínio de Cas9 de qualquer uma das proteínas de fusão providas neste documento compreende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a um polipeptídeo Cas9 descrito neste documento. Em algumas modalida-
des, os domínios de Cas9 de qualquer uma das proteínas de fusão pro- vidas neste documento compreendem a sequência de aminoácido de qualquer polipeptídeo Cas9 descrito neste documento. Em algumas mo- dalidades, os domínios de Cas9 de qualquer uma das proteínas de fu- são providas neste documento consistem na sequência de aminoácido de qualquer polipeptídeo Cas9 descrito neste documento.
[0257] Em alguns exemplos, uma PAM reconhecida por um domí- nio derivado de proteína CRISPR de um editor de base divulgado neste documento pode ser fornecida a uma célula em um oligonucleotídeo se- parado para uma inserção (por exemplo, uma inserção de AAV) codifi- cando o editor de base. Em tais modalidades, fornecer PAM em um oli- gonucleotídeo separado pode permitir a clivagem de uma sequência alvo que, de outra forma, não seria capaz de ser clivada, porque ne- nhum PAM adjacente está presente no mesmo polinucleotídeo que a sequência alvo.
[0258] Em uma modalidade, Cas9 de S. pyogenes (SpCas9) pode ser usada como uma endonuclease CRISPR para engenharia de ge- noma. No entanto, outras podem ser usadas. Em algumas modalidades, uma endonuclease diferente pode ser usada para atingir certos alvos genômicos. Em algumas modalidades, variantes sintéticas derivadas de SpCas9 com sequências PAM não NGG podem ser usadas. Além disso, outros ortólogos de Cas9 de várias espécies foram identificados e esses “não-SpCas9s” podem se ligar a uma variedade de sequências PAM que também podem ser úteis para uma presente divulgação. Por exem- plo, o tamanho relativamente grande de SpCas9 (aproximadamente 4 kilobase (kb) de sequência de codificação) pode levar a plasmídeos por- tando o cDNA de SpCas9 que não pode ser eficientemente expresso em uma célula. Por outro lado, a sequência de codificação para Cas9 de Staphylococcus aureus (SaCas9) é aproximadamente 1 quilobase mais curta do que SpCas9, possivelmente permitindo que seja eficien- temente expressa em uma célula. Semelhante a SpCas9, a endonu- clease SaCas9 é capaz de modificar genes alvo em células de mamífero in vitro e em camundongos in vivo. Em algumas modalidades, uma pro- teína Cas pode ter como alvo uma sequência PAM diferente. Em algu- mas modalidades, um gene alvo pode ser adjacente a uma Cas9 PAM, 5’-NGG, por exemplo. Em outras modalidades, outros ortólogos de Cas9 podem ter diferentes requisitos de PAM. Por exemplo, outras PAMs, tais como aquelas de S. thermophilus (5’-NNAGAA para CRISPR1 e 5’- NGGNG para CRISPR3) e Neisseria meningiditis (5’-NNNNGATT) tam- bém podem ser encontrados adjacentes a um gene alvo.
[0259] Em algumas modalidades, para um sistema de S. pyogenes, uma sequência de gene alvo pode preceder (isto é, ser 5’ a) uma 5’- NGG PAM, uma sequência de RNA guia 20-nt pode emparelhar em ba- ses com uma cadeia oposta para mediar uma clivagem Cas9 adjacente a uma PAM. Em algumas modalidades, um corte adjacente pode ter ou ter cerca de 3 pares de bases a montante de uma PAM. Em algumas modalidades, um corte adjacente pode ter ou ter cerca de 10 pares de bases a montante de um PAM. Em algumas modalidades, um corte ad- jacente pode ter ou ter cerca de 0-20 pares de bases a montante de uma PAM. Por exemplo, um corte adjacente pode ser próximo a 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 pares de bases a montante de uma PAM. Um corte adjacente também pode estar a jusante de uma PAM por 1 a 30 pares de bases. A sequências de proteínas SpCas9 exemplificativas capazes de ligar uma sequência PAM seguem:
[0260] A sequência de aminoácido de uma SpCas9 de ligação a PAM exemplificativa é como segue: MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI-
GALLFDSGETAEA- TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD.
[0261] A sequência de aminoácido de uma SpCas9n de ligação a PAM exemplificativa é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVL DATLIHQSITGLYETRIDLSQLGGD.
[0262] A sequência de aminoácido de uma SpEQR Cas9 de ligação a PAM exemplificativa é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFVEEDKKHE RHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLNP- DNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQ LPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL-
SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVL DATLIHQSITGLYETRIDLSQLGGD. Nesta sequência, os resíduos E1135, Q1335 e R1337, que podem ser mutados de D1135, R1335 e T1337 para gerar uma SpEQR Cas9, estão sublinhados e em negrito.
[0263] A sequência de aminoácido de uma SpVQR Cas9 de ligação a PAM exemplificativa é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL-
SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVL DATLIHQSITGLYETRIDLSQLGGD. Nesta sequência, os resíduos V1135, Q1335, e R1336, que podem ser mutados de D1135, R1335, e T1336 para gerar uma SpVQR Cas9, estão sublinhados e em negrito.
[0264] A sequência de aminoácido de SpVRER Cas9 de ligação a PAM exemplificativa é como segue: MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLI- GALLFDSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIA QLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDS- LHEHIAN- LAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSR ERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDK LIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITI- MERSSFEKN- PIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALP SKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKR- VILADANLDKVL- SAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVL DATLIHQSITGLYETRIDLSQLGGD.
[0265] Em algumas modalidades, um domínio de Cas9 é um domí- nio de Cas9 recombinante. Em algumas modalidades, o domínio de Cas9 recombinante é um domínio de SpyMacCas9. Em algumas moda- lidades, o domínio de SpyMacCas9 é uma SpyMacCas9 ativa de nu- clease, uma SpyMacCas9 inativa de nuclease (SpyMacCas9d), ou uma SpyMacCas9 nickase (SpyMacCas9n). Em algumas modalidades, o do- mínio de SaCas9, o domínio de SaCas9d, ou o domínio de SaCas9n podem ser ligar a uma sequência de ácido nucleico tendo uma PAM não canônica. Em algumas modalidades, o domínio de SpyMacCas9, o do- mínio de SpCas9d ou o domínio de SpCas9n pode ser ligar a uma se- quência de ácido nucleico tendo uma sequência NAA PAM. SpyMacCas9 Exemplificativa MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLI- GALLFGSGETAEA-
TRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKH ERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIK- FRGHFLIEGDLN- PDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIA QLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNL- LAQIGD- QYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLK ALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDG- TEELLVKLNRE- DLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRI PYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFD- KNLPNEKVL- PKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVT VKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEE- NEDILE- DIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLING IRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHS- LHEQIAN- LAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRE RMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQEL- DINRLSDYDV- DHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAK LITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNT- KYDENDKLIRE- VKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKL ESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAN- GEIRKRPLIETN- GETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPL EVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNK- KQFEQNPVKFLR- DRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQIL LYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIEN- VYSNKKNSASI- EELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQ SITGLYETRVDLSKIGED.
[0266] Em alguns casos, uma proteína Cas9 variante abriga muta- ções em H840A, P475A, W476A, N477A, D1125A, W1126A, e D1218A, tal que o polipeptídeo tem uma capacidade reduzida de clivar um DNA ou RNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exemplo, um DNA alvo de cadeia simples), mas man- tém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Como outro exemplo não limitante, em alguns ca- sos, a proteína Cas9 variante abriga mutações em D10A, H840A, P475A, W476A, N477A, D1125A, W1126A e D1218A, tal que o polipep- tídeo tem uma capacidade reduzida de clivar um DNA alvo. Tal proteína Cas9 tem uma capacidade reduzida de clivar um DNA alvo (por exem- plo, um DNA alvo de cadeia simples), mas mantém a capacidade de se ligar a um DNA alvo (por exemplo, um DNA alvo de cadeia simples). Em alguns casos, quando uma proteína Cas9 variante abriga mutações em W476A e W1126A ou quando a proteína Cas9 variante abriga mutações em P475A, W476A, N477A, D1125A, W1126A e D1218A, a proteína Cas9 variante não se liga de forma eficiente a uma sequência PAM. As- sim, em alguns casos, quando essa proteína Cas9 variante é usada em um método de ligação, o método não requer uma sequência PAM. Em outras palavras, em alguns casos, quando tal proteína Cas9 variante é usada em um método de ligação, o método pode incluir um RNA guia, mas o método pode ser realizado na ausência de uma sequência PAM (e a especificidade de ligação é, portanto, fornecida pelo segmento de direcionamento do RNA guia). Outros resíduos podem ser mutados para atingir os efeitos acima (isto é, inativam uma ou as outras porções de nuclease). Como exemplos não limitantes, os resíduos D10, G12, G17,
E762, H840, N854, N863, H982, H983, A984, D986 e/ou A987 podem ser alterados (ou seja, substituídos). Além disso, mutações diferentes de substituições de alanina são adequadas.
[0267] Em algumas modalidades, um domínio derivado de proteína CRISPR de um editor de base pode compreender toda ou uma porção de uma proteína Cas9 com uma sequência PAM canônica (NGG). Em outras modalidades, um domínio derivado de Cas9 de um editor de base pode empregar uma sequência PAM não canônica. Tais sequências fo- ram descritas na técnica e seriam evidentes para o versado na técnica. Por exemplo, domínios de Cas9 que se ligam a sequências PAM não canônicas foram descritos em Kleinstiver, B. P., et al., “Engineered CRISPR-Cas9 nucleases with altered PAM specificities” Nature 523, 481-485 (2015); e Kleinstiver, B. P., et al., “Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM reco- gnition”, Nature Biotechnology 33, 1293-1298 (2015); todo o conteúdo de cada uma dos quais é aqui incorporado por referência. Proteínas de fusão compreendendo uma sequência de localização nu- clear (NLS)
[0268] Em algumas modalidades, as proteínas de fusão providas neste documento ainda compreendem uma ou mais (por exemplo, 2, 3, 4, 5) sequências de direcionamento nuclear, por exemplo, uma sequên- cia de localização nuclear (NLS). Em uma modalidade, uma NLS bipar- tida é utilizada. Em algumas modalidades, uma NLS compreende uma sequência de aminoácido que facilita a importação de uma proteína, que compreende uma NLS, no núcleo da célula (por exemplo, por transporte nuclear). Em algumas modalidades, qualquer uma das proteínas de fu- são providas neste documento ainda compreende uma sequência de localização nuclear (NLS). Em algumas modalidades, a NLS é fundida ao terminal N da proteína de fusão. Em algumas modalidades, a NLS é fundida ao terminal C da proteína de fusão. Em algumas modalidades,
a NLS é fundida ao terminal N do domínio de Cas9. Em algumas moda- lidades, a NLS é fundida ao terminal C de um domínio de nCas9 ou um domínio de dCas9. Em algumas modalidades, a NLS é fundida ao ter- minal N da desaminase.
Em algumas modalidades, a NLS é fundida ao terminal C da desaminase.
Em algumas modalidades, a NLS é fundida à proteína de fusão por meio de um ou mais ligantes.
Em algumas mo- dalidades, a NLS é fundida à proteína de fusão sem um ligante.
Em algumas modalidades, a NLS compreende uma sequência de aminoá- cido de qualquer uma das sequências NLS fornecidas ou referenciadas aqui.
Sequências de localização nuclear adicionais são conhecidas na técnica e seriam evidentes para o versado.
Por exemplo, sequências NLS são descritas em Plank et al., PCT/EP2000/011690, cujo conteúdo é aqui incorporado por referência para a sua divulgação de sequências de localização nuclear exemplificativas.
Em algumas modalidades, uma NLS compreende a sequência de aminoácido PKKKRKVEGADKRTAD- GSEFESPKKKRKV, KRTADGSEFESPKKKRKV, KRPAATKKAGQAK- KKK, KKTELQTTNAENKTKKL, KRGINDRNFWRGENGRKTR, RKSGKIAAIVVKRPRKPKKKRKV, ou MDSLLMNRRKFLYQFKNVR- WAKGRRETYLC.
Em algumas modalidades, a NLS está presente em um ligante ou a NLS é flanqueada por ligantes, por exemplo, os ligantes descritos neste documento.
Em algumas modalidades, a NLS N-termi- nal ou C-terminal é uma NLS bipartida.
Um NLS bipartida compreende dois agrupamentos básicos de aminoácido, que são separados por uma sequência espaçadora relativamente curta (portanto, bipartida - 2 par- tes, enquanto as NLS monopartidas não são). A NLS de nucleoplas- mina, KR[PAATKKAGQA]KKKK, é o protótipo do sinal bipartido ubíquo: dois agrupamentos de aminoácidos básicos, separados por um espaça- dor de cerca de 10 aminoácidos.
Segue a sequência de uma NLS bipar- tida exemplificativa: PKKKRKVEGADKRTADGSEFES PKKKRKV.
[0269] Em algumas modalidades, as proteínas de fusão da inven- ção não compreendem uma sequência de ligante. Em algumas modali- dades, as sequências de ligante entre um ou mais domínios ou proteí- nas estão presentes.
[0270] Deve ser apreciado que as proteínas de fusão da presente divulgação podem compreender uma ou mais características adicionais. Por exemplo, em algumas modalidades, a proteína de fusão pode com- preender inibidores, sequências de localização citoplasmática, sequên- cias de exportação, tais como sequências de exportação nuclear, ou outras sequências de localização, bem como etiquetas de sequência que são úteis para solubilização, purificação ou detecção da proteínas de fusão. Etiquetas de proteína adequadas providas neste documento incluem, mas sem limitação, etiquetas de proteína transportadora de bi- otina carboxilase (BCCP), etiquetas de myc, etiquetas de calmodulina, etiquetas FLAG, etiquetas de hemaglutinina (HA), etiquetas de poli-his- tidina, também referidas como etiquetas de histidina ou etiquetas His, etiquetas de proteína de ligação de maltose (MBP), etiquetas nus, eti- quetas de glutationa-S-transferase (GST), etiquetas de proteína fluores- cente verde (GFP), etiquetas de tioredoxina, etiquetas S, Softags (por exemplo, Softag 1, Softag 3), etiquetas strep, etiquetas de biotina ligase, etiquetas FlAsH, etiquetas V5, e etiquetas SBP. Sequências adequadas adicionais serão evidentes para os versados na técnica. Em algumas modalidades, a proteína de fusão compreende uma ou mais etiquetas His.
[0271] Um vetor que codifica uma enzima CRISPR compreendendo uma ou mais sequências de localização nuclear (NLSs) pode ser usado. Por exemplo, pode haver ou haver cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 NLSs usadas. Uma enzima CRISPR pode compreender a NLS em ou perto do terminal amino, cerca de ou mais do que cerca de 1, 2, 3, 4, 5,
6, 7, 8, 9, 10 NLSs em ou perto do terminal carbóxi, ou qualquer combi- nação destes (por exemplo, uma ou mais NLS no terminal amino e uma ou mais NLS no terminal carbóxi). Quando mais de uma NLS está pre- sente, cada uma pode ser selecionada independentemente das outras, de modo que uma única NLS possa estar presente em mais de uma cópia e/ou em combinação com uma ou mais outros NLSs presentes em uma ou mais cópias.
[0272] Enzimas CRISPR usadas nos métodos podem compreender cerca de 6 NLSs. Uma NLS é considerada próxima ao terminal N- ou C- quando o aminoácido mais próximo da NLS está dentro de cerca de 50 aminoácidos ao longo de uma cadeia polipeptídica do terminal N- ou C- , por exemplo, dentro de 1, 2, 3, 4, 5, 10, 15, 20, 25, 30, 40 ou 50 ami- noácidos. Domínios de Cas9 com Exclusividade Reduzida
[0273] Tipicamente, proteínas Cas9, tais como Cas9 de S. pyoge- nes (spCas9), requerem uma sequência NGG PAM canônica para se ligar a uma região de ácido nucleico particular, em que o “N” em “NGG” é adenosina (A), timidina (T) ou citosina (C), e o G é guanosina. Isso pode limitar a capacidade de editar as bases desejadas dentro de um genoma. Em algumas modalidades, as proteínas de fusão da base de edição providas neste documento podem precisar ser colocadas em um local preciso, por exemplo, uma região compreendendo uma base alvo que está a montante da PAM. Vide, por exemplo, Komor, A.C., et al., “Programmed editing of a target base in genomic DNA without de cadeia dupla DNA cleavage” Nature 533, 420-424 (2016), todo o conteúdo do qual é aqui incorporado por referência. Assim, em algumas modalida- des, qualquer uma das proteínas de fusão providas neste documento pode conter um domínio de Cas9 que é capaz de ligar a sequência de nucleotídeo que não contém uma sequência PAM canônica (por exem- plo, NGG). Os domínios de Cas9 que se ligam a sequências PAM não canônicas foram descritos na técnica e seriam evidentes para o versado na técnica. Por exemplo, os domínios de Cas9 que se ligam a sequên- cias PAM não canônicas foram descritos em Kleinstiver, B. P., et al., “Engineered CRISPR-Cas9 nucleases with altered PAM specificities” Nature 523, 481-485 (2015); e Kleinstiver, B. P., et al., “Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAM recognition” Nature Biotechnology 33, 1293-1298 (2015); Nishi- masu, H., et al., “Engineered CRISPR-Cas9 nuclease with expanded targeting space” Science. 21 de setembro de 2018; 361(6408):1259- 1262, Chatterjee, P., et al., “Minimal PAM specificity of a highly similar SpCas9 ortholog” Sci Adv. 24 de outubro de 2018; 4(10):eaau0766. doi:
10.1126/sciadv.aau0766, todo o conteúdo de cada dos quais é aqui in- corporado por referência. Domínio de Edição de Nucleobase
[0274] São descritos neste documento editores de base compreen- dendo uma proteína de fusão que inclui um domínio de ligação de nu- cleotídeo programável de polinucleotídeo e um domínio de edição de nucleobase (por exemplo, um ou mais domínios de desaminase). O edi- tor de base pode ser programado para editar uma ou mais bases em uma sequência de polinucleotídeo alvo, interagindo com um polinucleo- tídeo guia capaz de reconhecer a sequência alvo. Uma vez que a se- quência alvo tenha sido reconhecida, o editor de base é ancorado no polinucleotídeo onde a edição deve ocorrer e os um ou mais componen- tes de domínio de desaminase do editor de base podem então editar uma base alvo.
[0275] Em algumas modalidades, domínio de edição de nucleobase inclui um ou mais domínios de desaminase. Conforme descrito particu- larmente neste documento, o domínio desaminase inclui uma citosina desaminase ou uma citidina desaminase e uma adenina desaminase ou uma adenosina desaminase (por exemplo, um editor de base multiefe- tor). Em algumas modalidades, os termos “citosina desaminase” e “citi- dina desaminase” podem ser usados indistintamente. Em algumas mo- dalidades, os termos “adenina desaminase” e “adenosina desaminase” podem ser usados indistintamente. Os detalhes das proteínas de edição de nucleobase são descritos nos Pedidos Internacionais PCT Nºs. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632), cada um dos quais é aqui incorporado por referência em sua totalidade. Ver também Komor, A.C., et al., “Programmable edi- ting of a target base in genomic DNA without double-stranded DNA cle- avage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programma- ble base editing of A•T a G•C in genomic DNA without DNA cleavage” Nature 551, 464-471 (2017); e Komor, A.C., et al., “Improved base exci- sion repair inhibition and bacteriophage Mu Gam protein yields C:G-to- T:A base editors with higher efficiency and product purity”, Science Ad- vances 3:eaao4774 (2017), todo o conteúdo dos quais é aqui incorpo- rado por referência. Edição de A em G
[0276] Em algumas modalidades, um editor de base descrito neste documento pode incluir um domínio de desaminase que inclui uma ade- nosina desaminase. Tal domínio de adenosina desaminase de um editor de base pode facilitar a edição de uma adenina (A) nucleobase em uma guanina (G) nucleobase por desaminação de A para formar inosina (I), que exibe propriedades de pareamento de base de G. Adenosina desa- minase é capaz de desaminar (ou seja, remover um grupo amina) ade- nina de um resíduo de desoxiadenosina no ácido desoxirribonucleico (DNA).
[0277] Em algumas modalidades, os editores de nucleobase provi- dos neste documento podem ser feito fundindo um ou mais domínios de proteína, gerando assim uma proteína de fusão. Em certas modalida- des, as proteínas de fusão providas neste documento compreendem uma ou mais características que melhoram a atividade de edição de base (por exemplo, eficiência, seletividade e especificidade) das proteí- nas de fusão. Por exemplo, as proteínas de fusão providas neste docu- mento podem compreender um domínio de Cas9 que tem atividade de nuclease reduzida. Em algumas modalidades, as proteínas de fusão providas neste documento podem ter um domínio de Cas9 que não tem atividade de nuclease (dCas9), ou um domínio de Cas9 que corta uma cadeia de uma molécula de DNA duplexada, referida como uma Cas9 nickase (nCas9). Sem desejar ser limitado por qualquer teoria particular, a presença do resíduo catalítico (por exemplo, H840) mantém a ativi- dade da Cas9 para clivar a cadeia não editada (por exemplo, não desa- minada) contendo um T oposto ao A alvo. A mutação do resíduo catalí- tico (por exemplo, D10 em A10) de Cas9 evita a clivagem da cadeia editada que contém o resíduo A direcionado. Tais variantes de Cas9são capazes de gerar uma quebra de DNA de cadeia simples (nick) em um local específico com base na sequência alvo definida por gRNA, levando ao reparo da cadeia não editada, resultando em uma mudança de T em C na cadeia não editada. Em algumas modalidades, um editor de base de A em G ainda compreende um inibidor de reparo de excisão de base de inosina, por exemplo, um domínio de inibidor de uracil glicosilase (UGI) ou uma nuclease específica de inosina cataliticamente inativa. Sem desejar estar limitado por qualquer teoria em particular, o domínio UGI ou nuclease específica de inosina cataliticamente inativa pode inibir ou impedir o reparo de excisão de base de um resíduo de adenosina desaminado (por exemplo, inosina), o que pode melhorar a atividade ou eficiência do editor de base.
[0278] Um editor de base compreendendo uma adenosina desami- nase pode atuar sobre qualquer polinucleotídeo, incluindo DNA, RNA e híbridos de DNA-RNA. Em certas modalidades, um editor de base com- preendendo uma adenosina desaminase pode desaminar um alvo A de um polinucleotídeo compreendendo RNA. Por exemplo, o editor de base pode compreender um domínio de adenosina desaminase capaz de de- saminar um alvo A de um polinucleotídeo de RNA e/ou um polinucleotí- deo híbrido de DNA-RNA. Em uma modalidade, uma adenosina desa- minase incorporada em um editor de base compreende toda ou uma porção de adenosina desaminase atuando no RNA (ADAR, por exem- plo, ADAR1 ou ADAR2). Em outra modalidade, uma adenosina desami- nase incorporada em um editor de base compreende toda ou uma por- ção de adenosina desaminase atuando em tRNA (ADAT). Um editor de base compreendendo um domínio de adenosina desaminase também pode ser capaz de desaminar uma nucleobase A de um polinucleotídeo de DNA. Em uma modalidade, um domínio de adenosina desaminase de um editor de base compreende toda ou uma porção de um ADAT compreendendo uma ou mais mutações que permitem ao ADAT desa- minar um alvo A no DNA. Por exemplo, o editor de base pode compre- ender toda ou uma porção de um ADAT de Escherichia coli (EcTadA) compreendendo uma ou mais das seguintes mutações: D108N, A106V, D147Y, E155V, L84F, H123Y, I157F, ou uma mutação em outra adeno- sina desaminase.
[0279] A adenosina desaminase pode ser derivada de qualquer or- ganismo adequado (por exemplo, E. coli). Em algumas modalidades, a adenina desaminase é uma adenosina desaminase de ocorrência natu- ral que inclui uma ou mais mutações correspondentes a qualquer uma das mutações providas neste documento (por exemplo, mutações em ecTadA). O resíduo correspondente em qualquer proteína homóloga pode ser identificado, por exemplo, por alinhamento de sequência e de- terminação de resíduos homólogos. As mutações em qualquer adeno- sina desaminase de ocorrência natural (por exemplo, tendo homologia com ecTadA) que corresponde a qualquer uma das mutações descritas neste documento (por exemplo, qualquer uma das mutações identifica- das em ecTadA) podem ser geradas em conformidade. TadA
[0280] Em modalidades particulares, a TadA é qualquer uma das TadA descritas neste documento ou no PCT/US2017/045381 (WO 2018/027078), que é incorporado neste documento por referência em sua totalidade. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácido apresen- tadas em qualquer uma das adenosina desaminases providas neste do- cumento. Deve ser apreciado que as adenosina desaminases providas neste documento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações providas neste documento). A divulgação provê quaisquer domínios de desaminase com um determinado percen- tual de identidade mais qualquer uma das mutações ou combinações das mesmas descritas neste documento. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, ou mais mutações em comparação com uma sequência de referência, ou qualquer uma das adenosina de- saminases providas neste documento. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo me- nos 130, pelo menos 140, pelo menos 150, pelo menos 160, ou pelo menos 170 resíduos de aminoácido contíguos idênticos em comparação com qualquer uma das sequências de aminoácido conhecidas na téc- nica ou descritas neste documento.
[0281] Em algumas modalidades, a TadA desaminase é uma TadA desaminase de E. coli de comprimento total. Por exemplo, em certas modalidades, a adenosina desaminase compreende a sequência de aminoácido: MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNR- VIGEGWNRPI-
GRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGR VVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRM- RRQEI KAQKKAQSSTD.
[0282] Deve ser apreciado, no entanto, que adenosina desamina- ses adicionais úteis no presente pedido seriam evidentes para o versado na técnica e estão dentro do escopo desta divulgação. Por exemplo, a adenosina desaminase pode ser um homólogo de adenosina desami- nase atuando em tRNA (ADAT). Sem limitação, as sequência de ami- noácido de homólogos de AD AT exemplificativos incluem as que se- guem: TadA de Staphylococcus aureus: MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNL- RETLQQPTAHAEHI-
AIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGC
SGS LMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN TadA de Bacillus subtilis: MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQR- SIAHAEMLVIDE-
ACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTL
MNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE TadA de Salmonella typhimurium (S. typhimurium): MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHR- VIGEGWNRPI-
GRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGR VVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRM-
RRQEIKALKKADRAEGAGPAV TadA de Shewanella putrefaciens (S. putrefaciens): MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTA- HAEILCLRSAGK-
KLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNL
LQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE TadA de Haemophilus influenzae F3031 (H. influenzae): MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNL- SIVQSD-
PTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFG ASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEK-
KIEKALLKSLSDK TadA de Caulobacter vibrioides (C. vibrioides): MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNG- PIAAHDPTA-
HAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADD
PKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI TadA de Geobacter sulfurreducens (G. sulfurreducens): MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNL- REGSNDPSAHA-
EMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPK GGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKA-
KATPALF IDERKVPPEP Uma modalidade de TadA de E. coli (ecTadA) inclui o seguinte:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAI- GLHDPTAHAEI- MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTG AAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQK- KAQSSTD
[0283] Em algumas modalidades, a adenosina desaminase é de um procarioto. Em algumas modalidades, a adenosina desaminase é de uma bactéria. Em algumas modalidades, a adenosina desaminase é de Escherichia coli, Staphylococcus aureus, Salmonella typhi, Shewanella putrefaciens, Haemophilus influenzae, Caulobacter crescentus ou Baci- llus subtilis. Em algumas modalidades, a adenosina desaminase é de E. coli.
[0284] Em uma modalidade, uma proteína de fusão da invenção compreende uma TadA de tipo selvagem ligada a TadA7.10, que é li- gada a Cas9 nickase. Em modalidades particulares, as proteínas de fu- são compreendem um único domínio de TadA7.10 (por exemplo, desde que como um monômero). Em outras modalidades, o editor de ABE7.10 compreende TadA7.10 e TadA(wt), que são capazes de formar hetero- dímeros.
[0285] Em algumas modalidades, a adenosina desaminase com- preende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácido apresentadas em qualquer uma das adenosina desaminases providas neste docu- mento. Deve ser apreciado que as adenosina desaminases providas neste documento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações providas neste documento). A divulgação provê quaisquer domínios de desaminase com um determinado percen- tual de identidade mais qualquer uma das mutações ou combinações das mesmas descritas neste documento. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, ou mais mutações em comparação com uma sequência de referência, ou qualquer uma das adenosina de- saminases providas neste documento. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo me- nos 130, pelo menos 140, pelo menos 150, pelo menos 160, ou pelo menos 170 resíduos de aminoácido contíguos idênticos em comparação com qualquer uma das sequências de aminoácido conhecidas na téc- nica ou descrito neste documento.
[0286] Deve ser apreciado que qualquer uma das mutações provi- das neste documento (por exemplo, com base na sequência de referên- cia de TadA) podem ser introduzidas em outras adenosina desamina- ses, tais como TadA de E. coli (ecTadA), TadA de S. aureus (saTadA), ou outras adenosina desaminases (por exemplo, adenosina desamina- ses bacterianas). Seria evidente para o versado na técnica que desami- nases adicionais podem ser alinhadas de forma semelhante para iden- tificar resíduos de aminoácido homólogos que podem ser mutados como providas neste documento. Assim, qualquer uma das mutações identifi- cadas na sequência de referência de TadA podem ser feitas em outras adenosina desaminases (por exemplo, ecTada) que possuem resíduos de aminoácido homólogos. Também deve ser apreciado que qualquer uma das mutações providas neste documento pode ser feita individual- mente ou em qualquer combinação em uma sequência de referência de
TadA ou outra adenosina desaminase.
[0287] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em D108X na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em D108G, D108N, D108V, D108A ou D108Y, ou uma mutação correspondente em outra adenosina desaminase.
[0288] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em A106X na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em A106V na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, TadA tipo selvagem ou ecTadA).
[0289] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em E155X na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em E155D, E155G ou E155V na sequência de referência de TadA, ou uma mutação correspondente em outra ade- nosina desaminase (por exemplo, ecTadA).
[0290] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em D147X na sequência de referência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma D147Y, mutação na sequência de referência de TadA ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0291] [0298] Em algumas modalidades, a adenosina desaminase compreende uma mutação em A106X, E155X ou D147X na sequência de referência de TadA, ou uma mutação correspondente em outra ade- nosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina de- saminase de tipo selvagem. Em algumas modalidades, a adenosina de- saminase compreende uma mutação em E155D, E155G ou E155V. Em algumas modalidades, a adenosina desaminase compreende uma D147Y.
[0292] Por exemplo, uma adenosina desaminase pode conter uma mutação em D108N, A106V, E155V e/ou D147Y na sequência de refe- rência de TadA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, uma adenosina desaminase compreende o seguinte grupo de mutações (grupos de mutações são separados por “;”) na sequência de referência de TadA, ou mutações correspondentes em outra adenosina desami- nase (por exemplo, ecTadA): D108N e A106V; D108N e E155V; D108N e D147Y; A106V e E155V; A106V e D147Y; E155V e D147Y; D108N, A106V, e E55V; D108N, A106V, e D147Y; D108N, E55V, e D147Y; A106V, E55V, e D 147Y; e D108N, A106V, E55V, e D147Y. Deve ser apreciado, no entanto, que qualquer combinação de mutações corres- pondentes providas neste documento pode ser feita em uma adenosina desaminase (por exemplo, ecTadA).
[0293] Em algumas modalidades, a adenosina desaminase com- preende uma ou mais de uma mutação em H8X, T17X, L18X, W23X, L34X, W45X, R51X, A56X, E59X, E85X, M94X, I95X, V102X, F104X, A106X, R107X, D108X, K110X, M118X, N127X, A138X, F149X, M151X, R153X, Q154X, I156X e/ou K157X na sequência de referência de TadA, ou uma ou mais mutações correspondentes em outra adeno- sina desaminase (por exemplo, ecTadA), em que a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na ade- nosina desaminase de tipo selvagem. Em algumas modalidades, a ade- nosina desaminase compreende uma ou mais mutações em H8Y, T17S, L18E, W23L, L34S, W45L, R51H, A56E, ou A56S, E59G, E85K, ou E85G, M94L, 1951, V102A, F104L, A106V, R107C, ou R107H, ou R107P, D108G, ou D108N, ou D108V, ou D108A, ou D108Y, K110I, M118K, N127S, A138V, F149Y, M151V, R153C, Q154L, I156D e/ou K157R na sequência de referência de TaDA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ec- TadA).
[0294] Em algumas modalidades, a adenosina desaminase com- preende uma ou mais de uma mutação em H8X, D108X e/ou N127X na sequência de referência de TaDA, ou uma ou mais mutações corres- pondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido. Em algumas modali- dades, a adenosina desaminase compreende uma ou mais de uma mu- tação em H8Y, D108N e/ou N127S na sequência de referência de TaDA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0295] Em algumas modalidades, a adenosina desaminase com- preende uma ou mais mutações em H8X, R26X, M61X, L68X, M70X, A106X, D108X, A109X, N127X, D147X, R152X, Q154X, E155X, K161X, Q163X, e/ou T166X na sequência de referência de TaDA, ou uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais mutações em H8Y, R26W, M61I, L68Q, M70V, A106T, D108N, A109T, N127S, D147Y, R152C, Q154H ou Q154R, E155G ou E155V ou E155D, K161Q, Q163H e/ou T166P na sequência de referência de TaDA, ou uma ou mais mutações corres- pondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0296] Em algumas modalidades, a adenosina desaminase com- preende uma, duas, três, quatro, cinco ou seis mutações selecionadas do grupo que consiste em H8X, D108X, N127X, D147X, R152X, e Q154X na sequência de referência de TaDA, ou uma mutação ou mu- tações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas do grupo que consiste em H8X, M61X, M70X, D108X, N127X, Q154X, E155X, e Q163X na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas do grupo que consiste em H8X, D108X, N127X, E155X, e T166X na sequência de referência de TaDA, ou uma mutação ou mutações cor- respondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do ami- noácido correspondente na adenosina desaminase de tipo selvagem.
[0297] Em algumas modalidades, a adenosina desaminase com- preende uma, duas, três, quatro, cinco ou seis mutações selecionadas do grupo que consiste em H8X, A106X, D108X, mutação ou mutações em outra adenosina desaminase, em que X indica a presença de qual- quer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco, seis, sete ou oito mutações selecionadas do grupo que consiste em H8X, R126X, L68X, D108X, N127X, D147X e E155X, ou uma mutação ou mutações correspondentes em outra adenosina desaminase, em que X indica a presença de qualquer aminoácido diferente do aminoácido correspon- dente na adenosina desaminase de tipo selvagem. Em algumas moda- lidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas do grupo que consiste em H8X, D108X, A109X, N127X, e E155X na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina de- saminase (por exemplo, ecTadA), em que X indica a presença de qual- quer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem.
[0298] Em algumas modalidades, a adenosina desaminase com- preende uma, duas, três, quatro, cinco ou seis mutações selecionadas do grupo que consiste em H8Y, D108N, N127S, D147Y, R152C, e Q154H na sequência de referência de TaDA, ou uma mutação ou mu- tações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro, cinco, seis, sete ou oito mutações seleci- onadas do grupo que consiste em H8Y, M61I, M70V, D108N, N127S, Q154R, E155G e Q163H na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desami- nase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações se- lecionadas do grupo que consiste em H8Y, D108N, N127S, E155V, e T166P na sequência de referência de TaDA, ou uma mutação ou muta- ções correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro, cinco ou seis mutações selecionadas do grupo que consiste em H8Y, A106T, D108N, N127S, E155D e K161Q na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ec- TadA). Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro, cinco, seis, sete ou oito mutações seleci- onadas do grupo que consiste em H8Y, R126W, L68Q, D108N, N127S, D147Y, e E155V na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas do grupo que consiste em H8Y, D108N, A109T, N127S, e E155G na sequência de referência de TaDA, ou uma mutação ou mutações cor- respondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0299] Qualquer uma das mutações providas neste documento e quaisquer mutações adicionais (por exemplo, com base na sequência de aminoácido de ecTadA) podem ser introduzidas em quaisquer outras adenosina desaminases. Qualquer uma das mutações providas neste documento pode ser feita individualmente ou em qualquer combinação na sequência de referência de TaDA ou outra adenosina desaminase (por exemplo, ecTadA).
[0300] Detalhes das proteínas de edição de nucleobase de A em G são descritas no Pedido PCT Internacional Nº. PCT/2017/045381 (WO2018/027078) e Gaudelli, N.M., et al., “Programmable base editing of A•T to G•C in genomic DNA without DNA cleavage” Nature, 551, 464-
471 (2017), todo o conteúdo do qual é aqui incorporado por referência.
[0301] Em algumas modalidades, a adenosina desaminase com- preende uma ou mais mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a ade- nosina desaminase compreende uma mutação em D108N, D108G ou D108V na sequência de referência de TaDA, ou mutações correspon- dentes em outra adenosina desaminase (por exemplo, ecTadA). Em al- gumas modalidades, a adenosina desaminase compreende uma muta- ção em A106V e D108N na sequência de referência de TaDA, ou muta- ções correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compre- ende mutações em R107C e D108N na sequência de referência de TaDA, ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desa- minase compreende uma mutação em H8Y, D108N, N127S, D147Y, e Q154H na sequência de referência de TaDA, ou mutações correspon- dentes em outra adenosina desaminase (por exemplo, ecTadA). Em al- gumas modalidades, a adenosina desaminase compreende uma muta- ção em H8Y, R24W, D108N, N127S, D147Y, e E155V na sequência de referência de TaDA, ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a ade- nosina desaminase compreende uma mutação em D108N, D147Y e E155V na sequência de referência de TaDA, ou mutações correspon- dentes em outra adenosina desaminase (por exemplo, ecTadA). Em al- gumas modalidades, a adenosina desaminase compreende uma muta- ção em H8Y, D108N e N127S na sequência de referência de TaDA, ou mutações correspondentes em outra adenosina desaminase (por exem- plo, ecTadA). Em algumas modalidades, a adenosina desaminase com- preende uma mutação em A106V, D108N, D147Y e E155V na sequên-
cia de referência de TaDA, ou mutações correspondentes em outra ade- nosina desaminase (por exemplo, ecTadA).
[0302] Em algumas modalidades, a adenosina desaminase compre- ende uma ou mais de uma mutação em S2X, H8X, I49X, L84X, H123X, N127X, I156X e/ou K160X na sequência de referência de TaDA, ou uma ou mais mutações correspondentes em outra adenosina desaminase, em que a presença de X indica qualquer aminoácido diferente do ami- noácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais mutações em S2A, H8Y, I49F, L84F, H123Y, N127S, I156F e/ou K160S na sequência de referência de TaDA, ou uma ou mais mu- tações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0303] Em algumas modalidades, a adenosina desaminase compre- ende uma adenosina desaminase com mutação em L84X, em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação L84F na sequência de referência de TaDA, ou uma mutação correspondente em outra ade- nosina desaminase (por exemplo, ecTadA).
[0304] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em H123X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em H123Y na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, ecTadA).
[0305] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em I157X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em I157F na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, ecTadA).
[0306] Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro, cinco, seis ou sete mutações selecionadas do grupo que consiste em L84X, A106X, D108X, H123X, D147X, E155X, e I156X na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações seleciona- das do grupo que consiste em S2X, I49X, A106X, D108X, D147X, e E155X na sequência de referência de TaDA, ou uma mutação ou muta- ções correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro ou cinco mutações selecionadas do grupo que consiste em H8X, A106X, D108X, N127X, e K160X na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que X indica a presença de qualquer aminoácido diferente do aminoácido correspon- dente na adenosina desaminase de tipo selvagem.
[0307] Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro, cinco, seis ou sete mutações selecionadas do grupo que consiste em L84F, A106V, D108N, H123Y, D147Y, E155V, e I156F na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma, duas, três, quatro, cinco ou seis mutações seleciona- das do grupo que consiste em S2A, I49F, A106V, D108N, D147Y, e E155V na sequência de referência de TaDA.
[0308] Em algumas modalidades, a adenosina desaminase compre- ende uma, duas, três, quatro ou cinco mutações selecionadas do grupo que consiste em H8Y, A106T, D108N, N127S, e K160S na sequência de referência de TaDA, ou uma mutação ou mutações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0309] Em algumas modalidades, a adenosina desaminase compre- ende um ou mais de uma mutação em E25X, R26X, R107X, A142X e/ou A143Xo na sequência de referência de TaDA, ou uma ou mais muta- ções correspondentes em outra adenosina desaminase (por exemplo, ecTadA), em que a presença de X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais da mutação em E25M, E25D, E25A, E25R, E25V, E25S, E25Y, R26G, R26N, R26Q, R26C, R26L, R26K, R107P, R07K, R107A, R107N, R107W, R107H, R107S, A142N, A142D, A142G, A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q e/ou A143R na sequência de referência de TaDA, ou uma ou mais mutações corres- pondentes em outra adenosina desaminase (por exemplo, ecTadA). Em algumas modalidades, a adenosina desaminase compreende uma ou mais das mutações descritas neste documento correspondentes à se-
quência de referência de TadA, ou uma ou mais mutações correspon- dentes em outra adenosina desaminase (por exemplo, ecTadA).
[0310] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em E25X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em E25M, E25D, E25A, E25R, E25V, E25S ou E25Y na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0311] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em R26X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende mutação em R26G, R26N, R26Q, R26C, R26L ou R26K na sequência de referência de TaDA, ou uma mutação correspondente em outra ade- nosina desaminase (por exemplo, ecTadA).
[0312] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em R107X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em R107P, R07K, R107A, R107N, R107W, R107H ou R107S na sequência de referência de TaDA, ou uma mutação corres- pondente em outra adenosina desaminase (por exemplo, ecTadA).
[0313] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em A142X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em A142N, A142D, A142G na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desami- nase (por exemplo, ecTadA).
[0314] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em A143X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em A143D, A143G, A143E, A143L, A143W, A143M, A143S, A143Q e/ou A143R na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0315] Em algumas modalidades, a adenosina desaminase compre- ende uma ou mais de uma mutação em H36X, N37X, P48X, I49X, R51X, M70X, N72X, D77X, E134X, S 146X, Q154X, K157X, e/ou K161X na sequência de referência de TaDA, ou uma ou mais mutações corres- pondentes em outra adenosina desaminase (por exemplo, ecTadA), em que a presença de X indica qualquer aminoácido diferente do aminoá- cido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma ou mais da mutação em H36L, N37T, N37S, P48T, P48L, I49V, R51H, R51L, M70L, N72S, D77G, E134G, S146R, S146C, Q154H, K157N,
e/ou K161T na sequência de referência de TaDA, ou uma ou mais mu- tações correspondentes em outra adenosina desaminase (por exemplo, ecTadA).
[0316] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em H36X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em H36L na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, ecTadA).
[0317] Em algumas modalidades, a adenosina desaminase com- preende uma mutação em N37X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em N37T ou N37S na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0318] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em P48X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em P48T ou P48L na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0319] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em R51X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase, em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selvagem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em R51H ou R51L na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0320] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em S146X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em S146R ou S146C na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desami- nase (por exemplo, ecTadA).
[0321] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em K157X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em K157N na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, ecTadA).
[0322] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em P48X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em P48S, P48T ou P48A na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desami- nase (por exemplo, ecTadA).
[0323] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em A142X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em A142N na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exem- plo, ecTadA).
[0324] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em W23X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em W23R ou W23L na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0325] Em algumas modalidades, a adenosina desaminase compre- ende uma mutação em R152X na sequência de referência de TaDA, ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA), em que X indica qualquer aminoácido diferente do aminoácido correspondente na adenosina desaminase de tipo selva- gem. Em algumas modalidades, a adenosina desaminase compreende uma mutação em R152P ou R52H na sequência de referência de TaDA,
ou uma mutação correspondente em outra adenosina desaminase (por exemplo, ecTadA).
[0326] Em uma modalidade, a adenosina desaminase pode com- preender as mutações H36L, R51L, L84F, A106V, D108N, H123Y, S146C, D147Y, E155V, I156F e K157N. Em algumas modalidades, a adenosina desaminase compreende a seguintes combinação de muta- ções em relação à sequência de referência de TadA, em que cada mu- tação em uma combinação é separada por um “_” e cada combinação de mutação está entre parênteses: (A106V_D108N), (R107C_D108N), (H8Y_D108N_N127S_D147Y_Q154H), (H8Y_R24W_D108N_N127S_D147Y_E155V), (D108N_D147Y_E155V), (H8Y_D108N_N127S), (H8Y_D108N_N127S_D147Y_Q154H), (A106V_D108N_D147Y_E155V), (D108Q_D147Y_E155V), (D108M_D147Y_E155V), (D108L_D147Y_E155V), (D108K_D147Y_E155V), (D108I_D147Y_E155V), (D108F_D147Y_E155V), (A106V_D108N_D147Y), (A106V_D108M_D147Y_E155V), (E59A_A106V_D108N_D147Y_E155V), (E59A cat dead_A106V_D108N_D147Y_E155V), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (D103A_D104N),
(G22P_D103A_D104N), (G22P_D103A_D104N_S138 A), (D103A_D104N_S138A), (R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y _E155V_I156F), (E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_ D147Y_E155V _I156F), (E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_ D147Y_E155V_ I156F), (R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_ D147Y_E155V _I156F), (R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_ I156F), (L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F), (R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_ D147Y_E155V _I156F), (R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y _E155V_I156F), (A106V_D108N_A142N_D147Y_E155V), (R26G_A106V_D108N_A142N_D147Y_E155V), (E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V ), (R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V), (E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V), (A106V_D108N_A142N_A143G_D147Y_E155V), (A106V_D108N_A142N_A143L_D147Y_E155V), (H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I1 56F _K157N), (N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155 V_I156F), (N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T), (H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F), (N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F), (H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I1 56F), (H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N), (H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T), (N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I1 56F), (R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N), (D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I1 56F_K160E), (H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I1 56F), (Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_ I156F), (E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L), (L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F), (N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F), (P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F), (W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I1
56F_Q159L), (L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E 155V_I156F _K157N), (N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_ K161T), (L84F_A106V_D108N_D147Y_E155V_I156F), (R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K 157N_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_ K160E_K161T), (L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_ K160E), (R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F), (L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F), (P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F), (P48S_A142N), (P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I1 56F_L157N), (P48T_I49V_A142N), (H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E1 55V_I156F_K157N), (H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D1 47Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147 Y_E155V_I156F _K157N), (H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146 C_D147Y_E155V_ I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E1 55V_I156F_K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D1 47Y_E155V_I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D1 47Y_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D14 7Y_E155V_I156F _K157N), (W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D1 47Y_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D14 7Y_E155V_I156F _K161T), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R1 52H_E155V_I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R1 52P_E155V_I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D14 7Y_R152P_E155V _I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S14 6C_D147Y_E155V _I156F _K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S14 6C_D147Y_R152P _E155V_I156F_K157N), (W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D14 7Y_E155V_I156F _K161T), (W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D1
47Y_R152P_E155V _I156F _K157N), (H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D1 47Y_R152P_E155V _I156F _K157N).
[0327] Em certas modalidades, as proteínas de fusão providas neste documento compreendem uma ou mais características que me- lhoram a atividade de edição de base das proteínas de fusão. Por exem- plo, qualquer uma das proteínas de fusão providas neste documento pode compreender um domínio de Cas9 que tem atividade de nuclease reduzida. Em algumas modalidades, qualquer uma das proteínas de fu- são providas neste documento pode ter um domínio de Cas9 que não tem atividade de nuclease (dCas9), ou um domínio de Cas9 que corta uma cadeia de uma molécula de DNA duplexada, referida como uma Cas9 nickase (nCas9). Adenosina desaminases
[0328] As proteínas de fusão da invenção compreendem um ou mais adenosina desaminases. Em algumas modalidades, as adenosina desaminases providas neste documento são capazes de desaminar adenina. Em algumas modalidades, as adenosina desaminases provi- das neste documento são capazes de desaminar adenina em um resí- duo de desoxiadenosina de DNA. A adenosina desaminase pode ser derivada de qualquer organismo adequado (por exemplo, E. coli). Em algumas modalidades, a adenina desaminase é uma adenosina desa- minase de ocorrência natural que inclui uma ou mais mutações corres- pondentes a qualquer uma das mutações providas neste documento (por exemplo, mutações em ecTadA). Um versado na técnica será ca- paz de identificar o resíduo correspondente em qualquer proteína ho- móloga, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos. Por conseguinte, um versado na técnica seria ca-
paz de gerar mutações em qualquer adenosina desaminase de ocorrên- cia natural (por exemplo, tendo homologia com ecTadA) que corres- ponde a qualquer uma das mutações descritas neste documento, por exemplo, qualquer uma das mutações identificadas em ecTadA. Em al- gumas modalidades, a adenosina desaminase é de um procarioto. Em algumas modalidades, a adenosina desaminase é de uma bactéria. Em algumas modalidades, a adenosina desaminase é de Escherichia coli, Staphylococcus aureus, Salmonella typhi, Shewanella putrefaciens, Ha- emophilus influenzae, Caulobacter crescentus, ou Bacillus subtilis. Em algumas modalidades, a adenosina desaminase é de E. coli.
[0329] Em algumas modalidades, as adenosina desaminases pro- vidas neste documento são capazes de desaminar adenina. Em algu- mas modalidades, as adenosina desaminases providas neste docu- mento são capazes de desaminar adenina em um resíduo de desoxia- denosina de DNA. Em algumas modalidades, a adenina desaminase é uma adenosina desaminase de ocorrência natural que inclui uma ou mais mutações correspondentes a qualquer uma das mutações provi- das neste documento (por exemplo, mutações em ecTadA). Um versado na técnica será capaz de identificar o resíduo correspondente em qual- quer proteína homóloga, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos. Por conseguinte, um versado na técnica seria capaz de gerar mutações em qualquer adenosina desami- nase de ocorrência natural (por exemplo, tendo homologia com ecTadA) que corresponde a qualquer uma das mutações descritas neste docu- mento, por exemplo, qualquer uma das mutações identificadas em ec- TadA. Em algumas modalidades, a adenosina desaminase é de um pro- carioto. Em algumas modalidades, a adenosina desaminase é de uma bactéria. Em algumas modalidades, a adenosina desaminase é de Es- cherichia coli, Staphylococcus aureus, Salmonella typhi, Shewanella pu- trefaciens, Haemophilus influenzae, Caulobacter crescentus, ou Bacillus subtilis. Em algumas modalidades, a adenosina desaminase é de E. coli.
[0330] Em algumas modalidades, a adenosina desaminase compre- ende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácido apresentadas em qual- quer uma das adenosina desaminases providas neste documento. Deve ser apreciado que as adenosina desaminases providas neste docu- mento podem incluir uma ou mais mutações (por exemplo, qualquer uma das mutações providas neste documento). A divulgação provê quaisquer domínios de desaminase com um determinado percentual de identidade mais qualquer uma das mutações ou combinações das mes- mas descritas neste documento. Em algumas modalidades, a adeno- sina desaminase compreende uma sequência de aminoácido que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, ou mais mutações em comparação com uma sequência de referência, ou qualquer uma das adenosina de- saminases providas neste documento. Em algumas modalidades, a adenosina desaminase compreende uma sequência de aminoácido que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo menos 120, pelo me- nos 130, pelo menos 140, pelo menos 150, pelo menos 160, ou pelo menos 170 resíduos de aminoácido contíguos idênticos em comparação com qualquer uma das sequências de aminoácido conhecidas na téc- nica ou descrito neste documento. Edição de C em T
[0331] Em algumas modalidades, um editor de base divulgado neste documento compreende uma proteína de fusão compreendendo citidina desaminase capaz de desaminar uma base de citidina alvo (C) de um polinucleotídeo para produzir uridina (U), que tem as proprieda- des de emparelhamento de base de timina. Em algumas modalidades, por exemplo, em que o polinucleotídeo é de cadeia dupla (por exemplo, DNA), a base de uridina pode, então, ser substituída por uma base de timidina (por exemplo, por mecanismo de reparo celular) para dar ori- gem a uma transição de C:G para T:A. Em outras modalidades, a desa- minação de C em U em um ácido nucleico por um editor de base pode não ser acompanhada por substituição do U por um T.
[0332] A desaminação de um C alvo em um polinucleotídeo para dar origem a um U é um exemplo não limitante de um tipo de edição de base que pode ser executada por um editor de base descrito neste do- cumento. Em outro exemplo, um editor de base compreendendo um do- mínio de citidina desaminase pode mediar a conversão de uma base de citosina (C) em uma base de guanina (G). Por exemplo, um U de um polinucleotídeo produzido por desaminação de uma citidina por um do- mínio de citidina desaminase de um editor de base pode ser excisado do polinucleotídeo por um mecanismo de reparo de excisão de base (por exemplo, por um domínio de uracil DNA glicosilase (UDG)), produ- zindo um sítio básico. A nucleobase oposta ao sítio abásico pode então ser substituída (por exemplo, por mecanismo de reparo de base) por outra base, tal como um C, por exemplo, uma polimerase de translesão. Embora seja típico de uma nucleobase oposta um sítio abásico ser substituído por um C, outras substituições (por exemplo, A, G ou T) tam- bém podem ocorrer.
[0333] Por conseguinte, em algumas modalidades, um editor de base descrito neste documento compreende um domínio de desamina- ção (por exemplo, domínio de citidina desaminase) capaz de desaminar um C alvo para um U em um polinucleotídeo. Além disso, conforme des- crito abaixo, o editor de base pode compreenderem domínios adicionais que facilitam a conversão do U resultante da desaminação em, em al- gumas modalidades, um T ou um G. Por exemplo, um editor de base compreendendo um domínio de citidina desaminase pode ainda com- preender um domínio de inibidor de uracil glicosilase (UGI) para mediar a substituição de um U por um T, completando um evento de edição de base de C para T. Em outro exemplo, um editor de base pode incorporar uma polimerase de translesão para melhorar a eficiência de edição de base de C para G, uma vez que uma polimerase de translesão pode facilitar a incorporação de um C oposto a um sítio abásico (ou seja, re- sultando na incorporação de um G no sítio básico, completando o evento de edição de base de C para G).
[0334] Um editor de base compreendendo uma citidina desaminase como um domínio pode desaminar um C alvo em qualquer polinucleotí- deo, incluindo DNA, RNA e híbridos de DNA-RNA. Tipicamente, uma citidina desaminase catalisa uma nucleobase C que está posicionada no contexto de uma porção de cadeia simples de um polinucleotídeo. Em algumas modalidades, todo o polinucleotídeo compreendendo um C alvo pode ser de cadeia simples. Por exemplo, uma citidina desami- nase incorporada ao editor de base pode desaminar um C alvo em um polinucleotídeo de RNA de cadeia simples. Em outras modalidades, um editor de base compreendendo um domínio de citidina desaminase pode atuar em um polinucleotídeo de cadeia dupla, mas o alvo C pode ser posicionado em uma porção do polinucleotídeo que, no momento da reação de desaminação, está em um estado de cadeia simples. Por exemplo, nas modalidades em que o domínio de NAGPB compreende um domínio de Cas9, vários nucleotídeos podem ser deixados sem par durante a formação de um complexo Cas9-gRNA-DNA alvo, resultando na formação de uma “alça R complexa” de Cas9. Esses nucleotídeos desemparelhados podem formar uma bolha de DNA de cadeia simples que pode servir como substrato para uma enzima desaminase de nu- cleotídeo específica de cadeia simples (por exemplo, citidina desami- nase).
[0335] Em algumas modalidades, uma citidina desaminase de um editor de base pode compreender toda ou uma porção de uma desami- nase da família do complexo de edição de mRNA da apolipoproteína B (APOBEC). APOBEC é uma família de citidina desaminases conserva- das evolutivamente. Os membros dessa família são enzimas de edição de C em U. O domínio N-terminal de APOBEC semelhante a proteínas é o domínio catalítico, enquanto o domínio C-terminal é um domínio pseudocatalítico. Mais especificamente, o domínio catalítico é um domí- nio de citidina desaminase dependente de zinco e é importante para a desaminação de citidina. Membros da família APOBEC incluem APO- BEC1, APOBEC2, APOBEC3A, APOBEC3B, APOBEC3C, APOBEC3D (“APOBEC3E” agora se refere a este), APOBEC3F, APOBEC3G, APO- BEC3H, APOBEC4, e (citidina) desaminase induzida por ativação. Em algumas modalidades, uma desaminase incorporada em um editor de base compreende toda ou uma porção de uma desaminase APOBEC1. Em algumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de APOBEC2 desaminase. Em algumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de uma desaminase APOBEC3. Em algumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de uma desaminase APOBEC3A. Em algumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3B. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3C. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3D. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3E. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3F. Em algu- mas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3G. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC3H. Em al- gumas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase APOBEC4. Em algu- mas modalidades, a desaminase incorporada em um editor de base compreende toda ou uma porção de desaminase induzida por ativação (AID). Em algumas modalidades, a desaminase incorporada em um edi- tor de base compreende toda ou uma porção de citidina desaminase 1 (CDA1). Deve ser apreciado que um editor de base pode compreender uma desaminase de qualquer organismo adequado (por exemplo, um ser humano ou um rato). Em algumas modalidades, um domínio de de- saminase de um editor de base é de um ser humano, chipanzé, gorila, macaco, vaca, cachorro, rato ou camundongo. Em algumas modalida- des, o domínio de desaminase do editor de base é derivado de rato (por exemplo, APOBEC1 de rato). Em algumas modalidades, o domínio de desaminase do editor de base é APOBEC1 humano. Em algumas mo- dalidades, o domínio de desaminase do editor de base é pmCDA1.
[0336] As sequências de ácido nucleico e aminoácido de PmCDA1 são apresentadas abaixo neste documento. Sequência de aminoácido de >tr|A5H718|A5H718_PETMA Citosina de- saminase OS=Petromyzon marinus OX=7757 PE=2 SV=1: MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGER-
RACFWGYAVNKPQSG- TERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQEL RGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKI-
FIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV Sequência de ácido nucleico: >EF094822.1 Isolado de lampreia-mari- nha PmCDA.21 mRNA de citosina desaminase, cds completa: TGACACGACACAGCCGTGTATATGAGGAAGGGTAGCTGGA- TGGGGGGGGGGGGAATACGTT-
CAGAGAGGACATTAGCGAGCGTCTTGTTGGTGGCCTTGAGTCTAGACACCTG CAGACATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATC- TACACGTT- TAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTT CTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTA- TGCTGTGAA- TAAACCACAGAGCGGGACAGAACGTGGAATTCACGCCGAAATCTTTAGCATT AGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACAATTCACGATAAA- TTGGTACT- CATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAA CCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAAC- TCTAT- TACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAACCTCAGAGATAACG GGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAA- TATTCATCCAA- TCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGC GAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATAC- TCCACACCACTAAGAGTCCTGCTGTTTAAGAGGCTATGCGGATGGTTTTC
[0337] As sequências de ácido nucleico e aminoácido da sequência de codificação (CDS) de citidina desaminase humana induzida por ati- vação (AID) são mostradas abaixo. Sequência de aminoácido >tr|Q6QJ80|Q6QJ80_Citidina desaminase humana induzida por ativação OS=Homo sapiens OX=9606 GN=AICDA
PE=2 SV=1: MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYL-
RNKNGCHVELL FLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIF- TARLYFCEDRK AEPEGLRRLHRAGVQIAIMTFKAPV
[0338] As sequências de ácido nucleico e aminoácido da sequência de codificação (CDS) de citidina desaminase humana induzida por ati- vação (AID) são mostradas abaixo. Sequência de aminoácido de >tr|Q6QJ80|Q6QJ80_Citidina desaminase humana induzida por ativação OS=Homo sapiens OX=9606 GN=AICDA PE=2 SV=1: MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYL-
RNKNGCHVELL FLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIF- TARLYFCEDRK
AEPEGLRRLHRAGVQIAIMTFKAPV Sequência de ácido nucleico: >NG_011588.1:5001-15681 citidina desa- minase induzida por ativação de homo sapiens (AICDA), RefSeqGene (LRG_17) no cromossomo 12: AGAGAACCATCATTAATTGAAGTGAGATTTTTCTGGCCTGAGACTTGCAGG- GAGGCAAGAA-
GACACTCTGGACACCACTATGGACAGGTAAAGAGGCAGTCTTCTCGTGGGTG ATTGCACTGGCCTTCCTCTCAGAGCAAATCTGAGTAATGAGACTGGTAGC- TATCCCTTT- CTCTCATGTAACTGTCTGACTGATAAGATCAGCTTGATCAATATGCATATAT ATTTTTTGATCTGTCTCCTTTTCTTCTATTCAGATCTTATACGCTGTCAG- CCCAATTCTTT- CTGTTTCAGACTTCTCTTGATTTCCCTCTTTTTCATGTGGCAAAAGAAGTAG TGCGTACAATGTACTGATTCGTCCTGAGATTTGTACCATGGTTGAAACTAA- TTTATGGTAA- TAATATTAACATAGCAAATCTTTAGAGACTCAAATCATGAAAAGGTAATAGC AGTACTGTACTAAAAACGGTAGTGCTAATTTTCGTAATAATTTTGTAAATA- TTCAACAG- TAAAACAACTTGAAGACACACTTTCCTAGGGAGGCGTTACTGAAATAATTTA GCTATAGTAAGAAAATTTGTAATTTTAGAAATGCCAAGCATTCTAAATTAA- TTGCTTGAAAG- TCACTATGATTGTGTCCATTATAAGGAGACAAATTCATTCAAGCAAGTTATT TAATGTTAAAGGCCCAATTGTTAGGCAGTTAATGGCACTTTTACTATTAAC- TAATCTTT- CCATTTGTTCAGACGTAGCTTAACTTACCTCTTAGGTGTGAATTTGGTTAAG GTCCTCATAATGTCTTTATGTGCAGTTTTTGATAGGTTATTGTCATAGAAC- TTATTCTATT- CCTACATTTATGATTACTATGGATGTATGAGAATAACACCTAATCCTTATAC TTTACCTCAATTTAACTCCTTTATAAAGAACTTACATTACAGAATAAAGA- TTTTTTAAAAA- TATATTTTTTTGTAGAGACAGGGTCTTAGCCCAGCCGAGGCTGGTCTCTAAG TCCTGGCCCAAGCGATCCTCCTGCCTGGGCCTCCTAAAGTGCTGGAATTA- TAGACATGAG- CCATCACATCCAATATACAGAATAAAGATTTTTAATGGAGGATTTAATGTTC TTCAGAAAATTTTCTTGAGGTCAGACAATGTCAAATGTCTCCTCAGTTTA- CACTGAGA- TTTTGAAAACAAGTCTGAGCTATAGGTCCTTGTGAAGGGTCCATTGGAAATA CTTGTTCAAAGTAAAATGGAAAGCAAAGGTAAAATCAGCAGTTGAAATTCA- GAGAAAGACA- GAAAAGGAGAAAAGATGAAATTCAACAGGACAGAAGGGAAATATATTATCAT TAAGGAGGACAGTATCTGTAGAGCTCATTAGTGATGGCAAAATGACTTGGT- CAGGATTA- TTTTTAACCCGCTTGTTTCTGGTTTGCACGGCTGGGGATGCAGCTAGGGTTC TGCCTCAGGGAGCACAGCTGTCCAGAGCAGCTGTCAGCCTGCAAG- CCTGAAACAC- TCCCTCGGTAAAGTCCTTCCTACTCAGGACAGAAATGACGAGAACAGGGAGC TGGAAACAGGCCCCTAACCAGAGAAGGGAAGTAATGGATCAACAAAGT- TAACTAGCAGGTCA- GGATCACGCAATTCATTTCACTCTGACTGGTAACATGTGACAGAAACAGTGT AGGCTTATTGTATTTTCATGTAGAGTAGGACCCAAAAATCCACCCAAAG- TCCTTTATCTATG- CCACATCCTTCTTATCTATACTTCCAGGACACTTTTTCTTCCTTATGATAAG GCTCTCTCTCTCTCCACACACACACACACACACACACACACACACACACA- CACACACACAAA- CACACACCCCGCCAACCAAGGTGCATGTAAAAAGATGTAGATTCCTCTGCCT TTCTCATCTACACAGCCCAGGAGGGTAAGTTAATATAAGAGGGATTTA- TTGGTAAGAGA- TGATGCTTAATCTGTTTAACACTGGGCCTCAAAGAGAGAATTTCTTTTCTTC TGTACTTATTAAGCACCTATTATGTGTTGAGCTTATATATACAAAGGGTTA- TTATATGCTAA- TATAGTAATAGTAATGGTGGTTGGTACTATGGTAATTACCATAAAAATTATT ATCCTTTTAAAATAAAGCTAATTATTATTGGATCTTTTTTAGTATTCATTT- TATGTTTTTTA- TGTTTTTGATTTTTTAAAAGACAATCTCACCCTGTTACCCAGGCTGGAGTGC AGTGGTGCAATCATAGCTTTCTGCAGTCTTGAACTCCTGGGCTCAAGCAA- TCCTCCTG- CCTTGGCCTCCCAAAGTGTTGGGATACAGTCATGAGCCACTGCATCTGGCCT AGGATCCATTTAGATTAAAATATGCATTTTAAATTTTAAAATAATATGGC- TAATTTTTACCT- TATGTAATGTGTATACTGGCAATAAATCTAGTTTGCTGCCTAAAGTTTAAAG TGCTTTCCAGTAAGCTTCATGTACGTGAGGGGAGACATTTAAAGTGAAACA- GACAGCCAGG- TGTGGTGGCTCACGCCTGTAATCCCAGCACTCTGGGAGGCTGAGGTGGGTGG ATCGCTTGAGCCCTGGAGTTCAAGACCAGCCTGAGCAACATGGCAAAACG- CTGTTTCTATAA- CAAAAATTAGCCGGGCATGGTGGCATGTGCCTGTGGTCCCAGCTACTAGGGG GCTGAGGCAGGAGAATCGTTGGAGCCCAGGAGGTCAAGGCTGCACTGAGCA- GTGCTTGCG- CCACTGCACTCCAGCCTGGGTGACAGGACCAGACCTTGCCTCAAAAAAATAA GAAGAAAAATTAAAAATAAATGGAAACAACTACAAAGAGCTGTTGTCCTA- GATGAGCTACT- TAGTTAGGCTGATATTTTGGTATTTAACTTTTAAAGTCAGGGTCTGTCACCT GCACTACATTATTAAAATATCAATTCTCAATGTATATCCACACAAAGAC- TGGTACGTGAATG- TTCATAGTACCTTTATTCACAAAACCCCAAAGTAGAGACTATCCAAATATCC ATCAACAAGTGAACAAATAAACAAAATGTGCTATATCCATGCAATGGAATA- CCACCCTGCAG- TACAAAGAAGCTACTTGGGGATGAATCCCAAAGTCATGACGCTAAATGAAAG AGTCAGACATGAAGGAGGAGATAATGTATGCCATACGAAATTCTAGAAAA- TGAAAGTAACT- TATAGTTACAGAAAGCAAATCAGGGCAGGCATAGAGGCTCACACCTGTAATC CCAGCACTTTGAGAGGCCACGTGGGAAGATTGCTAGAACTCAGGAGTTCAA- GACCAG- CCTGGGCAACACAGTGAAACTCCATTCTCCACAAAAATGGGAAAAAAAGAAA GCAAATCAGTGGTTGTCCTGTGGGGAGGGGAAGGACTGCAAAGAGGGA- AGAAGCTCTGG- TGGGGTGAGGGTGGTGATTCAGGTTCTGTATCCTGACTGTGGTAGCAGTTTG GGGTGTTTACATCCAAAAATATTCGTAGAATTATGCATCTTAAATGGGTG- GAGTTTACTGTA- TGTAAATTATACCTCAATGTAAGAAAAAATAATGTGTAAGAAAACTTTCAAT TCTCTTGCCAGCAAACGTTATTCAAATTCCTGAGCCCTTTACTTCGCAAA- TTCTCTGCACTT- CTGCCCCGTACCATTAGGTGACAGCACTAGCTCCACAAATTGGATAAATGCA TTTCTGGAAAAGACTAGGGACAAAATCCAGGCATCACTTGTGCTTTCATAT- CAACCATGCTG- TACAGCTTGTGTTGCTGTCTGCAGCTGCAATGGGGACTCTTGATTTCTTTAA GGAAACTTGGGTTACCAGAGTATTTCCACAAATGCTATTCAAATTAGTGCT- TATGATATG- CAAGACACTGTGCTAGGAGCCAGAAAACAAAGAGGAGGAGAAATCAGTCATT ATGTGGGAACAACATAGCAAGATATTTAGATCATTTTGACTAGT- TAAAAAAGCAGCAGAGTA- CAAAATCACACATGCAATCAGTATAATCCAAATCATGTAAATATGTGCCTGT AGAAAGACTAGAGGAATAAACACAAGAATCTTAACAGTCATTGTCATTAGA- CACTAAGTCTA- ATTATTATTATTAGACACTATGATATTTGAGATTTAAAAAATCTTTAATATT TTAAAATTTAGAGCTCTTCTATTTTTCCATAGTATTCAAGTTTGACAA- TGATCAAGTATTAC- TCTTTCTTTTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTTGGTCTTGT TGCCCATGCTGGAGTGGAATGGCATGACCATAGCTCACTGCAACCTCCAC- CTCCTGGGTT- CAAGCAAAGCTGTCGCCTCAGCCTCCCGGGTAGATGGGATTACAGGCGCCCA CCACCACACTCGGCTAATGTTTGTATTTTTAGTAGAGATGGGGTTTCAC- CATGTTGGCCAGG- CTGGTCTCAAACTCCTGACCTCAGAGGATCCACCTGCCTCAGCCTCCCAAAG TGCTGGGATTACAGATGTAGGCCACTGCGCCCGGCCAAGTATTGCTCTTA- TACATTAAAAAA- CAGGTGTGAGCCACTGCGCCCAGCCAGGTATTGCTCTTATACATTAAAAAAT AGGCCGGTGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAAG- CCAAGGCGGGCAGAA- CACCCGAGGTCAGGAGTCCAAGGCCAGCCTGGCCAAGATGGTGAAACCCCGT CTCTATTAAAAATACAAACATTACCTGGGCATGATGGTGGGCGCCTGTAA- TCCCAGCTACT- CAGGAGGCTGAGGCAGGAGGATCCGCGGAGCCTGGCAGATCTGCCTGAGCCT GGGAGGTTGAGGCTACAGTAAGCCAAGATCATGCCAGTATACTTCAG- CCTGGGCGACAAAG- TGAGACCGTAACAAAAAAAAAAAAATTTAAAAAAAGAAATTTAGATCAAGAT CCAACTGTAAAAAGTGGCCTAAACACCACATTAAAGAGTTTGGAGTTTATT- CTGCAGGCA- GAAGAGAACCATCAGGGGGTCTTCAGCATGGGAATGGCATGGTGCACCTGGT TTTTGTGAGATCATGGTGGTGACAGTGTGGGGAATGTTATTTTGGAGGGAC- TGGAGGCAGA- CAGACCGGTTAAAAGGCCAGCACAACAGATAAGGAGGAAGAAGATGAGGGCT TGGACCGAAGCAGAGAAGAGCAAACAGGGAAGGTACAAATTCAAGAAATA- TTGGGGGG- TTTGAATCAACACATTTAGATGATTAATTAAATATGAGGACTGAGGAATAAG AAATGAGTCAAGGATGGTTCCAGGCTGCTAGGCTGCTTACCTGAGGTGG- CAAAGTCGGGAG- GAGTGGCAGTTTAGGACAGGGGGCAGTTGAGGAATATTGTTTTGATCATTTT GAGTTTGAGGTACAAGTTGGACACTTAGGTAAAGACTGGAGGGGAAA- TCTGAATATACAAT- TATGGGACTGAGGAACAAGTTTATTTTATTTTTTGTTTCGTTTTCTTGTTGA AGAACAAATTTAATTGTAATCCCAAGTCATCAGCATCTAGAAGACAGTGG- CAGGAGGTGAC- TGTCTTGTGGGTAAGGGTTTGGGGTCCTTGATGAGTATCTCTCAATTGGCCT TAAATATAAGCAGGAAAAGGAGTTTATGATGGATTCCAGGCTCAGCAGGG- CTCAGGAGGGCT- CAGGCAGCCAGCAGAGGAAGTCAGAGCATCTTCTTTGGTTTAGCCCAAGTAA TGACTTCCTTAAAAAGCTGAAGGAAAATCCAGAGTGACCAGATTATAAAC- TGTACTCTTG- CATTTTCTCTCCCTCCTCTCACCCACAGCCTCTTGATGAACCGGAGGAAGTT TCTTTACCAATTCAAAAATGTCCGCTGGGCTAAGGGTCGGCGTGAGACC- TACCTGTGCTACG- TAGTGAAGAGGCGTGACAGTGCTACATCCTTTTCACTGGACTTTGGTTATCT TCGCAATAAGGTATCAATTAAAGTCGGCTTTGCAAGCAGTTTAATGGT- CAACTGTGAGTG- CTTTTAGAGCCACCTGCTGATGGTATTACTTCCATCCTTTTTTGGCATTTGT GTCTCTATCACATTCCTCAAATCCTTTTTTTTATTTCTTTTTCCATG- TCCATGCACCCATAT- TAGACATGGCCCAAAATATGTGATTTAATTCCTCCCCAGTAATGCTGGGCAC CCTAATACCACTCCTTCCTTCAGTGCCAAGAACAACTGCTCCCAAACTGTT- TACCAGCTTT- CCTCAGCATCTGAATTGCCTTTGAGATTAATTAAGCTAAAAGCATTTTTATA TGGGAGAATATTATCAGCTTGTCCAAGCAAAAATTTTAAATGTGAAAAA- CAAATTGTGTCT- TAAGCATTTTTGAAAATTAAGGAAGAAGAATTTGGGAAAAAATTAACGGTGG CTCAATTCTGTCTTCCAAATGATTTCTTTTCCCTCCTACTCACATGGGTCG- TAGGCCAGTGA- ATACATTCAACATGGTGATCCCCAGAAAACTCAGAGAAGCCTCGGCTGATGA TTAATTAAATTGATCTTTCGGCTACCCGAGAGAATTACATTTCCAAGAGAC- TTCTTCAC- CAAAATCCAGATGGGTTTACATAAACTTCTGCCCACGGGTATCTCCTCTCTC CTAACACGCTGTGACGTCTGGGCTTGGTGGAATCTCAGGGAAGCATCCG- TGGGGTGGAAGGT- CATCGTCTGGCTCGTTGTTTGATGGTTATATTACCATGCAATTTTCTTTGCC TACATTTGTATTGAATACATCCCAATCTCCTTCCTATTCGGTGACATGACA- CATTCTATTT- CAGAAGGCTTTGATTTTATCAAGCACTTTCATTTACTTCTCATGGCAGTGCC TATTACTTCTCTTACAATACCCATCTGTCTGCTTTACCAAAATCTATTT- CCCCTTTTCAGA- TCCTCCCAAATGGTCCTCATAAACTGTCCTGCCTCCACCTAGTGGTCCAGGT ATATTTCCACAATGTTACATCAACAGGCACTTCTAGCCATTTTCCTTCT- CAAAAGGTG- CAAAAAGCAACTTCATAAACACAAATTAAATCTTCGGTGAGGTAGTGTGATG CTGCTTCCTCCCAACTCAGCGCACTTCGTCTTCCTCATTCCACAAAAAC- CCATAGCCTT- CCTTCACTCTGCAGGACTAGTGCTGCCAAGGGTTCAGCTCTACCTACTGGTG TGCTCTTTTGAGCAAGTTGCTTAGCCTCTCTGTAACACAAGGACAATAG- CTGCAAG- CATCCCCAAAGATCATTGCAGGAGACAATGACTAAGGCTACCAGAGCCGCAA TAAAAGTCAGTGAATTTTAGCGTGGTCCTCTCTGTCTCTCCAGAACGGCTG- CCACGTGGAA- TTGCTCTTCCTCCGCTACATCTCGGACTGGGACCTAGACCCTGGCCGCTGCT ACCGCGTCACCTGGTTCACCTCCTGGAGCCCCTGCTACGACTGTGCCCGA- CATGTGGCCGAC- TTTCTGCGAGGGAACCCCAACCTCAGTCTGAGGATCTTCACCGCGCGCCTCT ACTTCTGTGAGGACCGCAAGGCTGAGCCCGAGGGGCTGCGGCGGCTGCAC- CGCGCCGGGGTG- CAAATAGCCATCATGACCTTCAAAGGTGCGAAAGGGCCTTCCGCGCAGGCGC AGTGCAGCAGCCCGCATTCGGGATTGCGATGCGGAATGAATGAGTTAG- TGGGGAAG- CTCGAGGGGAAGAAGTGGGCGGGGATTCTGGTTCACCTCTGGAGCCGAAATT AAAGATTAGAAGCAGAGAAAAGAGTGAATGGCTCAGAGACAAGGCCCCGAG- GAAATGAGAAA- ATGGGGCCAGGGTTGCTTCTTTCCCCTCGATTTGGAACCTGAACTGTCTTCT ACCCCCATATCCCCGCCTTTTTTTCCTTTTTTTTTTTTTGAAGATTATTTT- TACTGCTGGAA- TACTTTTGTAGAAAACCACGAAAGAACTTTCAAAGCCTGGGAAGGGCTGCAT GAAAATTCAGTTCGTCTCTCCAGACAGCTTCGGCGCATCCTTTTGG- TAAGGGGCTTCCTCG- CTTTTTAAATTTTCTTTCTTTCTCTACAGTCTTTTTTGGAGTTTCGTATATT TCTTATATTTTCTTATTGTTCAATCACTCTCAGTTTTCATCTGATGAAAAC- TTTATTT- CTCCTCCACATCAGCTTTTTCTTCTGCTGTTTCACCATTCAGAGCCCTCTGC TAAGGTTCCTTTTCCCTCCCTTTTCTTTCTTTTGTTGTTTCACATCTTTAA- ATTTCTG- TCTCTCCCCAGGGTTGCGTTTCCTTCCTGGTCAGAATTCTTTTCTCCTTTTT TTTTTTTTTTTTTTTTTTTTTTAAACAAACAAACAAAAAACCCAAAAAAAC- TCTTTCCCAA- TTTACTTTCTTCCAACATGTTACAAAGCCATCCACTCAGTTTAGAAGACTCT CCGGCCCCACCGACCCCCAACCTCGTTTTGAAGCCATTCACTCAATTTG- CTTCTCTCTTT- CTCTACAGCCCCTGTATGAGGTTGATGACTTACGAGACGCATTTCGTACTTT GGGACTTTGATAGCAACTTCCAGGAATGTCACACACGATGAAATATCTCTG- CTGAAGACAG- TGGATAAAAAACAGTCCTTCAAGTCTTCTCTGTTTTTATTCTTCAACTCTCA CTTTCTTAGAGTTTACAGAAAAAATATTTATATACGACTCTTTAAAAAGA- TCTATG- TCTTGAAAATAGAGAAGGAACACAGGTCTGGCCAGGGACGTGCTGCAATTGG TGCAGTTTTGAATGCAACATTGTCCCCTACTGGGAATAACAGAACTGCAG- GACCTGGGAG- CATCCTAAAGTGTCAACGTTTTTCTATGACTTTTAGGTAGGATGAGAGCAGA AGGTAGATCCTAAAAAGCATGGTGAGAGGATCAAATGTTTTTATATCAACA- TCCTTTATTA- TTTGATTCATTTGAGTTAACAGTGGTGTTAGTGATAGATTTTTCTATTCTTT TCCCTTGACGTTTACTTTCAAGTAACACAAACTCTTCCATCAGG- CCATGATCTATAGGAC- CTCCTAATGAGAGTATCTGGGTGATTGTGACCCCAAACCATCTCTCCAAAGC ATTAATATCCAATCATGCGCTGTATGTTTTAATCAGCAGAAGCATGTTTT- TATGTTTGTA- CAAAAGAAGATTGTTATGGGTGGGGATGGAGGTATAGACCATGCATGGTCAC CTTCAAGCTACTTTAATAAAGGATCTTAAAATGGGCAGGAGGACTGTGAA- CAAGACACCCTA- ATAATGGGTTGATGTCTGAAGTAGCAAATCTTCTGGAAACGCAAACTCTTTT AAGGAAGTCCCTAATTTAGAAACACCCACAAACTTCACATATCATAATTAG- CAAACAATTG- GAAGGAAGTTGCTTGAATGTTGGGGAGAGGAAAATCTATTGGCTCTCGTGGG TCTCTTCATCTCAGAAATGCCAATCAGGTCAAGGTTTGCTACATTTTGTA- TGTGTGTGATG- CTTCTCCCAAAGGTATATTAACTATATAAGAGAGTTGTGACAAAACAGAATG ATAAAGCTGCGAACCGTGGCACACGCTCATAGTTCTAGCTGCTTGGGAGG- TTGAGGAGGGAG- GATGGCTTGAACACAGGTGTTCAAGGCCAGCCTGGGCAACATAACAAGATCC TGTCTCTCAAAAAAAAAAAAAAAAAAAAGAAAGAGAGAGGGCCGGGCGTGG- TGGCTCACG- CCTGTAATCCCAGCACTTTGGGAGGCCGAGCCGGGCGGATCACCTGTGGTCA GGAGTTTGAGACCAGCCTGGCCAACATGGCAAAACCCCGTCTGTACTCAAA- ATGCAAAAAT- TAGCCAGGCGTGGTAGCAGGCACCTGTAATCCCAGCTACTTGGGAGGCTGAG GCAGGAGAATCGCTTGAACCCAGGAGGTGGAGGTTGCAGTAAGCTGAGA- TCGTGCCGTTG- CACTCCAGCCTGGGCGACAAGAGCAAGACTCTGTCTCAGAAAAAAAAAAAAA AAAGAGAGAGAGAGAGAAAGAGAACAATATTTGGGAGAGAAGGATGGGGA- AGCATTGCAAG- GAAATTGTGCTTTATCCAACAAAATGTAAGGAGCCAATAAGGGATCCCTATT TGTCTCTTTTGGTGTCTATTTGTCCCTAACAACTGTCTTTGACAG- TGAGAAAAATATTCAGA- ATAACCATATCCCTGTGCCGTTATTACCTAGCAACCCTTGCAATGAAGATGA GCAGATCCACAGGAAAACTTGAATGCACAACTGTCTTATTTTAATCTTA- TTGTACATAAG- TTTGTAAAAGAGTTAAAAATTGTTACTTCATGTATTCATTTATATTTTATAT TATTTTGCGTCTAATGATTTTTTATTAACATGATTTCCTTTTCTGATATA- TTGAAATGGAG- TCTCAAAGCTTCATAAATTTATAACTTTAGAAATGATTCTAATAACAACGTA TGTAATTGTAACATTGCAGTAATGGTGCTACGAAGCCATTT- CTCTTGATTTTTAGTAAAC- TTTTATGACAGCAAATTTGCTTCTGGCTCACTTTCAATCAGTTAAATAAATG ATAAATAATTTTGGAAGCTGTGAAGATAAAATACCAAATAAAATAATA- TAAAAGTGATTTA- TATGAAGTTAAAATAAAAAATCAGTATGATGGAATAAACTTG
[0339] Outras desaminases exemplificativas que podem ser fundi- das a Cas9 de acordo com os aspectos desta divulgação são providas abaixo. Nas modalidades, as desaminases são desaminases induzidas por ativação (AID). Deve ser entendido que, em algumas modalidades, o domínio ativo da respectiva sequência pode ser usado, por exemplo, o domínio sem um sinal de localização (sequência de localização nu- clear, sem sinal de exportação nuclear, sinal de localização citoplasmá- tica). AID Humana: MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYL- RNKNGCHVELLFL-
RYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLY FCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKA- WEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL (sublinhado: se- quência de localização nuclear; sublinhado duplo: sinal de exportação nuclear) AID de Camundongo: MDSLLMKQKKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSCSLDFGHL- RNKSGCHVELLFL-
RYISDWDLDPGRCYRVTWFTSWSPCYDCARHVAEFLRWNPNLSLRIFTARLY FCEDRKAEPEGLRRLHRAGVQIGIMTFKDYFYCWNTFVENRERTFKA- WEGLHENSVRLTRQLRRILLPLYEVDDLRDAFRMLGF (sublinhado: se- quência de localização nuclear; sublinhado duplo: sinal de exportação nuclear) AID Canina:
MDSLLMKQRKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSFSLDFGHL- RNKSGCHVELLFL-
RYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFAARLY FCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENREKTFKA- WEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL (sublinhado: se- quência de localização nuclear; sublinhado duplo: sinal de exportação nuclear) AID Bovina: MDSLLKKQRQFLYQFKNVRWAKGRHETYLCYVVKRRDSPTSFSLDFGHLRN- KAGCHVELLFL-
RYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFTARLY FCDKERKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKA- WEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL (sublinhado: se- quência de localização nuclear; sublinhado duplo: sinal de exportação nuclear) AID de Rato: MAVGSKPKAALVGPHWERERIWCFLCSTGLGTQQTGQTSRWLRPAATQD- PVSPPRS-
LLMKQRKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSFSLDFGYLRNKSGC HVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSL- RIFTAR- LTGWGALPAGLMSPARPSDYFYCWNTFVENHERTFKAWEGLHENSVRLSRRL
RRILLPLYEVDDLRDAFRTLGL (sublinhado: sequência de localização nuclear; sublinhado duplo: sinal de exportação nuclear) APOBEC-3-(2) de Camundongo: MGPFCLGCSHRKCYSPIRNLISQETFKFHFKNLGYAKGRKDTFLCYEVTRK- DCDSPVSLH-
HGVFKNKDNIHAEICFLYWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQI VRFLATHHNLSLDIFSSRLYNVQDPETQQNLCRLVQEGAQVAAMDLYEFKK- CWKKFV- DNGGRRFRPWKRLLTNFRYQDSKLQEILRPCYIPVPSSSSSTLSNICLTKGL PETRFCVEGRRMDPLSEEEFYSQFYNQRVKHLCYYHRMKPYLCYQLEQFN- GQAPLKGCLL-
SEKGKQHAEILFLDKIRSMELSQVTITCYLTWSPCPNCAWQLAAFKRDRPDL ILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVN- PKRPFWPWKGLEIISRRTQRRLRRIKESWGLQDLVNDFGNLQLGPPMS (itá- lico: domínio de edição de ácido nucleico) APOBEC-3 de Rato: MGPFCLGCSHRKCYSPIRNLISQETFKFHFKNRLRYAIDRKDT- FLCYEVTRKDCDSPVSLH-
HGVFKNKDNIHAEICFLYWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQV LRFLATHHNLSLDIFSSRLYNIRDPENQQNLCRLVQEGAQVAAMDLYEFKK- CWKKFV- DNGGRRFRPWKKLLTNFRYQDSKLQEILRPCYIPVPSSSSSTLSNICLTKGL PETRFCVERRRVHLLSEEEFYSQFYNQRVKHLCYYHGVKPYLCYQLEQFN- GQAPLKGCLL-
SEKGKQHAEILFLDKIRSMELSQVIITCYLTWSPCPNCAWQLAAFKRDRPDL ILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVN- PKRPFWPWKGLEIISRRTQRRLHRIKESWGLQDLVNDFGNLQLGPPMS (itá- lico: domínio de edição de ácido nucleico) APOBEC-3G de Macaco Rhesus: MVEPMDPRTFVSNFNNRPILSGLNTVWLCCEVKTKDPSGPPLDA- KIFQGKVYSKAKYHPEMR-
FLRWFHKWRQLHHDQEYKVTWYVSWSPCTRCANSVATFLAKDPKVTLTIFVA RLYYFWKPDYQQALRILCQKRGGPHATMKIMNYNEFQDCWNKFVDGRGKPF- KPRNNL- PKHYTLLQATLGELLRHLMDPGTFTSNFNNKPWVSGQHETYLCYKVERLHND TWVPLNQHRGFLRNQAPNIHGFPKGRHAELCFLDLIPFWKLD- GQQYRVTCFTSWSPCFS- CAQEMAKFISNNEHVSLCIFAARIYDDQGRYQEGLRALHRDGAKIAMMNYSE
FEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI (itálico: domínio de edição de ácido nucleico; sublinhado: sinal de localização citoplasmá- tica) APOBEC-3G de Chipanzé: MKPHFRNPVERMYQDTFSDNFYNRPILSHRNTVWLCYEVKTKGPSRPPLDA- KI-
FRGQVYSKLKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDVA TFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNYDE- FQHCWSK- FVYSQRELFEPWNNLPKYYILLHIMLGEILRHSMDPPTFTSNFNNELWVRGR HETYLCYEVERLHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHA- ELCFLDVIPFW- KLDLHQDYRVTCFTSWSPCFSCAQEMAKFISNNKHVSLCIFAARIYDDQGRC QEGLRTLAKAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLEEHSQALS-
GRLRAILQNQGN (itálico: domínio de edição de ácido nucleico; sublinhado: sinal de loca- lização citoplasmática) APOBEC-3G de Macaco Verde: MNPQIRNMVEQMEPDIFVYYFNNRPILSGRNTVWLCYEVKTKDPSGPPLDA- NI-
FQGKLYPEAKDHPEMKFLHWFRKWRQLHRDQEYEVTWYVSWSPCTRCANSVA TFLAEDPKVTLTIFVARLYYFWKPDYQQALRILCQERGGPHATMKIMNYNE- FQHCWNEFVD- GQGKPFKPRKNLPKHYTLLHATLGELLRHVMDPGTFTSNFNNKPWVSGQRET YLCYKVERSHNDTWVLLNQHRGFLRNQAPDRHGFPKGRHAELCFLDLIPFW- KLDD- QQYRVTCFTSWSPCFSCAQKMAKFISNNKHVSLCIFAARIYDDQGRCQEGLR
TLHRDGAKIAVMNYSEFEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI (itálico: domínio de edição de ácido nucleico; sublinhado: sinal de loca- lização citoplasmática) APOBEC-3G Humana:
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDA- KIFRGQVYSE- LKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPK VTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKIMNYDEFQHCWSK- FVYSQREL- FEPWNNLPKYYILLHIMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYE VERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLD- QDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLR TLAEAGAKISIMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRL-
RAILQNQEN (itálico: domínio de edição de ácido nucleico; sublinhado: sinal de loca- lização citoplasmática) APOBEC-3F Humana: MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPRLDA- KI-
FRGQVYSQPEHHAEMCFLSWFCGNQLPAYKCFQITWFVSWTPCPDCVAKLAE FLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEE- FAYCWENFVYSE- GQPFMPWYKFDDNYAFLHRTLKEILRNPMEAMYPHIFYFHFKNLRKAYGRNE SWLCFTMEVVKHHSPVSWKRGVFRNQVDPETHCHAERCFLSWFCD- DILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLYYFWDT DYQEGLRSLSQEGASVEIMGYKDFKYCWENFVYNDDEPFKPWKGLKYN-
FLFLDSKLQEILE (itálico: domínio de edição de ácido nucleico) APOBEC-3B Humana: MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSN- LLWDTGVFRGQVYFK-
PQYHAEMCFLSWFCGNQLPAYKCFQITWFVSWTPCPDCVAKLAEFLSEHPNV TLTISAARLYYYWERDYRRALCRLSQAGARVTIMDYEEFAYCWENFVYNE- GQQFMPWYK- FDENYAFLHRTLKEILRYLMDPDTFTFNFNNDPLVLRRRQTYLCYEVERLDN GTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLD- PAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIFAARIYDYDPLYK EALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALS-
GRLRAILQNQGN (itálico: domínio de edição de ácido nucleico) APOBEC-3B de Rato: MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKN- VRYAWGRKNN-
FLCYEVNGMDCALPVPLRQGVFRKQGHIHAELCFIYWFHDKVLRVLSPMEEF KVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRN- PNYQQKLCRLI- QEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSR MNLLREDVFYLQFNNSHRVKPVQNRYYRRKSYLCYQLERANGQE- PLKGYLLYK- KGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLAAFKKDHPDLIL RIYTSRLYFWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVN-
PQRPFRPWNELEKNSWRIQRRLRRIKESWGL APOBEC-3B Bovina: DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLL- REVLFKQQFGN-
QPRVPAPYYRRKTYLCYQLKQRNDLTLDRGCFRNKKQRHAERFIDKINSLDL NPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFASRLYFHWIKSF- KMGLQDLQNA-
GISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI APOBEC-3B de Chipanzé: MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSN-
LLWDTGVFRGQMYSQPEHHAEMCFLSWFCGNQLSAYKCFQITWFVSWTPCPD CVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGAR- VKIMDDEEFAYCWEN- FVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRR HQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLV- PSLQLD- PAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIFAARIYDYDPLYK EALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALS- GRLRAILQVRAS- SLCMVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFP PPASLPPLPSLSLSPGHLPVPSFHSLTSCSIQPPCSSRIRETEGWASVSKE-
GRDLG APOBEC-3C Humana: MNPQIRNPMKAMYPGTFYFQFKNLWEANDRNETWLCFTVEGIKRRSVVSW- KTGVFRNQV-
DSETHCHAERCFLSWFCDDILSPNTKYQVTWYTSWSPCPDCAGEVAEFLARH SNVNLTIFTARLYYFQYPCYQEGLRSLSQEGVAVEIMDYEDFKYCWEN-
FVYNDNEPFKPWKGLKTNFRLLKRRLRESLQ (itálico: domínio de edição de ácido nucleico) APOBEC-3C de Gorila MNPQIRNPMKAMYPGTFYFQFKNLWEANDRNETWLCFTVEGIKRRSVVSW- KTGVFRNQV-
DSETHCHAERCFLSWECDDILSPNTNYQVTWYTSWSPCPECAGEVAEFLARH SNVNLTIFTARLYYFQDTDYQEGLRSLSQEGVAVKIMDYKDFKYCWEN-
FVYNDDEPFKPWKGLKYNFRFLKRRLQEILE (itálico: domínio de edição de ácido nucleico) APOBEC-3A Humana: MEASPASGPRHLMDPHIFTSNFNNGIGRHKTYLCYEVERLDNGTSVKMD- QHRGFLHNQAKN-
LLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAF LQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFKHCWDT-
FVDHQGCPFQPWDGLDEHSQALSGRLRAILQNQGN (itálico: domínio de edição de ácido nucleico) APOBEC-3A de Macaco Rhesus:
MDGSPASRPRHLMDPNTFTFNFNNDLSVRGRHQTYLCYEVERLDNGTWV- PMDERRGFLCNKA- KNVPCGDYGCHVELRFLCEVPSWQLDPAQTYRVTWFISWSPCFRRGCAGQVR VFLQENKHVRLRIFAARIYDYDPLYQEALRTLRDAGAQVSIMTYEEF-
KHCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAILQNQGN (itálico: domínio de edição de ácido nucleico) APOBEC-3A Bovina: MDEYTFTENFNNQGWPSKTYLCYEMERLDGDATIPLDEYKGFVRNKGLD- QPEKPCHAELYFL-
GKIHSWNLDRNQHYRLTCFISWSPCYDCAQKLTTFLKENHHISLHILASRIY THNRFGCHQSGLCELQAAGARITIMTFEDFKHCWETFVDHKGK-
PFQPWEGLNVKSQALCTELQAILKTQQN (itálico: domínio de edição de ácido nucleico) APOBEC-3H Humana: MALLTAETFRLQFNNKRRLRRPYYPRKALLCYQLTPQNGSTPTRGYFENKK- KCHAEICFI-
NEIKSMGLDETQCYQVTCYLTWSPCSSCAWELVDFIKAHDHLNLGIFASRLY YHWCKPQQKGLRLLCGSQVPVEVMGFPKFADCWENFVDHEKPLSFNPYKM-
LEELDKNSRAIKRRLERIKIPGVRAQGRYMDILCDAEV (itálico: domínio de edição de ácido nucleico) APOBEC-3H de Macaco Rhesus: MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKK- KDHAEIRFIN-
KIKSMGLDETQCYQVTCYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYY HWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEPPSFN-
PSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR APOBEC-3D Humana: MNPQIRNPMERMYRDTFYDNFENEPILYGRSYTWLCYEVKIKRGRSN- LLWDTGVFRGPVL-
PKRQSNHRQEVYFRFENHAEMCFLSWFCGNRLPANRRFQITWFVSWNPCLPC VVKVTKFLAEHPNVTLTISAARLYYYRDRDWRWVLLRLHKAGAR- VKIMDYEDFAYCWENFVC- NEGQPFMPWYKFDDNYASLHRTLKEILRNPMEAMYPHIFYFHFKNLLKACGR NESWLCFTMEVTKHHSAVFRKRGVFRNQVDPETHCHAERCFLSWFCD- DILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLCYFWDT DYQEGLCSLSQEGASVKIMGYKDFVSCWKNFVYSDDEPFKPWKGLQTNFR-
LLKRRLREILQ (itálico: domínio de edição de ácido nucleico) APOBEC-1 Humana: MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKI-
WRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIRE FLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRA- SEYYHCWRN- FVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFR
LHLQNCHYQTIPPHILLATGLIHPSVAWR APOBEC-1 de Camundongo: MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKET-
CLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFRPNTRCSITWFL SWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLIS- SGVTIQIMTE- QEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRR
KQPQLTFFTITLQTCHYQRIPPHLLWATGLK APOBEC-1 de Rato: MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSI-
WRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITE FLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQES- GYCWRNFVNYSPS- NEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCH
YQRLPPHILWATGLK APOBEC-2 Humana:
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPAN- FFKFQFRN- VEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPA FDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGR- LFMWEEPEIQAALKKLKEA-
GCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK APOBEC-2 de Camundongo: MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVN- FFKFQFRN-
VEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPA FDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSR- LFMWEEPEVQAALKKLKEA-
GCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK APOBEC-2 de Rato: MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVN- FFKFQFRN-
VEYSSGRNKTFLCYVVEAQSKGGQVQATQGYLEDEHAGAHAEEAFFNTILPA FDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSR- LFMWEEPEVQAALKKLKEA-
GCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK APOBEC-2 Bovina: MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERL- PAHYFKFQFRN-
VEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPT FDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGR- LFMWEEPEIQAALRKLKEA-
GCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK CDA1 de Petromyzon marinus (pmCDAl): MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGER- RACFWGYAVNKPQSG-
TERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQEL RGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKI-
FIQSSHNQ LNENRWLEKTLKRAEKRRSELSFMIQVKILHTTKSPAV APOBEC3G D316R D317R Humana: MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDA- KIFRGQVYSE-
LKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPK VTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKFNYDEFQHCWSK- FVYSQREL- FEPWNNLPKYYILLHFMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYE VERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLD- QDYRVTCFTSWSPCFSCAQEMAKFISKKHVSLCIFTARIYRRQGRCQEGLRT LAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRL-
RAILQNQEN Cadeia A de APOBEC3G Humana: MDPPTFTFNFNNEPWWGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQA- PHKHGFLEGRHA-
ELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIF TARIYDDQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWD-
GLD EHSQDLSGRLRAILQ Cadeia A de APOBEC3G Humana D120R D121R: MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQA- PHKHGFLEGRHA-
ELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIF TARIYRRQGRCQEGLRTLAEAGAKISFMTYSEFKHCWDTFVDHQG- CPFQPWDGLDEHSQDLSGRLRAILQ
[0340] Alguns aspectos da presente divulgação são baseados no reconhecimento de que modular a atividade catalítica do domínio de de- saminase de qualquer uma das proteínas de fusão neste documento, por exemplo, fazendo mutações pontuais no domínio de desaminase, afeta a processabilidade das proteínas de fusão (por exemplo, editores de base). Por exemplo, mutações que reduzem, mas não eliminam, a atividade catalítica de um domínio de desaminase dentro de uma prote- ína de fusão de edição de base pode tornar menos provável que o do- mínio de desaminase catalise a desaminação de um resíduo adjacente a um resíduo alvo, desse modo estreitando a janela de desaminação. A capacidade de estreitar a janela de desaminação pode evitar a desami- nação indesejada de resíduos adjacentes a resíduos alvo específicos, o que pode diminuir ou prevenir efeitos de alvo não específico.
[0341] Por exemplo, em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma ou mais mutações selecionadas do grupo que consiste em H121X, H122X, R126X, R126X, R118X, W90X, W90X, e R132X de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC, em que X é qualquer aminoácido. Em algumas modalidades, uma desami- nase APOBEC incorporada em um editor de base pode compreender uma ou mais mutações selecionadas do grupo que consiste em H121R, H122R, R126A, R126E, R118A, W90A, W90Y, e R132E de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
[0342] Em algumas modalidades, uma desaminase APOBEC incor- porada em um editor de base pode compreender uma ou mais mutações selecionadas do grupo que consiste em D316X, D317X, R320X, R320X, R313X, W285X, W285X, R326X de hAPOBEC3G, ou uma ou mais mu- tações correspondentes em outra desaminase APOBEC, em que X é qualquer aminoácido. Em algumas modalidades, qualquer uma das pro- teínas de fusão providas neste documento compreende uma desami- nase APOBEC compreendendo uma ou mais mutações selecionadas do grupo que consiste em D316R, D317R, R320A, R320E, R313A, W285A, W285Y, R326E de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
[0343] Em algumas modalidades, uma desaminase APOBEC incor- porada em um editor de base pode compreender uma mutação H121R e H122R de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
Em algumas modalidades, uma desa- minase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em R126A de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em R126E de rA- POBEC1, ou uma ou mais mutações correspondentes em outra desa- minase APOBEC.
Em algumas modalidades, uma desaminase APO- BEC incorporada em um editor de base pode compreender uma desa- minase APOBEC compreendendo uma mutação em R118A de rAPO- BEC1, ou uma ou mais mutações correspondentes em outra desami- nase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W90A de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em W90Y de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC com- preendendo uma mutação em R132E de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
Em algu- mas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W90Y e R126E de rAPOBEC1, ou uma ou mais mu- tações correspondentes em outra desaminase APOBEC. Em algumas formas, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação R126E e uma R132E de rAPOBEC1, ou uma ou mais muta- ções correspondentes em outra desaminase APOBEC. Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W90Y e R132E de rAPOBEC1, ou uma ou mais mu- tações correspondentes em outra desaminase APOBEC. Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W90Y, R126E e R132E de rAPOBEC1, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
[0344] Em algumas modalidades, uma desaminase APOBEC in- corporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em D316R e a D317R de hA- POBEC3G, ou uma ou mais mutações correspondentes em outra desa- minase APOBEC. Em algumas modalidades, qualquer uma das proteí- nas de fusão providas neste documento compreendem uma desami- nase APOBEC compreendendo uma mutação em R320A de hAPO- BEC3G, ou uma ou mais mutações correspondentes em outra desami- nase APOBEC. Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em R320E de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC. Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em R313A de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em W285A de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em W285Y de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em R326E de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APO- BEC.
Em algumas modalidades, uma desaminase APOBEC incorpo- rada em um editor de base pode compreender uma desaminase APO- BEC compreendendo uma mutação em W285Y e R320E de hAPO- BEC3G, ou uma ou mais mutações correspondentes em outra desami- nase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em R320E e R326E de hAPO- BEC3G, ou uma ou mais mutações correspondentes em outra desami- nase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W285Y e R326E de hAPO- BEC3G, ou uma ou mais mutações correspondentes em outra desami- nase APOBEC.
Em algumas modalidades, uma desaminase APOBEC incorporada em um editor de base pode compreender uma desaminase APOBEC compreendendo uma mutação em W285Y, R320E e R326E de hAPOBEC3G, ou uma ou mais mutações correspondentes em outra desaminase APOBEC.
[0345] Um número de citidina desaminases modificadas é comer- cialmente disponível, incluindo, mas sem limitação, SaBE3, SaKKH- BE3, VQR-BE3, EQR-BE3, VRER-BE3, YE1-BE3, EE-BE3, YE2-BE3, e YEE-BE3, que são disponíveis de Addgene (plasmídeos 85169, 85170, 85171, 85172, 85173, 85174, 85175, 85176, 85177). Em algumas mo- dalidades, a desaminase incorporada em um editor de base compre- ende toda ou uma porção de uma desaminase APOBEC1.
[0346] Detalhes de proteínas de edição de nucleonase C em T são descritos no Pedido PCT Internacional Nº. PCT/US2016/058344 (WO2017/070632) e Komor, A.C., et al., “Programmable editing of a tar- get base in genomic DNA without double-stranded DNA cleavage” Na- ture 533, 420-424 (2016), todo o conteúdo do qual é aqui incorporado por referência. Citidina Desaminases
[0347] As proteínas de fusão providas neste documento compreen- dem uma ou mais citidina desaminases. Em algumas modalidades, as citidina desaminases providas neste documento são capazes de desa- minar citosina ou 5-metilcitosina em uracil ou timina. Em algumas mo- dalidades, as citidina desaminases providas neste documento são ca- pazes de desaminar citosina em DNA. A citidina desaminase pode ser derivada de qualquer organismo adequado. Em algumas modalidades, a citidina desaminase é uma citidina desaminase de ocorrência natural que inclui uma ou mais mutações correspondentes a qualquer uma das mutações providas neste documento. Um versado na técnica será ca- paz de identificar o resíduo correspondente em qualquer proteína ho- móloga, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos. Por conseguinte, um versado na técnica seria ca- paz de gerar mutações em qualquer citidina desaminase de ocorrência natural que corresponde a qualquer uma das mutações descritas neste documento. Em algumas modalidades, a citidina desaminase é de um procarioto. Em algumas modalidades, a citidina desaminase é de uma bactéria. Em algumas modalidades, a citidina desaminase é de um ma- mífero (por exemplo, ser humano).
[0348] Em algumas modalidades, a citidina desaminase compre- ende uma sequência de aminoácido que é pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, ou pelo menos 99,5% idêntica a qualquer uma das sequências de aminoácido de citidina desaminase apresentadas neste documento. Deve ser apreciado que citidina desa- minases providas neste documento podem incluir uma ou mais muta- ções (por exemplo, qualquer uma das mutações providas neste docu- mento). A divulgação provê quaisquer domínios de desaminase com um determinado percentual de identidade mais qualquer uma das mutações ou combinações das mesmas descritas neste documento. Em algumas modalidades, a citidina desaminase compreende uma sequência de aminoácido que tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 21, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50 ou mais muta- ções em comparação com uma sequência de referência, ou qualquer uma das citidina desaminases providas neste documento. Em algumas modalidades, a citidina desaminase compreende uma sequência de aminoácido que tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 20, pelo menos 25, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 110, pelo me- nos 120, pelo menos 130, pelo menos 140, pelo menos 150, pelo menos 160, ou pelo menos 170 resíduos de aminoácido contíguos idênticos em comparação com qualquer uma das sequências de aminoácido conhe- cidas na técnica ou descritas neste documento.
[0349] Uma proteína de fusão da invenção compreende dois ou mais domínios de edição de ácido nucleico.
Em algumas modalidades, o domínio de edição de ácido nucleico pode catalisar uma alteração de base de C em U.
Em algumas modalidades, o domínio de edição de ácido nucleico é um domínio de desaminase, em particular, dois domí- nios de desaminase.
Em algumas modalidades, a desaminase é uma citidina desaminase e uma adenosina desaminase.
Em algumas moda- lidades, a desaminase é uma citidina desaminase ou uma adenosina desaminase.
Em algumas modalidades, a desaminase é uma desami- nase da família do complexo de edição de mRNA de apoliproteína B (APOBEC). Em algumas modalidades, a desaminase é uma desami- nase APOBEC1. Em algumas modalidades, a desaminase é uma desa- minase APOBEC2. Em algumas modalidades, a desaminase é uma de- saminase APOBEC3. Em algumas modalidades, a desaminase é uma desaminase APOBEC3A.
Em algumas modalidades, a desaminase é uma desaminase APOBEC3B.
Em algumas modalidades, a desami- nase é uma desaminase APOBEC3C.
Em algumas modalidades, a de- saminase é uma desaminase APOBEC3D.
Em algumas modalidades, a desaminase é uma desaminase APOBEC3E.
Em algumas modalida- des, a desaminase é uma desaminase APOBEC3F.
Em algumas moda- lidades, a desaminase é uma desaminase APOBEC3G.
Em algumas modalidades, a desaminase é uma desaminase APOBEC3H.
Em algu- mas modalidades, a desaminase é uma desaminase APOBEC4. Em al- gumas modalidades, a desaminase é uma desaminase induzida por ati- vação (AID). Em algumas modalidades, a desaminase é uma desami- nase de vertebrado.
Em algumas modalidades, a desaminase é uma desaminase de invertebrado.
Em algumas modalidades, a desaminase é uma desaminase humana, de chipanzé, gorila, macaco, vaca, ca- chorro, rato ou camundongo.
Em algumas modalidades, a desaminase é uma desaminase humana.
Em algumas modalidades, a desaminase é uma desaminase de rato, por exemplo, rAPOBECl. Em algumas mo- dalidades, a desaminase é uma citidina desaminase 1 de Petromyzon marinus (pmCDAl). Em algumas modalidades, a desaminase é uma APOBEC3G humana. Em algumas modalidades, a desaminase é um fragmento da APOBEC3G humana. Em algumas modalidades, a desa- minase é uma variante de APOBEC3G humana compreendendo uma mutação em D316R D317R. Em algumas modalidades, a desaminase é um fragmento da APOBEC3G humana e compreende mutações cor- respondentes às mutações em D316R D317R. Em algumas modalida- des, o domínio de edição de ácido nucleico é pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 92%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%), ou pelo menos 99,5% idêntico ao domínio de desaminase de qualquer de- saminase descrita neste documento.
[0350] Em certas modalidades, as proteínas de fusão providas neste documento compreendem uma ou mais características que me- lhoram a atividade de edição de base das proteínas de fusão. Por exem- plo, qualquer uma das proteínas de fusão providas neste documento pode compreender um domínio de Cas9 que tem atividade de nuclease reduzida. Em algumas modalidades, qualquer uma das proteínas de fu- são providas neste documento pode ter um domínio de Cas9 que não tem atividade de nuclease (dCas9), ou um domínio de Cas9 que corta uma cadeia de uma molécula de DNA duplexada, referida como uma Cas9 nickase (nCas9). Complexos de Cas9 com RNAs Guia
[0351] Alguns aspectos desta divulgação proveem complexos com- preendendo qualquer uma das proteínas de fusão providas neste docu- mento, e um RNA guia ligado a um domínio de Cas9 (por exemplo, uma dCas9, uma Cas9 ativa de nuclease, ou uma Cas9 nickase) da proteína de fusão. Em algumas modalidades, o ácido nucleico guia (por exemplo,
RNA guia) tem de 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é com- plementar a uma sequência alvo. Em algumas modalidades, o RNA guia tem 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, ou 50 nucleotídeos de comprimento. Em algumas modalidades, o RNA guia compreende uma sequência de 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, ou 40 nucleotí- deos contíguos que é complementar a uma sequência alvo. Em algumas modalidades, a sequência alvo é uma sequência de DNA. Em algumas modalidades, a sequência alvo é uma sequência no genoma de uma bactéria, levedura, fungo, inseto, planta ou animal. Em algumas moda- lidades, a sequência alvo é uma sequência no genoma de um ser hu- mano. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM canônica (NGG). Em algumas modalidades, a extremidade 3’ da sequência alvo é imediata- mente adjacente a uma sequência PAM não canônica (por exemplo, uma sequência listada na Tabela 1 ou 5’-NAA-3’). Em algumas modali- dades, o ácido nucleico guia (por exemplo, RNA guia) é complementar a uma sequência em um gene de interesse (por exemplo, um gene as- sociado com uma doença ou distúrbio).
[0352] Alguns aspectos desta divulgação proveem métodos de usar as proteínas de fusão, ou complexos providos neste documento. Por exemplo, alguns aspectos desta divulgação proveem métodos compre- endendo contactar uma molécula de DNA com qualquer uma das pro- teínas de fusão providas neste documento, e com pelo menos um RNA guia, em que o RNA guia tem cerca de 15-100 nucleotídeos de compri- mento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é complementar a uma sequência alvo. Em algumas mo-
dalidades, a extremidade 3’ da sequência alvo é imediatamente adja- cente a uma sequência de AGC, GAG, TTT, GTG ou CAA. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente ad- jacente a uma sequência de NGA, NGCG, NGN, NNGRRT, NNNRRT, NGCG, NGCN, NGTN, NGTN, NGTN, ou 5’ (TTTV).
[0353] Será entendido que a numeração das posições ou resíduos específicos nas respectivas sequências depende da proteína em parti- cular e do esquema de numeração utilizado. A numeração pode ser di- ferente, por exemplo, em precursores de uma proteína madura e da pró- pria proteína madura, e diferenças nas sequências de espécie para es- pécie podem afetar a numeração. Um versado na técnica será capaz de identificar o respectivo resíduo em qualquer proteína homóloga e no res- pectivo ácido nucleico de codificação por métodos bem conhecidos na técnica, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos.
[0354] Será evidente para os versados na técnica que no sentido de direcionar qualquer uma das proteínas de fusão divulgadas neste docu- mento, a um sítio alvo, por exemplo, um sítio compreendendo uma mu- tação a ser editada, é tipicamente necessário coexpressar a proteína de fusão juntamente com um RNA guia. Como explicado em mais detalhes em outra parte deste documento, um RNA guia tipicamente compreende uma estrutura de quadro de tracrRNA que permite a ligação de Cas9, e uma sequência guia, que confere especificidade de sequência à prote- ína de fusão de domínio/enzima de edição de ácido nucleico/Cas9. Al- ternativamente, o RNA guia e tracrRNA podem ser fornecidos separa- damente, como duas moléculas de ácido nucleico. Em algumas moda- lidades, o RNA guia compreende uma estrutura, em que a sequência guia compreende uma sequência que é complementar à sequência alvo. A sequência guia tem tipicamente 20 nucleotídeos de comprimento. As sequências de RNAs guia adequados para direcionar proteínas de fu- são de domínio/enzima de edição de ácido nucleico:Cas9 para sítios alvo genômicos específicos serão evidentes para aqueles versados na técnica com base na presente divulgação. Essas sequências de RNA guia adequadas tipicamente compreendem as sequências guia que são complementares a uma sequência nucleica dentro de 50 nucleotídeos a montante ou a jusante do nucleotídeo alvo a ser editado. Algumas se- quências de RNA guia exemplificativas adequadas para direcionar qual- quer uma das proteínas de fusão fornecidas para sequências alvo es- pecíficas são providas neste documento. Domínios Adicionais
[0355] Um editor de base descrito neste documento pode incluir qualquer domínio que ajude a facilitar a edição, modificação ou altera- ção de nucleobase de uma nucleobase de um polinucleotídeo. Em al- gumas modalidades, um editor de base compreende um domínio de li- gação de nucleotídeo programável de polinucleotídeo (por exemplo, Cas9), um domínio de edição de nucleobase (por exemplo, domínio de desaminase), e um ou mais domínios adicionais. Em alguns casos, o domínio adicional pode facilitar funções enzimáticas ou catalíticas do editor de base, funções de ligação do editor de base, ou ser inibidores do mecanismo celular (por exemplo, enzimas) que podem interferir no resultado da edição de base desejada. Em algumas modalidades, um editor de base pode compreender uma nuclease, uma nickase, uma re- combinase, uma desaminase, uma metiltransferase, uma metilase, uma acetilase, uma acetiltransferase, um ativador transcricional ou um domí- nio repressor transcricional.
[0356] Em algumas modalidades, um editor de base pode compre- ender um domínio de inibidor de uracil glicosilase (UGI). Um domínio de UGI pode, por exemplo, melhorar a eficiência de editores de base com- preendendo um domínio de citidina desaminase ao inibir a conversão de um U formado pela desaminação de um C de volta para a nucleobase C. Em alguns casos, a resposta de reparo de DNA celular à presença de DNA heteroduplex U:G pode ser responsável por uma diminuição na eficiência de edição de nucleobase nas células. Nesses casos, a uracil DNA glicosilase (UDG) pode catalisar a remoção de U do DNA nas cé- lulas, o que pode iniciar o reparo de excisão de base (BER), resultando principalmente na reversão do par U:G para um par C: G. Nesses casos, o BER pode ser inibido em editores de base compreendendo um ou mais domínios que ligam a cadeia simples, bloqueiam a base editada, inibem UGI, inibem BER, protegem a base editada e/ou promovem o reparo da cadeia não editada. Assim, esta divulgação contempla uma proteína de fusão de editor de base compreendendo um domínio de UGI.
[0357] Em algumas modalidades, um editor de base compreende como um domínio toda ou uma porção de uma proteína de ligação de quebra de cadeia dupla (DSB). Por exemplo, uma proteína de ligação DSB pode incluir uma proteína Gam de bacteriófago Mu que pode ser ligada às extremidades de DSBs e pode protegê-lo da degradação. Vide Komor, A.C., et al., “Improved base excision repair inhibition and bacte- riophage Mu Gam protein yields C: G-to-T:A base editors with higher efficiency and product purity” Science Advances 3:eaao4774 (2017), todo o conteúdo do qual é aqui incorporado por referência.
[0358] Em algumas modalidades, um editor de base pode compre- ender como um domínio toda ou uma porção de uma polimerase de ácido nucleico (NAP). Por exemplo, um editor de base pode compreen- der toda ou uma porção de uma NAP eucariótica. Em algumas modali- dades, uma NAP ou porção da mesma incorporada em um editor de base é uma DNA polimerase. Em algumas modalidades, uma NAP ou uma porção da mesma incorporada em um editor de base tem atividade de polimerase de translesão. Em alguns casos, uma NAP ou porção da mesma incorporada em um editor de base é uma DNA polimerase de translesão. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base é Rev7, complexo de Rev1, polime- rase iota, polimerase kapa ou polimerase eta. Em algumas modalida- des, uma NAP ou uma porção da mesma incorporada em um editor de base é um componente de polimerase eucariótica alfa, beta, gama, delta, épsilon, gama, eta, iota, kapa, lambda, mu ou nu. Em algumas modalidades, uma NAP ou porção da mesma incorporada em um editor de base compreende uma sequência de aminoácido que é pelo menos 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99% ou 99,5% idêntica a uma polimerase de ácido nucleico (por exemplo, uma DNA polimerase de translesão). Sistema de Editor de Base
[0359] O sistema de editor de base provido neste documento com- preende as etapas de: (a) contactar uma sequência de nucleotídeo alvo de um polinucleotídeo (por exemplo, um DNA ou RNA de cadeia dupla, um DNA ou RNA de cadeia simples) de um indivíduo com um sistema de editor de base compreendendo um editor de nucleobase multiefetor compreendendo dois ou mais de um domínio de adenosina desaminase, um domínio de citidina desaminase, e um domínio de DNA glicosilase, em que os domínios mencionados acima são fundidos a um domínio de ligação a polinucleotídeo, formando assim um editor de nucleobase ca- paz de induzir alterações em múltiplas diferentes bases dentro de uma molécula de ácido nucleico, como descrito neste documento, e pelo me- nos um ácido polinucleico guia (por exemplo, gRNA), em que a sequên- cia de nucleotídeo alvo compreende um par de nucleobase direcionado; (b) induzir separação de cadeia da região alvo; (c) converter uma pri- meira nucleobase do par de nucleobase alvo em uma cadeia simples da região alvo em uma segunda nucleobase; e (d) cortar não mais do que uma cadeia da região alvo, em que uma terceira nucleobase comple- mentar à primeira nucleobase base é substituída por uma quarta nu- cleobase complementar à segunda nucleobase. Deve ser apreciado que, em algumas modalidades, a etapa (b) é omitida. Em algumas mo- dalidades, o par de nucleobases direcionado é uma pluralidade de pares de nucleobase em um ou mais genes. Em algumas modalidades, o sis- tema de editor de base provido neste documento é capaz de editar por multiplex uma pluralidade de pares de nucleobase em um ou mais ge- nes. Em algumas modalidades, a pluralidade de pares de nucleobase está localizada no mesmo gene. Em algumas modalidades, a plurali- dade de pares de nucleobase está localizada em um ou mais genes, em que pelo menos um gene está localizado em um locus diferente.
[0360] Em algumas modalidades, a cadeia simples cortada (cadeia cortada) é hibridizada com o ácido nucleico guia. Em algumas modali- dades, a cadeia simples cortada é oposta à cadeia compreendendo a primeira nucleobase. Em algumas modalidades, o editor de base com- preende um domínio de Cas9. Em algumas modalidades, a primeira base é adenina, e a segunda base não é G, C, A ou T. Em algumas modalidades, a segunda base é inosina.
[0361] O sistema de edição de base provido neste documento for- nece uma nova abordagem para edição de genoma que usa uma pro- teína de fusão contendo uma Cas9 de Streptococcus pyogenes cataliti- camente defeituoso, uma citidina desaminase e um inibidor de reparo de excisão de base para induzir alterações de nucleotídeo único progra- mável (C → T ou A → G) no DNA sem gerar quebras de DNA de cadeia dupla, sem exigir um modelo de DNA doador, e sem induzir um excesso de inserções e exclusões estocásticas.
[0362] São providos neste documento sistemas, composições e métodos para editar uma nucleobase usando um sistema de editor de base.
Em algumas modalidades, o sistema de editor de base compre- ende um editor de base (BE) compreendendo um domínio de ligação de nucleotídeo programável de polinucleotídeo e um ou mais, por exemplo, dois, domínios de edição de nucleobase (por exemplo, dois domínios de desaminase) para editar a nucleobase; e um polinucleotídeo guia (por exemplo, RNA guia) em conjunto com o domínio de ligação de nucleo- tídeo programável de polinucleotídeo.
Em algumas modalidades, o sis- tema de editor de base compreende um editor de base (BE) compreen- dendo um domínio de ligação de nucleotídeo programável de polinucle- otídeo e um ou mais, por exemplo, dois, domínios de edição de nucleo- base (por exemplo, dois domínios de desaminase, iguais ou diferentes) para editar a nucleobase; e um polinucleotídeo guia (por exemplo, RNA guia) em conjunto com o domínio de ligação de nucleotídeo programável de polinucleotídeo.
Em algumas modalidades, o sistema de editor de base compreende um editor de base de citosina (CBE) e um editor de base de adenosina (ABE). Em algumas modalidades, o domínio de liga- ção de nucleotídeo programável de polinucleotídeo é um domínio de ligação de DNA programável de polinucleotídeo.
Em algumas modalida- des, o domínio de ligação de nucleotídeo programável de polinucleotí- deo é um domínio de ligação de RNA programável de polinucleotídeo.
Em algumas modalidades, o domínio de edição de nucleobase inclui um ou mais, por exemplo, dois, domínios de desaminase.
Em alguns casos, um domínio de desaminase pode ser uma citosina desaminase ou uma citidina desaminase e uma adenina desaminase ou uma adenosina de- saminase.
Em algumas modalidades, os termos “citosina desaminase” e “citidina desaminase” podem ser usados alternadamente.
Em algumas modalidades, os termos “adenina desaminase” e “adenosina desami- nase” podem ser usados alternadamente.
Em alguns casos, um domínio de desaminase pode ser uma citosina desaminase ou uma citidina de- saminase.
Em alguns casos, um domínio de desaminase pode ser uma adenina desaminase ou uma adenosina desaminase. Os detalhes das proteínas de edição de nucleobase são descritos nos Pedidos Interna- cionais PCT Nºs. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632), cada um dos quais é aqui in- corporado por referência em sua totalidade. Vide também Komor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programmable base editing A•T to G•C in genomic DNA without DNA cleavage” Nature 551, 464-471 (2017); e Komor, A.C., et al., “Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity” Science Advances 3:eaao4774 (2017), todo o conteúdo dos quais é aqui incorporado por referência.
[0363] Em algumas modalidades, um sistema de editor de nucleo- base pode compreender mais de um componente de edição de base. Por exemplo, conforme descrito neste documento, um sistema de editor de nucleobase pode incluir mais de uma desaminase. Em algumas mo- dalidades, um sistema de editor de base de nuclease pode incluir uma ou mais citidina desaminases e/ou um ou mais adenosina desaminases. Em algumas modalidades, um polinucleotídeo guia único pode ser utili- zado para direcionar diferentes desaminases para uma sequência de ácido nucleico alvo. Em algumas modalidades, um único par de polinu- cleotídeos guia pode ser utilizado para direcionar diferentes desamina- ses para uma sequência de ácido nucleico alvo.
[0364] Os componentes de nucleobase e o componente de ligação de nucleotídeo programável de um sistema de editor de base podem estar associados entre si de forma covalente ou não covalente. Por exemplo, em algumas modalidades, os domínios de desaminase podem ser direcionados a uma sequência de nucleotídeo alvo por um domínio de ligação de nucleotídeo programável de polinucleotídeo. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de po- linucleotídeo pode ser fundido ou ligado a um domínio de desaminase. Em algumas modalidades, um domínio de ligação de nucleotídeo pro- gramável de polinucleotídeo pode direcionar um domínio de desami- nase para uma sequência de nucleotídeo alvo por interação não cova- lente ou associação com o domínio de desaminase. Por exemplo, em algumas modalidades, o componente de edição de nucleobase, por exemplo, o componente de desaminase pode compreender um domínio ou porção heteróloga adicional que é capaz de interagir com, se asso- ciar com, ou capaz de formar um complexo com um domínio ou porção heteróloga adicional que é parte de um domínio de ligação de nucleotí- deo programável de polinucleotídeo. Em algumas modalidades, a por- ção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com, ou formar um complexo com um polipeptídeo. Em algu- mas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adicio- nal pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polipeptídeo. Em algumas modalidades, a porção hete- róloga adicional pode ser capaz de se ligar a um ligante de polinucleotí- deo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de pro- teína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku , um motivo de ligação de telo- merase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0365] Um sistema de editor de base pode ainda compreender um componente de polinucleotídeo guia.
Deve ser apreciado que os com- ponentes do sistema de editor de base podem ser associados entre si por meio de ligações covalentes, interações não covalentes ou qualquer combinação de associações e interações dos mesmos.
Em algumas modalidades, um domínio de desaminase pode ser direcionado a uma sequência de nucleotídeo alvo por um polinucleotídeo guia.
Por exem- plo, em algumas modalidades, o componente de edição de nucleobase do sistema de editor de base, por exemplo, o componente de desami- nase, pode compreender um domínio ou porção heteróloga adicional (por exemplo, domínio de ligação de polinucleotídeo, tal como uma pro- teína de ligação de RNA ou DNA) que é capaz de interagir com, se as- sociar com, ou capaz de formar um complexo com uma porção ou seg- mento (por exemplo, um motivo de polinucleotídeo) de um polinucleotí- deo guia.
Em algumas modalidades, o domínio ou porção heteróloga adicional (por exemplo, domínio de ligação de polinucleotídeo, tal como uma proteína de ligação de RNA ou DNA) pode ser fundido ou ligado ao domínio de desaminase.
Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com, ou formar um complexo com um polipeptídeo.
Em algumas modalida- des, a porção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com ou formar um complexo com um polinucleotídeo.
Em algumas modalidades, a porção heteróloga adicional pode ser ca- paz de se ligar a um polinucleotídeo guia.
Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polipeptídeo.
Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polinucleotídeo.
A porção heteróloga adicional pode ser um domínio de proteína.
Em algumas mo- dalidades, a porção heteróloga adicional pode ser um domínio de Ho- mologia K (KH), um domínio de proteína de revestimento MS2, um do-
mínio de proteína de revestimento PP7, um domínio de proteína de re- vestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku , um motivo de ligação de telomerase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0366] Em algumas modalidades, um sistema de editor de base pode compreender ainda um componente inibidor de reparo de excisão de base (BER). Deve ser apreciado que os componentes do sistema de editor de base podem ser associados entre si por meio de ligações co- valentes, interações não covalentes ou qualquer combinação de asso- ciações e interações dos mesmos. O componente inibidor de BER pode compreender um inibidor de reparo de excisão de base. Em algumas modalidades, o inibidor de reparo de excisão de base pode ser um ini- bidor de uracil DNA glicosilase (UGI). Em algumas modalidades, o inibi- dor de reparo de excisão de base pode ser um inibidor de reparo de excisão de base de inosina. Em algumas modalidades, o inibidor de re- paro de excisão de base pode ser direcionado à sequência de nucleotí- deo alvo pelo domínio de ligação de nucleotídeo programável de polinu- cleotídeo. Em algumas modalidades, o domínio de ligação de nucleotí- deo programável de polinucleotídeo pode ser fundido ou ligado a um inibidor de reparo de excisão de base. Em algumas modalidades, um domínio de ligação de nucleotídeo programável de polinucleotídeo pode ser fundido ou ligado a um domínio de desaminase e um inibidor de reparo de excisão de base. Em algumas modalidades, um domínio de ligação do nucleotídeo programável de polinucleotídeo pode ter como alvo um inibidor de reparo de excisão de base para uma sequência de nucleotídeo alvo por interação não covalente com ou associação com o inibidor de reparo de excisão de base. Por exemplo, em algumas moda- lidades, o componente inibidor de reparo de excisão de base pode com- preender um domínio ou porção heteróloga adicional que é capaz de interagir com, se associar com, ou capaz de formar um complexo com um domínio ou porção heteróloga adicional que é parte de um domínio de ligação de nucleotídeo programável de polinucleotídeo. Em algumas modalidades, o inibidor de reparo de excisão de base pode ser direcio- nado para a sequência de nucleotídeo alvo pelo polinucleotídeo guia. Por exemplo, em algumas modalidades, o inibidor de reparo de excisão de base pode compreender um domínio ou porção heteróloga adicional (por exemplo, domínio de ligação de polinucleotídeo, como uma prote- ína de ligação de RNA ou DNA) que é capaz de interagir com, se asso- ciar-se com, ou capaz de formar um complexo com uma porção ou seg- mento (por exemplo, um motivo de polinucleotídeo) de um polinucleotí- deo guia. Em algumas modalidades, o domínio ou porção heteróloga adicional do polinucleotídeo guia (por exemplo, domínio de ligação de polinucleotídeo, tal como uma proteína de ligação de RNA ou DNA) pode ser fundido ou ligado ao inibidor de reparo de excisão de base. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a, interagir com, se associar com, ou formar um complexo com um polinucleotídeo. Em algumas modalidades, a porção heteróloga adi- cional pode ser capaz de se ligar a um polinucleotídeo guia. Em algumas modalidades, a porção heteróloga adicional pode ser capaz de se ligar a um ligante de polipeptídeo. Em algumas modalidades, a porção hete- róloga adicional pode ser capaz de se ligar a um ligante de polinucleotí- deo. A porção heteróloga adicional pode ser um domínio de proteína. Em algumas modalidades, a porção heteróloga adicional pode ser um domínio de Homologia K (KH), um domínio de proteína de revestimento MS2, um domínio de proteína de revestimento PP7, um domínio de pro- teína de revestimento SfMu Com, um motivo alfa estéril, um motivo de ligação de telomerase Ku e proteína Ku, um motivo de ligação de telo- merase Sm7 e proteína Sm7, ou um motivo de reconhecimento de RNA.
[0367] Em algumas modalidades, o editor de base inibe o reparo de excisão de base da cadeia editada. Em algumas modalidades, o editor de base protege ou se liga à cadeia não editada. Em algumas modali- dades, o editor de base compreende a atividade de UGI. Em algumas modalidades, o editor de base compreende uma nuclease específica de inosina cataliticamente inativa. Em algumas modalidades, o editor de base compreende atividade de nickase. Em algumas modalidades, a edição pretendida do par de bases é a montante de um sítio PAM. Em algumas modalidades, a edição pretendida do par de base tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotí- deos a montante do sítio PAM. Em algumas modalidades, a edição pre- tendida do par de base é a jusante de um sítio PAM. Em algumas mo- dalidades, o par de base editado pretendido tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, ou 20 nucleotídeos a jusante do sítio PAM.
[0368] Em algumas modalidades, o método não requer um sítio PAM canônico (por exemplo, NGG). Em algumas modalidades, o editor de nucleobase compreende um ligante ou um espaçador. Em algumas modalidades, o ligante ou espaçador tem 1-25 aminoácidos de compri- mento. Em algumas modalidades, o ligante ou espaçador tem 5-20 ami- noácidos de comprimento. Em algumas modalidades, o ligante ou es- paçador tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, ou 20 aminoácidos de comprimento.
[0369] Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobase alvo. Em algumas modalidades, a janela alvo compreende 1 a 10 nucleotí- deos. Em algumas modalidades, a janela alvo tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, ou 20 nucleotídeos de compri- mento. Em algumas modalidades, a edição pretendida do par de bases está dentro da janela alvo. Em algumas modalidades, a janela alvo com- preende a edição pretendida do par de bases. Em algumas formas, o método é executado usando qualquer um dos editores de base providos neste documento. Em algumas modalidades, uma janela alvo é uma ja- nela de desaminação.
[0370] Em algumas modalidades, editores de base de citidina (CBE) exemplificativos não limitantes incluem BE1 (APOBEC1-XTEN-dCas9), BE2 (APOBEC1-XTEN-dCas9-UGI), BE3 (APOBEC1-XTEN- dCas9(A840H)-UGI), BE3-Gam, saBE3, saBE4-Gam, BE4, BE4-Gam, saBE4, ou saB4E-Gam. BE4 estende o ligante APOBEC1-Cas9n(D10A) para 32 aminoácidos e o ligante Cas9n-UGI para 9 aminoácidos, e anexa uma segunda cópia de UGI ao terminal C do constructo com outro ligante de 9 aminoácidos em um constructo de editor de base único. Os editores de base saBE3 e saBE4 têm Cas9n de S. pyogenes (D10A) substituído por Cas9n de S. aureus (D10A) menor. BE3-Gam, saBE3- Gam, BE4-Gam, e saBE4-Gam possuem 174 resíduos de proteína Gam fundidos no N-terminal de BE3, saBE3, BE4 e saBE4 através do ligante XTEN de 16 aminoácidos.
[0371] Em algumas modalidades, o editor de base de adenosina (ABE) pode desaminar adenina no DNA. Em algumas modalidades, o ABE é gerado pela substituição do componente APOBEC1 de BE3 por TadA de E. coli natural ou modificada, ADAR2 humano, ADA de camun- dongo ou ADAT2 humano. Em algumas modalidades, ABE compreende variante de TadA evoluída. Em algumas modalidades, o ABE é ABE 1.2 (TadA * -XTEN-nCas9-NLS). Em algumas modalidades, TadA* compre- ende as mutações em A106V e D108N.
[0372] Em algumas modalidades, o ABE é um ABE de segunda ge- ração. Em algumas modalidades, o ABE é ABE2.1, que compreende as mutações adicionais D147Y e E155V em TadA* (TadA*2.1). Em algu- mas modalidades, o ABE é ABE2.2, ABE2.1 fundido uma versão catali- ticamente inativada de alquil adenina DNA glicosilase humana (AAG com mutação em E125Q). Em algumas modalidades, o ABE é ABE2.3, ABE2.1 fundido a uma versão cataliticamente inativada de Endo V de
E. coli (inativado com mutação em D35A). Em algumas modalidades, o ABE é ABE2.6 que tem um ligante duas vezes mais longo (32 aminoá- cidos, (SGGS)2-XTEN-(SGGS)2) do que o ligante em ABE2.1. Em algu- mas modalidades, o ABE é ABE2.7, que é ABE2.1 amarrado com um monômero de TadA de tipo selvagem adicional. Em algumas modalida- des, o ABE é ABE2.8, que é ABE2.1 amarrado com um monômero de TadA*2.1 adicional. Em algumas modalidades, o ABE é ABE2.9, que é uma fusão direta de TadA evoluídoa (TadA*2.1) ao terminal N de ABE2.1. Em algumas modalidades, o ABE é ABE2.10, que é uma fusão direta de TadA de tipo selvagem ao terminal N de ABE2.1. Em algumas modalidades, o ABE é ABE2.11, que é ABE2.9 com uma mutação em E59A inativadora no terminal N de monômero de TadA*. Em algumas modalidades, o ABE é ABE2.12, que é ABE2.9 com uma mutação em E59A inativadora no monômero de TadA* interno.
[0373] Em algumas modalidades, o ABE é um ABE de terceira ge- ração. Em algumas modalidades, o ABE é ABE3.1, que é ABE2.3 com três mutações de TadA adicionais (L84F, H123Y e I157F).
[0374] Em algumas modalidades, o ABE é um ABE de quarta gera- ção. Em algumas modalidades, o ABE é ABE4.3, que é ABE3.1 com uma mutação de TadA adicional A142N (TadA*4.3).
[0375] Em algumas modalidades, o ABE é um ABE de quinta gera- ção. Em algumas modalidades, o ABE é ABE5.1, que é gerado pela importação de um conjunto consenso de mutações de clones sobrevi- ventes (H36L, R51L, S146C, e K157N) em ABE3.1. Em algumas moda- lidades, o ABE é ABE5.3, que tem uma construção heterodimérica con- tendo TadA de E.Coli de tipo selvagem fundida a uma TadA interna evo- luída*. Em algumas modalidades, o ABE é ABE5.2, ABE5.4, ABE5.5, ABE5.6, ABE5.7, ABE5.8, ABE5.9, ABE5.10, ABE5.11, ABE5.12, ABE5.13 ou ABE5.14, como mostrado na Tabela 6 abaixo. Em algumas modalidades, o ABE é um ABE de sexta geração.
Em algumas modali- dades, o ABE é ABE6.1, ABE6.2, ABE6.3, ABE6.4, ABE6.5 ou ABE6.6, como mostrado na Tabela 6 abaixo.
Em algumas modalidades, o ABE é um ABE de sétima geração.
Em algumas modalidades, o ABE é ABE7.1, ABE7.2, ABE7.3, ABE7.4, ABE7.5, ABE7.6, ABE7.7, ABE7.8, ABE 7.9 ou ABE7.10, como mostrado na Tabela 6 abaixo.
Tabela 6. Genótipos de ABEs 23 26 36 37 48 49 51 72 84 87 105 108 123 125 142 145 147 152 155 156 157 16 ABE0.1 W R H N P R N L S A D H G A S D R E I K K ABE0.2 W R H N P R N L S A D H G A S D R E I K K ABE1.1 W R H N P R N L S A N H G A S D R E I K K ABE1.2 W R H N P R N L S V N H G A S D R E I K K ABE2.1 W R H N P R N L S V N H G A S Y R V I K K ABE2.2 W R H N P R N L S V N H G A S Y R V I K K ABE2.3 W R H N P R N L S V N H G A S Y R V I K K ABE2.4 W R H N P R N L S V N H G A S Y R V I K K ABE2.5 W R H N P R N L S V N H G A S Y R V I K K ABE2.6 W R H N P R N L S V N H G A S Y R V I K K ABE2.7 W R H N P R N L S V N H G A S Y R V I K K ABE2.8 W R H N P R N L S V N H G A S Y R V I K K ABE2.9 W R H N P R N L S V N H G A S Y R V I K K ABE2.10 W R H N P R N L S V N H G A S Y R V I K K ABE2.11 W R H N P R N L S V N H G A S Y R V I K K ABE2.12 W R H N P R N L S V N H G A S Y R V I K K ABE3.1 W R H N P R N F S V N Y G A S Y R V F K K ABE3.2 W R H N P R N F S V N Y G A S Y R V F K K ABE3.3 W R H N P R N F S V N Y G A S Y R V F K K ABE3.4 W R H N P R N F S V N Y G A S Y R V F K K ABE3.5 W R H N P R N F S V N Y G A S Y R V F K K ABE3.6 W R H N P R N F S V N Y G A S Y R V F K K ABE3.7 W R H N P R N F S V N Y G A S Y R V F K K ABE3.8 W R H N P R N F S V N Y G A S Y R V F K K ABE4.1 W R H N P R N L S V N H G N S Y R V I K K ABE4.2 W G H N P R N L S V N H G N S Y R V I K K ABE4.3 W R H N P R N F S V N Y G N S Y R V F K K ABE5.1 W R L N P L N F S V N Y G A C Y R V F N K ABE5.2 W R H S P R N F S V N Y G A S Y R V F K T ABE5.3 W R L N P L N I S V N Y G A C Y R V I N K ABE5.4 W R H S P R N F S V N Y G A S Y R V F K T ABE5.5 W R L N P L N F S V N Y G A C Y R V F N K ABE5.6 W R L N P L N F S V N Y G A C Y R V F N K ABE5.7 W R L N P L N F S V N Y G A C Y R V F N K ABE5.8 W R L N P L N F S V N Y G A C Y R V F N K ABE5.9 W R L N P L N F S V N Y G A C Y R V F N K ABE5.10 W R L N P L N F S V N Y G A C Y R V F N K ABE5.11 W R L N P L N F S V N Y G A C Y R V F N K ABE5.12 W R L N P L N F S V N Y G A C Y R V F N K ABE5.13 W R H N P L D F S V N Y A A S Y R V F K K ABE5.14 W R H N S L N F C V N Y G A S Y R V F K K ABE6.1 W R H N S L N F S V N Y G N S Y R V F K K ABE6.2 W R H N T V L N F S V N Y G N S Y R V F N K ABE6.3 W R L N S L N F S V N Y G A C Y R V F N K ABE6.4 W R L N S L N F S V N Y G N C Y R V F N K ABE6.5 W R L N I V L N F S V N Y G A C Y R V F N K ABE6.6 W R L N T V L N F S V N Y G N C Y R V F N K ABE7.1 W R L N A L N F S V N Y G A C Y R V F N K ABE7.2 W R L N A L N F S V N Y G N C Y R V F N K ABE7.3 I R L N A L N F S V N Y G A C Y R V F N K ABE7.4 R R L N A L N F S V N Y G A C Y R V F N K ABE7.5 W R L N A L N F S V N Y G A C Y H V F N K ABE7.6 W R L N A L N I S V N Y G A C Y P V I N K ABE7.7 L R L N A L N F S V N Y G A C Y P V F N K ABE7.8 I R L N A L N F S V N Y G N C Y R V F N K ABE7.9 L R L N A L N F S V N Y G N C Y P V F N K
ABE7.10 R R L N A L N F S V N Y G A C Y P V F N K
[0376] Em algumas modalidades, o editor de base ainda compre- ende um domínio compreendendo toda ou uma porção de um inibidor de uracil glicosilase (UGI). Em algumas modalidades, o editor de base compreende um domínio compreendendo toda ou uma porção de uma proteína de ligação de uracil (UBP), tal como uma uracil DNA glicosilase (UDG). Em algumas modalidades, o editor de base compreende um do- mínio compreendendo toda ou uma porção de uma polimerase de ácido nucleico. Em algumas modalidades, uma polimerase de ácido nucleico ou porção da mesma incorporada em um editor de base é uma DNA polimerase de translesão.
[0377] Em algumas modalidades, um domínio do editor de base pode compreender vários domínios. Por exemplo, o editor de base com- preendendo um domínio de ligação de nucleotídeo programável de po- linucleotídeo derivado de Cas9 pode compreender um lóbulo REC e um lóbulo NUC correspondente ao lóbulo REC e lóbulo NUC de uma Cas9 de tipo selvagem ou natural. Em outro exemplo, o editor de base pode compreender um ou mais de um domínio RuvCI, domínio BH, domínio REC1, domínio REC2, domínio RuvCII, domínio L1, domínio HNH, do- mínio L2, domínio RuvCIII, domínio WED, domínio TOPO ou domínio CTD. Em algumas modalidades, um ou mais domínios do editor de base compreendem uma mutação (por exemplo, substituição, inserção, ex- clusão) em relação a uma versão de tipo selvagem de um polipeptídeo compreendendo o domínio. Por exemplo, um domínio HNH de um do- mínio de ligação de DNA programável de polinucleotídeo pode compre- ender uma substituição de H840A. Em outro exemplo, um domínio RuvCI de um domínio de ligação de DNA programável de polinucleotí- deo pode compreender uma substituição de D10A.
[0378] Domínios diferentes (por exemplo, domínios adjacentes) do editor de base divulgado neste documento podem ser ligados entre si com ou sem a utilização de um ou mais domínios de ligante (por exem- plo, um domínio de ligante XTEN). Em algumas modalidades, um domí- nio de ligante pode ser uma ligação (por exemplo, ligação covalente), grupo químico ou uma molécula ligando duas moléculas ou porções, por exemplo, dois domínios de uma proteína de fusão, tal como, por exem- plo, um primeiro domínio (por exemplo, domínio derivado de Cas9) e um segundo domínio (por exemplo, um domínio de adenosina desaminase ou um domínio de citidina desaminase). Em algumas modalidades, um ligante é uma ligação covalente (por exemplo, uma ligação carbono-car- bono, ligação dissulfeto, ligação carbono-heteroátomo etc.). Em certas modalidades, um ligante é uma ligação-carbono nitrogênio de uma liga- ção amida.
Em certas modalidades, um ligante é um ligante alifático ou heteroalifático, cíclico ou acíclico, substituído ou não substituído, ramifi- cado ou não ramificado.
Em certas modalidades, um ligante é polimérico (por exemplo, polietileno, polietileno glicol, poliamida, poliéster etc.). Em certas modalidades, um ligante compreende um monômero, dímero ou polímero de ácido aminoalcanoico.
Em algumas modalidades, um li- gante compreende um ácido aminoalcanoico (por exemplo, glicina, ácido etanoico, alanina, beta-alanina, ácido 3-aminopropanoico, ácido 4-aminobutanoico, ácido 5-pentanoico etc.). Em algumas modalidades, um ligante compreende um monômero, dímero ou polímero de ácido aminohexanoico (Ahx). Em certas modalidades, um ligante é baseado em uma porção carbocíclica (por exemplo, ciclopentano, ciclohexano). Em outras modalidades, um ligante compreende uma porção de polieti- leno glicol (PEG). Em certas modalidades, um ligante compreende uma porção aril ou heteroaril.
Em certas modalidades, o ligante é baseado em um anel fenil.
Um ligante pode incluir porções funcionalizadas para facilitar a ligação de um nucleófilo (por exemplo, tiol, amino) do peptídeo ao ligante.
Qualquer eletrófilo pode ser usado como parte do ligante.
Eletrófilos exemplificativos incluem, mas sem limitação, ésteres ativa- dos, amidas ativadas, aceptores de Michael, halogenetos de alquil, ha- logenetos de aril, halogenetos de acil, e isotiocianatos. Em algumas mo- dalidades, um ligante se une a um domínio de ligação de gRNA de uma nuclease programável de RNA, incluindo um domínio de Cas9 nuclease, e o domínio catalítico de uma proteína de edição de ácido nucleico. Em algumas modalidades, um ligante une uma dCas9 e um segundo domí- nio (por exemplo, UGI, citidina desaminase etc.).
[0379] Tipicamente, um ligante é posicionado entre, ou flanqueado por, dois grupos, moléculas ou outras porções e conectado a cada um por meio de uma ligação covalente, assim conectando os dois. Em al- gumas modalidades, um ligante é um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou proteína). Em algumas modalidades, um ligante é uma molécula orgânica, grupo, polímero ou porção química. Em algumas modalidades, um ligante tem 2-100 ami- noácidos de comprimento, por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 30- 35, 35-40, 40-45, 45-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-150 ou 150-200 aminoácidos de comprimento. Em algumas modalidades, o ligante tem cerca de 3 a cerca de 104 (por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 ou 100) aminoácidos de compri- mento. Ligantes mais longos ou mais curtos são também contemplados. Em algumas modalidades, um domínio de ligante compreende a se- quência de aminoácido SGSETPGTSESATPES, que também pode ser referida como o ligante XTEN. Qualquer método para ligar os domínios de proteína de fusão pode ser empregado (por exemplo, desde ligantes muito flexíveis da forma (SGGS)n, (GGGS)n, (GGGGS)n e (G)n, até li-
gantes mais rígidos da forma (EAAAK)n, (GGS)n, SGSETPGTSESA- TPES (vide, por exemplo, Guilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32( 6):577-82; todo o con- teúdo do qual é incorporado aqui por referência), ou motivo (XP)n, a fim de atingir o comprimento ideal para a atividade para o editor de nucleo- base. Em algumas modalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ou 15. Em algumas modalidades, o ligante compreende um mo- tivo (GGS)n, em que n é 1, 3 ou 7. Em algumas modalidades, o domínio de Cas9 das proteínas de fusão providas neste documento são fundidos por meio de um ligante compreendendo a sequência de aminoácido SGSETPGTSESATPES. Em algumas modalidades, um ligante compre- ende uma pluralidade de resíduos de prolina e tem 5-21, 5-14, 5-9, 5-7 aminoácidos de comprimento, por exemplo, PAPAP, PAPAPA, PAPA- PAP, PAPAPAPA, P(AP)4, P(AP)7, P(AP)10 (vide, por exemplo, Tan J, Zhang F, Karcher D, Bock R. Engineering of high-precision base editors for site-specific single nucleotide replacement. Nat Commun. 2019 Jan 25;10(1):439; todo o conteúdo do qual é aqui incorporado por referên- cia). Tais ligantes ricos em prolina são também denominados ligantes “rígidos”. Ligantes
[0380] Em certas modalidades, os ligantes podem ser usados para ligar qualquer um dos peptídeos ou domínios de peptídeos da invenção. O ligante pode ser tão simples quanto uma ligação covalente, ou pode ser um ligante polimérico com muitos átomos de comprimento. Em cer- tas modalidades, o ligante é um polipeptídeo ou baseado em aminoáci- dos. Em outras modalidades, o ligante não é semelhante a peptídeo. Em certas modalidades, o ligante é uma ligação covalente (por exemplo, uma ligação carbono-carbono, ligação dissulfeto, ligação carbono-hete- roátomo etc.). Em certas modalidades, o ligante é uma ligação carbono-
nitrogênio de uma ligação amida. Em certas modalidades, o ligante é um ligante alifático ou heteroalifático, cíclico ou acíclico, substituído ou não substituído, ramificado ou não ramificado. Em certas modalidades, o ligante é polimérico (por exemplo, polietileno, polietileno glicol, polia- mida, poliéster etc.). Em certas modalidades, o ligante compreende um monômero, dímero ou polímero de ácido aminoalcanoico. Em certas modalidades, o ligante compreende um ácido aminoalcanoico (por exemplo, glicina, ácido etanoico, alanina, beta-alanina, ácido 3-amino- propanoico, ácido 4-aminobutanoico, ácido 5-pentanoico etc.). Em cer- tas modalidades, o ligante compreende um monômero, dímero ou polí- mero de ácido aminohexanoico (Ahx). Em certas modalidades, o ligante é baseado em uma porção carbocíclica (por exemplo, ciclopentano, ci- clohexano). Em outras modalidades, o ligante compreende uma porção de polietilenoglicol (PEG). Em outras modalidades, o ligante compre- ende aminoácidos. Em certas modalidades, o ligante compreende um peptídeo. Em certas modalidades, o ligante compreende uma porção aril ou heteroaril. Em certas modalidades, o ligante é baseado em um anel fenil. O ligante pode incluir porções funcionalizadas para facilitar a ligação de um nucleófilo (por exemplo, tiol, amino) do peptídeo para o ligante. Qualquer eletrófilo pode ser usado como parte do ligante. Ele- trófilos exemplificativos incluem, mas sem limitação, ésteres ativados, amidas ativadas, aceptores de Michael, halogenetos de alquil, haloge- netos de aril, halogenetos de acil, e isotiocianatos.
[0381] Em algumas modalidades, o ligante é um aminoácido ou uma pluralidade de aminoácidos (por exemplo, um peptídeo ou prote- ína). Em algumas modalidades, o ligante é uma ligação (por exemplo, uma ligação covalente), uma molécula orgânica, grupo, polímero ou por- ção química. Em algumas modalidades, o ligante tem cerca de 3 a cerca de 104 (por exemplo, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38,
39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, ou 100) aminoácidos de comprimento.
[0382] Em algumas modalidades, a citidina desaminase e adeno- sina desaminase e a napDNAbp são fundidas por meio de um ligante que tem 4, 16, 32 ou 104 aminoácidos de comprimento. Em algumas modalidades, o ligante tem cerca de 3 a cerca de 104 aminoácidos de comprimento. Em algumas modalidades, qualquer uma das proteínas de fusão providas neste documento compreende uma citidina desami- nase, adenosina desaminase e um domínio de Cas9 que são fundidos entre si por meio de um ligante. Vários comprimentos de ligante e flexi- bilidades entre os domínios de citidina desaminase e adenosina desa- minase (por exemplo, uma ecTadA projetada) e um domínio de Cas9 podem ser empregados (por exemplo, variando de ligantes muito flexí- veis da forma (GGGS)n, (GGGGS)n, e (G)n a ligantes mais rígidos da forma (EAAAK)n, (SGGS)n, SGSETPGTSESATPES (vide, por exemplo, Guilinger JP, Thompson DB, Liu DR. Fusion of catalytically inactive Cas9 to FokI nuclease improves the specificity of genome modification. Nat. Biotechnol. 2014; 32(6): 577-82; todo o conteúdo do qual é aqui incorporado por referência) e (XP)n) a fim de atingir o comprimento ideal para a atividade do editor de nucleobase multiefetor. Em algumas mo- dalidades, n é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, ou 15. Em algumas modalidades, o ligante compreende um motivo (GGS)n, em que n é 1, 3, ou 7. Em algumas modalidades, a citidina desaminase e ade- nosina desaminase e um domínio de Cas9 de qualquer uma das prote- ínas de fusão providas neste documento são fundidos por meios de um ligante (por exemplo, um ligante XTEN) compreendendo a sequência de aminoácido SGSETPGTSESATPES.
[0383] Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobase alvo.
Em algumas modalidades, a janela alvo compreende de 1 a 10 nucleo- tídeos. Em algumas modalidades, a janela alvo tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos de compri- mento. Em algumas modalidades, a edição pretendida do par de bases está dentro da janela alvo. Em algumas modalidades, a janela alvo com- preende a edição pretendida do par de bases. Em algumas modalida- des, o método é executado usando qualquer um dos editores de base providos neste documento. Em algumas modalidades, uma janela alvo é uma janela de desaminação.
[0384] Além disso, em alguns casos, uma proteína Gam pode ser fundida a um terminal N de um editor de base. Em alguns casos, uma proteína Gam pode ser fundida a um terminal C de um editor de base. A proteína Gam de bacteriófago Mu pode ser ligada às extremidades das quebras de cadeia dupla (DSBs) e protegê-las da degradação. Em algumas formas, usar Gam para ligar as extremidades livres de DSB pode reduzir a formação de indel durante o processo de edição de base. Em algumas modalidades, a proteína Gam de 174 resíduos é fundida ao terminal N dos editores de base. Vide, Komor, A.C., et al., “Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T: A base editors with higher efficiency and product purity” Sci- ence Advances 3:eaao4774 (2017). Em alguns casos, uma mutação ou mutações podem alterar o comprimento de um domínio de editor de base em relação a um domínio de tipo selvagem. Por exemplo, uma exclusão de pelo menos um aminoácido em pelo menos um domínio pode reduzir o comprimento do editor de base. Em outro caso, uma mu- tação ou mutações não alteram o comprimento de um domínio em rela- ção a um domínio de tipo selvagem. Por exemplo, substituição(ões) em qualquer domínio altera/não altera o comprimento do editor de base.
[0385] Em algumas modalidades, as proteínas de fusão de edição de base providas neste documento precisam ser posicionadas em um local preciso, por exemplo, onde uma base alvo é colocada dentro de uma região definida (por exemplo, uma “janela de desaminação”). Em alguns casos, um alvo pode estar dentro de uma região de 4 bases. Em alguns casos, tal região alvo definida pode ser de aproximadamente 15 bases a montante da PAM. Vide Komor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Program- mable base editing of A•T to G•C in genomic DNA without DNA clea- vage” Nature 551, 464-471 (2017); e Komor, A.C., et al., “Improved base excision repair inhibition and bacteriophage Mu Gam protein yields C:G- to-T:A base editors com higher efficiency and product purity” Science Advances 3:eaao4774 (2017), todo o conteúdo dos quais é aqui incor- porado por referência.
[0386] Uma região alvo definida pode ser uma janela de desamina- ção. Uma janela de desaminação pode ser a região definida na qual um editor de base atua sobre e desamina um nucleotídeo alvo. Em algumas formas, a janela de desaminação está dentro de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 regiões de base. Em algumas modalidades, a janela de desaminação tem 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 bases a montante da PAM.
[0387] Os editores de base da presente divulgação podem compre- ender qualquer domínio, característica ou sequência de aminoácido que facilita a edição de uma sequência de polinucleotídeo. Por exemplo, em algumas modalidades, o editor de base compreende uma sequência de localização nuclear (NLS). Em algumas modalidades, uma NLS do edi- tor de base está localizada entre um domínio de desaminase e um do- mínio de ligação de nucleotídeo programável de polinucleotídeo. Em al- gumas modalidades, uma NLS do editor de base está localizada C-ter- minal a um domínio de ligação de nucleotídeo programável de polinu- cleotídeo.
[0388] Outras características exemplificativas que podem estar pre- sentes em um editor de base como divulgado neste documento são se- quências de localização, tais como sequências de localização citoplas- mática, sequências de exportação, tais como sequências de exportação nuclear, ou outras sequências de localização, bem como etiquetas de sequência que são úteis para solubilização, purificação ou detecção de proteínas de fusão. Etiquetas de proteína adequadas providas neste do- cumento incluem, mas sem limitação, etiquetas de proteína transporta- dora de biotina carboxilase (BCCP), etiquetas de myc, etiquetas de cal- modulina, etiquetas FLAG, etiquetas de hemaglutinina (HA), etiquetas de poli-histidina, também referidos como etiquetas de histidina ou eti- quetas His, etiquetas de proteína de ligação de maltose (MBP), etique- tas nus, etiquetas de glutationa-S-transferase (GST), etiquetas de pro- teína fluorescente verde (GFP), etiquetas de tiorredoxina, S-tags, Sof- tags (por exemplo, Softag 1, Softag 3), strep-tags, etiquetas biotina li- gase, etiquetas FlAsH, etiquetas V5, e etiquetas SBP. Sequências ade- quadas adicionais serão evidentes para os versados na técnica. Em al- gumas modalidades, a proteína de fusão compreende uma ou mais eti- quetas.
[0389] Exemplos não limitantes de domínios de proteínas que po- dem ser incluídos na proteína de fusão incluem domínios de desami- nase (por exemplo, citidina desaminases e/ou adenosina desaminases), um domínio de inibidor de uracil glicosilase (UGI), etiquetas de epítopo, sequências de gene repórter, e/ou domínios de proteína tendo uma ou mais das seguintes atividades: atividade de metilase, atividade de des- metilase, atividade de ativação de transcrição, atividade de repressão de transcrição, atividade do fator de liberação de transcrição, atividade de modificação de histonas, atividade de clivagem de RNA, e atividade de ligação a ácidos nucleicos. Domínios adicionais podem ser um do-
mínio funcional heterólogo. Esses domínios funcionais heterólogos po- dem conferir uma atividade funcional, tal como metilação de DNA, dano de DNA, reparo de DNA, modificação de um polipeptídeo alvo associado ao DNA alvo (por exemplo, uma histona, uma proteína de ligação de DNA etc.), levando a, por exemplo, metilação de histona, acetilação de histona, ubiquitinação de histona, e semelhantes.
[0390] Outras funções conferidas podem incluir atividade de metil- transferase, atividade de desmetilase, atividade de desaminação, ativi- dade de dismutase, atividade de alquilação, atividade de depurinação, atividade de oxidação, atividade de formação de dímero de pirimidina, atividade de integrase, atividade de transposase, atividade de recombi- nase, atividade de polimerase, atividade de ligase, atividade de heli- case, atividade de fotoliase ou atividade de glicosilase, atividade de ace- tiltransferase, atividade de desacetilase, atividade de quinase, atividade de fosfatase, atividade de ubiquitina ligase, atividade de desubiquitina, atividade de adenilação, atividade de desadenilação, atividade de SU- MOilação, atividade de deSUMOilação, atividade de ribosilação, ativi- dade de desribosilação, atividade de miristoilação, atividade remodela- gem, atividade de protease, atividade de oxidorredutase, atividade de transferase, atividade de hidrolase, atividade de liase, atividade de iso- merase, atividade de sintase, atividade de sintetase e atividade de des- miristoilação, ou qualquer combinação das mesmas.
[0391] Exemplos não limitantes de etiquetas de epítopo incluem eti- quetas de histidina (His), etiquetas V5, etiquetas FLAG, etiquetas de he- maglutinina (HA) de influenza, etiquetas Myc, etiquetas VSV-G, etique- tas de tiorredoxina (Trx). Exemplos de genes repórteres incluem, mas sem limitação, glutationa-5-transferase (GST), peroxidase de rábano- silvestre (HRP), cloranfenicol acetiltransferase (CAT) beta-galactosi- dase, beta-glucuronidase, luciferase, proteína fluorescente verde
(GFP), HcRed, DsRed, proteína fluorescente ciano (CFP), proteína flu- orescente amarela (YFP), e proteínas autofluorescentes incluindo pro- teína fluorescente azul (BFP). Sequências de proteína adicionais podem incluir sequências de aminoácido que ligam moléculas de DNA ou ligam outras moléculas celulares, incluindo, mas sem limitação, proteína de ligação de maltose (MBP), S-tag, fusões de domínio de ligação de DNA Lex A (DBD), fusões de domínio de ligação de DNA GAL4, e fusões de proteínas BP16 do vírus da herpes simplex (HSV). Outros Editores de Nucleobase
[0392] A invenção provê um editor de nucleobase multiefetor mo- dular, em que virtualmente qualquer editor de nucleobase conhecido na técnica pode ser inserido na proteína de fusão descrita neste documento ou trocado por uma citidina desaminase ou adenosina desaminase, ou ambas a citidina desaminase e a adenosina desaminase. Em uma mo- dalidade, a invenção apresenta um editor de nucleobase multiefetor compreendendo um domínio de editor de nucleobase abásico. Editores de nucleobase abásicos são conhecidos na técnica e são descritos, por exemplo, por Kavli et al., EMBO J. 15:3442-3447, 1996, que é incorpo- rado neste documento por referência. Proteínas de fusão compreendendo um domínio de Cas9, uma adeno- sina desaminase, e uma citidina desaminase
[0393] Alguns aspectos da divulgação proveem proteínas de fusão compreendendo um domínio de Cas9 ou outra proteína de ligação de DNA programável de ácido nucleico e um ou mais domínio de adenosina desaminase, domínio de citidina desaminase e/ou domínios de DNA gli- cosilase. Deve ser apreciado que um domínio de Cas9 pode ser qual- quer um dos domínios de Cas9 ou proteínas Cas9 (por exemplo, dCas9 ou nCas9) providos neste documento. Em algumas modalidades, qual- quer um dos domínios de Cas9 ou proteínas Cas9 (por exemplo, dCas9 ou nCas9) providos neste documento podem ser fundidos com qualquer uma das citidina desaminases e adenosina desaminases providas neste documento. Os domínios dos editores de base divulgados neste docu- mento podem ser dispostos em qualquer ordem. Por exemplo, e sem limitação, em algumas modalidades, a proteína de fusão compreende a estrutura: NH2-[citidina desaminase]-[Domínio de Cas9]-[adenosina desaminase]- COOH; NH2-[adenosina desaminase]-[Domínio de Cas9]-[citidina desaminase]- COOH; NH2-[adenosina desaminase]-[citidina desaminase]-[Domínio de Cas9]- COOH; NH2-[citidina desaminase]-[adenosina desaminase]-[Domínio de Cas9]- COOH; NH2-[Domínio de Cas9]-[adenosina desaminase]-[citidina desaminase]- COOH; ou NH2-[Domínio de Cas9]-[citidina desaminase]-[adenosina desaminase]- COOH.
[0394] Em algumas modalidades, as proteínas de fusão compreen- dendo uma citidina desaminase, editor básico, e adenosina desaminase e uma napDNAbp (por exemplo, domínio de Cas9) não incluem uma sequência de ligante. Em algumas modalidades, um ligante está pre- sente entre os domínios de citidina desaminase e adenosina desami- nase e a napDNAbp. Em algumas modalidades, o “-” utilizado na arqui- tectura geral acima indica a presença de um ligante opcional. Em algu- mas modalidades, a citidina desaminase e adenosina desaminase e a napDNAbp são fundidas através de qualquer um dos ligantes providos neste documento. Por exemplo, em algumas modalidades, a citidina de- saminase e adenosina desaminase e a napDNAbp são fundidas através de qualquer um dos ligantes fornecidos abaixo na seção intitulada “Li- gantes”.
[0395] Em algumas modalidades, a arquitetura geral das proteínas de fusão Cas9 exemplificativas com uma citidina desaminase, adeno- sina desaminase e um domínio de Cas9 compreende qualquer uma das seguintes estruturas, em que NLS é uma sequência de localização nu- clear (por exemplo, qualquer NLS provida neste documento), NH2 é o terminal N da proteína de fusão, e COOH é o terminal C da proteína de fusão.
NH2-NLS-[citidina desaminase]-[Domínio de Cas9]-[adenosina desami- nase]-COOH; NH2-NLS-[adenosina desaminase]-[Domínio de Cas9]-[citidina desami- nase]-COOH; NH2-NLS-[adenosina desaminase] [citidina desaminase]-[Domínio de Cas9]-COOH; NH2-NLS-[citidina desaminase]-[adenosina desaminase]-[Domínio de Cas9]-COOH; NH2-NLS-[Domínio de Cas9]-[adenosina desaminase]-[citidina desami- nase]-COOH; NH2-NLS-[Domínio de Cas9]-[citidina desaminase]-[adenosina desami- nase]-COOH; NH2-[citidina desaminase]-[Domínio de Cas9]-[adenosina desaminase]- NLS-COOH; NH2-[adenosina desaminase]-[Domínio de Cas9]-[citidina desaminase]- NL2-COOH; NH2-[adenosina desaminase] [citidina desaminase]-[Domínio de Cas9]- NLS-COOH; NH2-[citidina desaminase]-[adenosina desaminase]-[Domínio de Cas9]- NLS-COOH; NH2-[Domínio de Cas9]-[adenosina desaminase]-[citidina desaminase]- NLS-COOH; ou NH2-[Domínio de Cas9]-[citidina desaminase]-[adenosina desaminase]-
NLS-COOH.
[0396] Em algumas modalidades, a NLS está presente em um li- gante ou a NLS é flanqueada por ligantes, por exemplo, descritos neste documento. Em algumas modalidades, a NLS N-terminal ou C-terminal é uma NLS bipartida. Uma NLS bipartida compreende dois agrupamen- tos básicos de aminoácidos, que são separados por uma sequência es- paçadora relativamente curta (portanto, bipartida - 2 partes, enquanto NLSs monopartidos não são). A NLS de nucleoplasmina, KR[PAATK- KAGQA]KKKK, é o protótipo do sinal bipartido ubíquo: dois agrupamen- tos de aminoácidos básicos, separados por um espaçador de cerca de 10 aminoácidos. Segue a sequência de uma NLS bipartida exemplifica- tiva: PKKKRKVEGADKRTADGSEFES PKKKRKV.
[0397] Em algumas modalidades, as proteínas de fusão compreen- dendo uma citidina desaminase, adenosina desaminase, um domínio de Cas9 e uma NLS não compreendem uma sequência de ligante. Em al- gumas modalidades, sequências de ligante entre um ou mais dos domí- nios ou proteínas (por exemplo, citidina desaminase, adenosina desa- minase, domínio de Cas9 ou NLS) estão presentes.
[0398] Deve ser apreciado que as proteínas de fusão da presente divulgação podem compreender uma ou mais características adicionais. Por exemplo, em algumas modalidades, a proteína de fusão pode com- preender inibidores, sequências de localização citoplasmática, sequên- cias de exportação, tais como sequências de exportação nuclear, ou outras sequências de localização, bem como etiquetas de sequência que são úteis para solubilização, purificação ou detecção de proteínas de fusão. Etiquetas de proteína adequadas providas neste documento incluem, mas sem limitação, etiquetas de proteína transportadora de bi- otina carboxilase (BCCP), etiquetas myc, etiquetas de calmodulina, eti- quetas FLAG, etiquetas de hemaglutinina (HA), etiquetas de poli-histi-
dina, também referidas como etiquetas de histidina ou etiquetas His, eti- quetas de proteína de ligação de maltose (MBP), etiquetas nus, nus de glutationa-S-transferase (GST), etiquetas de proteína verde fluores- cente (GFP), etiquetas de tiorredoxina, S-tags, Softags (por exemplo, Softag 1, Softag 3), etiquetas strep, etiquetas de biotina ligase, etiquetas FlAsH, etiquetas V5, e etiquetas SBP. Sequências adequadas adicio- nais serão evidentes para os versados na técnica. Em algumas modali- dades, a proteína de fusão compreende uma ou mais etiquetas. Eficiência de Editor de Base
[0399] As nucleases CRISPR-Cas9 foram amplamente utilizadas para mediar a edição de genoma direcionada. Na maioria das aplica- ções de edição de genoma, Cas9 forma um complexo com um polinu- cleotídeo guia (por exemplo, RNA guia único (sgRNA)) e induz uma que- bra de DNA de cadeia dupla (DSB) no sítio alvo especificado pela se- quência de sgRNA. As células respondem principalmente a essa DSB através da via de reparo não homóloga (NHEJ), que resulta em inser- ções ou exclusões estocásticas (indels) que podem causar mutações de desocamento de quadro que rompem o gene. Na presença de um modelo de DNA doador com alto grau de homologia com as sequências que flanqueiam a DSB, a correção do gene pode ser alcançada por meio de uma via alternativa conhecida como reparo dirigido por homologia (HDR). Infelizmente, na maioria das condições não perturbativas, HDR é ineficiente, dependente do estado da célula e tipo de célula, e domi- nado por uma frequência maior de indels. Como a maioria das variações genéticas conhecidas associadas às doenças humanas são mutações pontuais, métodos que possam fazer mutações pontuais precisas de maneira mais eficiente e limpa são necessários. Sistemas de edição de base conforme providos neste documento proveem uma nova maneira de prover a edição de genoma sem gerar quebras de DNA de cadeia dupla, sem requerer um modelo de DNA de doador, e sem induzir um excesso de inserções e exclusões estocásticas.
[0400] Os editores de base providos neste documento são capazes de modificar uma base de nucleotídeo específica sem gerar uma pro- porção significativa de indels. O termo “indel(s)”, como aqui utilizado, se refere à inserção ou exclusão de uma base de nucleotídeo dentro de um ácido nucleico. Essas inserções ou exclusões podem levar a mutações de deslocamento de quadro dentro de uma região de codificação de um gene. Em algumas modalidades, é desejável gerar editores de base que modifiquem de forma eficiente (por exemplo, realizem mutação ou de- saminação) um nucleotídeo específico dentro de um ácido nucleico, sem gerar um grande número de inserções ou exclusões (ou seja, in- dels) na sequência de nucleotídeo alvo . Em certas modalidades, qual- quer um dos editores de base providos neste documento é capaz de gerar uma proporção maior de modificações pretendidas (por exemplo, mutações pontuais ou desaminações) versus indels.
[0401] Em algumas modalidades, qualquer um dos sistemas de edi- tor de base fornecidos neste documento resulta em menos de 50%, me- nos de 40%, menos de 30%, menos de 20%, menos de 19%, menos de 18%, menos de 17%, menos de 16%, menos de 15%, menos de 14%, menos de 13%, menos de 12%, menos de 11%, menos de 10%, menos de 9%, menos de 8%, menos de 7%, menos de 6%, menos de 5%, me- nos de 4%, menos de 3%, menos de 2%, menos de 1%, menos de 0,9%, menos de 0,8%, menos de 0,7%, menos de 0,6%, menos de 0,5%, me- nos de 0,4%, menos de 0,3%, menos de 0,2%, menos de 0,1%, menos de 0,09%, menos de 0,08%, menos de 0,07%, menos de 0,06%, menos de 0,05%, menos de 0,04%, menos de 0,03%, menos de 0,02%, ou me- nos de 0,01% de formação de indel na sequência de polinucleotídeo alvo.
[0402] Alguns aspectos da divulgação são baseados no reconheci-
mento de que qualquer um dos editores de base providos neste docu- mento são capazes de gerar eficientemente uma mutação pretendida, tal como uma mutação pontual, em um ácido nucleico (por exemplo, um ácido nucleico dentro de um genoma de um indivíduo) sem gerar um número significativo de mutações não intencionais, tais como mutações pontuais não intencionais. Em algumas modalidades, qualquer um des- ses editores de base providos neste documento é capaz de gerar pelo menos 0,01% das mutações pretendidas (ou seja, pelo menos 0,01% de eficiência básica de edição). Em algumas modalidades, qualquer um dos editores de base providos neste documento é capaz de gerar pelo menos 0,01%, 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 30% , 40%, 45%, 50%, 60%, 70%, 80%, 90%, 95%, ou 99% das mutações preten- didas.
[0403] Em algumas modalidades, os editores de base providos neste documento são capazes de gerar uma razão de mutações pontu- ais pretendidas para indels que seja maior que 1:1. Em algumas moda- lidades, os editores de base providos neste documento são capazes de gerar uma razão de mutações pontuais pretendidas para indels que é pelo menos 1,5:1, pelo menos 2:1, pelo menos 2,5:1, pelo menos 3:1, pelo menos 3,5:1, pelo menos 4:1, pelo menos 4,5:1, pelo menos 5:1, pelo menos 5,5:1, pelo menos 6:1, pelo menos 6,5:1, pelo menos 7:1, pelo menos 7,5:1, pelo menos 8:1, pelo menos 8,5:1, pelo menos 9:1, pelo menos 10:1, pelo menos 11:1, pelo menos 12:1, pelo menos 13:1, pelo menos 14:1, pelo menos 15:1, pelo menos 20:1, pelo menos 25:1, pelo menos 30:1, pelo menos 40:1, pelo menos 50:1, pelo menos 100:1, pelo menos 200:1, pelo menos 300:1, pelo menos 400:1, pelo menos 500:1, pelo menos 600:1, pelo menos 700:1, pelo menos 800:1, pelo menos 900:1, ou pelo menos 1000:1, ou mais.
[0404] O número de mutações e indels pretendidos pode ser deter- minado usando qualquer método adequado, por exemplo, conforme descrito nos Pedidos Internacionais PCT Nºs. PCT/2017/045381 (WO2018/027078) e PCT/US2016/058344 (WO2017/070632); Komor, A.C., et al., “Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage” Nature 533, 420-424 (2016); Gaudelli, N.M., et al., “Programmable base editing of A•T to G•C in ge- nomic DNA without DNA cleavage” Nature 551, 464-471 (2017); e Ko- mor, A.C., et al., “Improved base excision repair inhibition and bacteri- ophage Mu Gam protein yields C:G-to-T:A base editors with higher effi- ciency and product purity” Science Advances 3:eaao4774 (2017); todo o conteúdo dos quais é aqui incorporado por referência.
[0405] Em algumas modalidades, para calcular frequências de in- del, as leituras de sequenciamento são verificadas em busca de corres- pondências exatas para duas sequências de 10 bp que flanqueiam am- bos os lados de uma janela na qual indels podem ocorrer. Se nenhuma correspondência exata for localizada, a leitura é excluída da análise. Se o comprimento dessa janela de indel corresponder exatamente à se- quência de referência, a leitura é classificada como não contendo um indel. Se a janela de indel for duas ou mais bases mais longas ou mais curtas do que a seqüência de referência, então a sequência lida é clas- sificada como uma inserção ou exclusão, respectivamente. Em algumas modalidades, os editores de base providos neste documento podem li- mitar a formação de indels em uma região de um ácido nucleico. Em algumas modalidades, a região está em um nucleotídeo direcionado por um editor de base ou uma região dentro de 2, 3, 4, 5, 6, 7, 8, 9, ou 10 nucleotídeos de um nucleotídeo direcionado por um editor de base.
[0406] O número de indels formados em uma região de nucleotídeo alvo pode depender da quantidade de tempo que um ácido nucleico (por exemplo, um ácido nucleico dentro do genoma de uma célula) é exposto a um editor de base. Em algumas modalidades, o número ou proporção de indels é determinado após pelo menos 1 hora, pelo menos 2 horas,
pelo menos 6 horas, pelo menos 12 horas, pelo menos 24 horas, pelo menos 36 horas, pelo menos 48 horas, pelo menos 3 dias, pelo menos 4 dias, pelo menos 5 dias, pelo menos 7 dias, pelo menos 10 dias, ou pelo menos 14 dias de exposição da sequência de nucleotídeo alvo (por exemplo, um ácido nucleico dentro do genoma de uma célula) a um edi- tor de base. Deve ser apreciado que as características dos editores de base conforme descritos neste documento podem ser aplicadas a qual- quer uma das proteínas de fusão, ou métodos de usar as proteínas de fusão providas neste documento. Edição Multiplex
[0407] Em algumas modalidades, o sistema de editor de base pro- vido neste documento é capaz de edição multiplex de uma pluralidade de pares de nucleobase em um ou mais genes. Em algumas modalida- des, a pluralidade de pares de nucleobase está localizada no mesmo gene. Em algumas modalidades, a pluralidade de pares de nucleobase está localizada em um ou mais genes, em que pelo menos um gene está localizado em um locus diferente. Em algumas modalidades, a edi- ção multiplex pode compreender um ou mais polinucleotídeos guia. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de editor de base. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de edição de base com um único polinucleotídeo guia. Em algumas modalidades, a edição multiplex pode compreender um ou mais sistemas de editor de base com uma pluralidade de polinucleotídeos guia. Em algumas modalida- des, a edição multiplex pode compreender um ou mais polinucleotídeos guia com um sistema de editor de base única. Em algumas modalida- des, a edição multiplex pode compreender pelo menos um polinucleotí- deo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição multiplex pode compreender pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a uma se- quência de polinucleotídeo alvo. Em algumas modalidades, a edição multiplex pode compreender um mix de pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo e pelo menos um polinucleotí- deo guia que requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Deve ser apreciado que as ca- racterísticas da edição multiplex usando qualquer um dos editores de base conforme descritos neste documento podem ser aplicadas a qual- quer combinação dos métodos de usar qualquer um dos editores de base providos neste documento. Também deve ser apreciado que a edi- ção multiplex usando qualquer um dos editores de bases conforme des- critos neste documento pode compreender uma edição sequencial de uma pluralidade de pares de nucleobase.
[0408] Em algumas modalidades, a pluralidade de pares de nucleo- base está em um ou mais genes. Em algumas modalidades, a plurali- dade de pares de nucleobase está no mesmo gene. Em algumas mo- dalidades, pelo menos um gene nos um ou mais genes está localizado em um locus diferente.
[0409] Em algumas modalidades, a edição é edição da pluralidade de pares de nucleobase em pelo menos uma região de codificação de proteína. Em algumas modalidades, a edição é edição da pluralidade de pares de nucleobase em pelo menos uma região de não codificação de proteína. Em algumas modalidades, a edição é edição da pluralidade de pares de nucleobase em pelo menos uma região de codificação de pro- teína e pelo menos uma região de não codificação de proteína.
[0410] Em algumas modalidades, a edição é em conjunto com um ou mais polinucleotídeos guia. Em algumas modalidades, o sistema de editor de base pode compreender um ou mais sistemas de editor de base. Em algumas modalidades, o sistema de editor de base pode com- preender um ou mais sistemas de editor de base em conjunto com um polinucleotídeo guia único. Em algumas modalidades, o sistema de edi- tor de base pode compreender um ou mais sistemas de editor de base em conjunto com uma pluralidade de polinucleotídeos guia. Em algumas modalidades, a edição é em conjunto com um ou mais polinucleotídeos guia com um sistema de editor de base único. Em algumas modalida- des, a edição é em conjunto com pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de polinucleotídeo alvo. Em algumas modalidades, a edição é em conjunto com pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a uma sequência de polinu- cleotídeo alvo. Em algumas modalidades, a edição é em conjunto com uma mistura de pelo menos um polinucleotídeo guia que não requer uma sequência PAM para direcionar a ligação a uma sequência de po- linucleotídeo alvo e pelo menos um polinucleotídeo guia que requer uma sequência PAM para direcionar a ligação a uma sequência de polinu- cleotídeo alvo. Deve ser apreciado que as características da edição mul- tiplex usando qualquer um dos editores de base conforme descritos neste documento podem ser aplicadas a qualquer combinação dos mé- todos de usar qualquer um dos editores de base providos neste docu- mento. Também deve ser apreciado que a edição pode compreender uma edição sequencial de uma pluralidade de pares de nucleobase. Métodos de Usar Editores de Base Métodos de usar proteínas de fusão compreendendo uma citidina desa- minase, adenosina desaminase e um domínio de Cas9
[0411] Métodos de usar as proteínas de fusão, ou complexos (por exemplo, editores de base multiefetores) são providos neste docu- mento. Por exemplo, alguns aspectos desta divulgação proveem méto- dos compreendendo colocar uma molécula de DNA em contato com qualquer uma das proteínas de fusão providas neste documento, e com pelo menos um RNA guia, em que o RNA guia tem cerca de 15-100 nucleotídeos de comprimento e compreende uma sequência de pelo menos 10 nucleotídeos contíguos que é complementar a uma sequên- cia alvo. Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência PAM canônica (NGG). Em algumas formas, a extremidade 3’ da sequência alvo não é imediata- mente adjacente a uma sequência PAM canônica (NGG). Em algumas modalidades, a extremidade 3’ da sequência alvo é imediatamente ad- jacente a uma sequência AGC, GAG, TTT, GTG ou CAA. Em algumas formas, a extremidade 3’ da sequência alvo é imediatamente adjacente a uma sequência NGA, NGCG, NGN, NNGRRT, NNNRRT, NGCG, NGCN, NGTN, NGTN, NGTN, ou 5’ (TTTV).
[0412] Em algumas modalidades, uma proteína de fusão da inven- ção é usada para mutagenizar um alvo de interesse. Em particular, um editor de nucleobase multiefetor descrito neste documento é capaz de fazer múltiplas mutações dentro de uma sequência alvo. Essas muta- ções podem afetar a função do alvo. Por exemplo, quando um editor de nucleobase multiefetor é usado para direcionar uma região reguladora, a função da região reguladora é alterada e a expressão da proteína a jusante é reduzida.
[0413] Em algumas modalidades, o propósito dos métodos providos neste documento é restaurar a função de um gene disfuncional via edi- ção do genoma. As proteínas de fusão do editor de nucleobase multi- efetor providas neste documento podem ser validadas para terapêutica humana baseada em edição genética in vitro, por exemplo, corrigindo uma mutação associada à doença em uma sequência de polinucleotí- deo (gene) em cultura de células humanas. Será entendido pelo versado na técnica que as proteínas de fusão providas neste documento, por exemplo, as proteínas de fusão compreendendo um domínio de Cas9,
um domínio de citidina desaminase e adenosina desaminase podem ser usadas, por exemplo, para corrigir qualquer mutação pontual única, tal como uma mutação G para T ou C para A.
[0414] Será apreciado que a numeração das posições específicas ou resíduos nas respectivas sequências depende da proteína em parti- cular e do esquema de numeração usado. A numeração pode ser dife- rente, por exemplo, em precursores de uma proteína madura e da pró- pria proteína madura, e diferenças nas sequências de espécie para es- pécie podem afetar a numeração. Um versado na técnica será capaz de identificar o respectivo resíduo em qualquer proteína homóloga e no res- pectivo ácido nucleico de codificação por métodos bem conhecidos na técnica, por exemplo, por alinhamento de sequência e determinação de resíduos homólogos.
[0415] Será evidente para os versados na técnica que, a fim de di- recionar qualquer uma das proteínas de fusão compreendendo um do- mínio de Cas9 e uma citidina desaminase e adenosina desaminase, conforme divulgado neste documento, para um sítio alvo, por exemplo, um sítio compreendendo uma mutação a ser editada, é tipicamente ne- cessário coexpressar a proteína de fusão junto com um RNA guia, por exemplo, um sgRNA. Como explicado em mais detalhes em outra parte deste documento, um RNA guia tipicamente compreende uma estrutura de quadro de tracrRNA que permite a ligação de Cas9, e uma sequência guia, que confere especificidade de sequência à proteína de fusão de domínio/enzima de edição de ácido nucleico:Cas9. Alternativamente, o RNA guia e tracrRNA podem ser fornecido separadamente, como duas moléculas de ácido nucleico. Em algumas modalidades, o RNA guia compreende uma estrutura, em que a sequência guia compreende uma sequência que é complementar à sequência alvo. Sem pretensão de ser limitante, a sequência guia tem tipicamente 20 nucleotídeos de compri-
mento. As sequências de RNAs guia adequadas para direcionar proteí- nas de fusão de domínio/enzima de edição de ácido nucleico:Cas9 para sítios alvo genômicos específicos serão evidentes para aqueles versa- dos na técnica com base na presente divulgação. Essas sequências de RNA guia adequadas tipicamente compreendem as sequências guia que são complementares a uma sequência nucleica dentro de 50 nucle- otídeos a montante ou a jusante do nucleotídeo alvo a ser editado. Al- gumas sequências de RNA guia exemplificativas adequadas para dire- cionar qualquer uma das proteínas de fusão fornecidas para sequências alvo específicas são providas neste documento. Métodos para Editar Ácidos Nucleicos
[0416] Alguns aspectos da divulgação proveem métodos para editar um ácido nucleico. Em algumas modalidades, o método é um método para editar uma nucleobase de um ácido nucleico (por exemplo, um par de bases de uma sequência de DNA de cadeia dupla). Em algumas mo- dalidades, o método compreende as etapas de: a) contactar uma região alvo de um ácido nucleico (por exemplo, uma sequência de DNA de ca- deia dupla) com um complexo compreendendo um editor de base (por exemplo, um domínio de Cas9 fundido a uma citidina desaminase e ade- nosina desaminase) e um ácido nucleico guia (por exemplo, gRNA), em que a região alvo compreende um par de nucleobase direcionado, b) induzir separação de cadeia da referida região alvo, c) converter uma primeira nucleobase do referido par de nucleobases alvo em uma cadeia simples da região alvo em uma segunda nucleobase, e d) cortar não mais do que uma cadeia da referida região alvo, em que uma terceira nucleobase complementar à primeira base de nucleobase é substituída por uma quarta nucleobase complementar à segunda nucleobase. Em algumas modalidades, o método resulta em menos de 20% da formação de indel no ácido nucleico. Deve ser apreciado que, em algumas moda- lidades, a etapa b é omitida. Em algumas modalidades, o método resulta em menos de 19%, 18%, 16%, 14%, 12%, 10%, 8%, 6%, 4%, 2%, 1%, 0,5%, 0,2%, ou menos de 0,1% da formação de indel. Em algumas mo- dalidades, o método ainda compreende a substituição de uma segunda nucleobase por uma quinta nucleobase que é complementar à quarta nucleobase, gerando assim um par de bases editado pretendido (por exemplo, G•C a A•T). Em algumas modalidades, pelo menos 5% dos pares de bases pretendidos são editados. Em algumas modalidades, pelo menos 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, ou 50% dos pares de bases pretendidos são editados.
[0417] Em algumas modalidades, a proporção de produtos preten- didos para produtos não pretendidos no nucleotídeo alvo é pelo menos 2:1, 5:1, 10:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1 ou 200:1 ou mais. Em algumas modalidades, a razão entre a mutação pre- tendida e a formação de indel é maior que 1:1, 10:1, 50:1, 100:1, 500:1 ou 1000:1, ou mais. Em algumas modalidades, a cadeia simples cortada (cadeia cortada) é hibridizada com o ácido nucleico guia. Em algumas modalidades, a cadeia simples cortada é oposta à cadeia compreen- dendo a primeira nucleobase. Em algumas modalidades, o editor de base compreende um domínio de Cas9. Em algumas modalidades, o editor de base protege ou se liga à cadeia não editada. Em algumas modalidades, o editor de base compreende atividade de nickase. Em algumas modalidades, o par de bases editado pretendido está a mon- tante de um sítio PAM. Em algumas modalidades, o par de bases edi- tado pretendido está 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a montante do sítio PAM. Em algumas modalidades, o par de bases editado pretendido está a jusante de um sítio PAM. Em algumas modalidades, o par de bases editado pretendido está 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a jusante do sítio PAM. Em algumas modalidades, o mé-
todo não requer um sítio PAM canônico (por exemplo, NGG). Em algu- mas modalidades, o editor de nucleobase compreende um ligante. Em algumas modalidades, o ligante tem 1-25 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 5-20 aminoácidos de compri- mento. Em algumas formas, o ligante tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 aminoácidos de comprimento. Em uma modalidade, o li- gante tem 32 aminoácidos de comprimento. Em outra modalidade, um “ligante longo” tem pelo menos cerca de 60 aminoácidos de compri- mento. Em outras modalidades, o ligante tem entre cerca de 3-100 ami- noácidos de comprimento. Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobases alvo. Em algumas modalidades, a janela alvo compre- ende de 1 a 10 nucleotídeos. Em algumas modalidades, a janela alvo tem 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2 ou 1 nucleotídeo de compri- mento. Em algumas modalidades, a janela alvo tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos de compri- mento. Em algumas modalidades, o par de bases editado pretendido está dentro da janela alvo. Em algumas modalidades, a janela alvo com- preende o par de bases editado pretendido. Em algumas modalidades, o método é executado usando qualquer um dos editores de base provi- dos neste documento.
[0418] Em algumas modalidades, a divulgação provê métodos para editar um nucleotídeo. Em algumas modalidades, a divulgação provê um método para editar um par de nucleobases de uma sequência de DNA de cadeia dupla. Em algumas modalidades, o método compreende a) colocar uma região alvo da sequência de DNA de cadeia dupla em contato com um complexo compreendendo um editor de base e um ácido nucleico guia (por exemplo, gRNA), em que a região alvo compre- ende um par de nucleobases alvo, b) induzir separação de cadeia da referida região alvo, c) converter uma primeira nucleobase do referido par de nucleobases alvo em uma cadeia simples da região alvo em uma segunda nucleobase, d) cortar não mais do que uma cadeia da referida região alvo, em que uma terceira nucleobase complementar à primeira nucleobase base é substituída por uma quarta nucleobase complemen- tar à segunda nucleobase, e a segunda nucleobase é substituída por uma quinta nucleobase que é complementar à quarta nucleobase, desse modo gerar um par de bases editado pretendido, em que a efici- ência de gerar o par de bases editado pretendido é pelo menos 5%. Deve ser apreciado que, em algumas modalidades, a etapa b é omitida.
Em algumas modalidades, pelo menos 5% dos pares de base pretendi- dos são editados.
Em algumas modalidades, pelo menos 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45% ou 50% dos pares de base pretendi- dos são editados.
Em algumas modalidades, o método causa menos de 19%, 18%, 16%, 14%, 12%, 10%, 8%, 6%, 4%, 2%, 1%, 0,5%, 0,2% ou menos de 0,1% de formação de indel.
Em algumas modalidades, a pro- porção entre o produto pretendido e produtos indesejados no nucleotí- deo alvo é pelo menos 2:1, 5:1, 10:1, 20:1, 30:1, 40:1, 50:1, 60:1, 70:1, 80:1, 90:1, 100:1 ou 200:1 ou mais.
Em algumas modalidades, a razão entre a mutação pretendida e a formação de indel é maior que 1:1, 10:1, 50:1, 100:1, 500:1 ou 1000:1, ou mais.
Em algumas modalidades, a ca- deia simples cortada é hibridizada com o ácido nucleico guia.
Em algu- mas modalidades, a cadeia simples cortada é oposta à cadeia compre- endendo uma primeira nucleobase.
Em algumas modalidades, o editor de nucleobase compreende atividade da nickase.
Em algumas modali- dades, o par de bases editado pretendido é a montante de um sítio PAM.
Em algumas modalidades, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a montante do sítio PAM.
Em algumas modalidades, o par de bases editado pretendido é a jusante de um sítio PAM.
Em algumas modalida- des, o par de bases editado pretendido é 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos a jusante do sítio PAM. Em algumas modalidades, o método não requer um sítio PAM canônico (por exemplo, NGG). Em algumas modalidades, o editor de nucleobase compreende um ligante. Em algumas modalidades, o ligante tem 1-25 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 5-20 aminoácidos de comprimento. Em algumas modalidades, o ligante tem 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 aminoácidos de compri- mento. Em algumas modalidades, a região alvo compreende uma janela alvo, em que a janela alvo compreende o par de nucleobases alvo. Em algumas modalidades, a janela alvo compreende 1 a 10 nucleotídeos. Em algumas modalidades, a janela alvo tem 1-9, 1-8, 1-7, 1-6, 1-5, 1-4, 1-3, 1-2 ou 1 nucleotídeo de comprimento. Em algumas modalidades, a janela alvo tem 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 ou 20 nucleotídeos de comprimento. Em algumas modalidades, o par de bases editado pretendido ocorre dentro da janela alvo. Em algumas modalidades, a janela alvo compreende o par de bases editado preten- dido. Em algumas modalidades, o editor de nucleobase é qualquer um dos editores de base providos neste documento. Expressão de Proteínas de Fusão em uma Célula Hospedeira
[0419] Proteínas de fusão da invenção podem ser expressas em virtualmente qualquer célula hospedeira de interesse, incluindo, mas sem limitação, bactérias, leveduras, fungos, insetos, plantas e células animais usando métodos de rotina conhecidos pelos versados na téc- nica. As proteínas de fusão são geradas ligando operacionalmente um ou mais polinucleotídeos que codificam um ou mais domínios tendo ati- vidade modificadora de nucleobase (por exemplo, uma adenosina de- saminase, citidina desaminase, DNA glicosilase) a um polinucleotídeo codificando uma napDNAbp para preparar um polinucleotídeo que codi- fica uma proteína de fusão da invenção. Em algumas modalidades, um polinucleotídeo codificando uma napDNAbp, e um DNA codificando um domínio tendo uma atividade modificadora de nucleobase podem ser fundidos, cada um, com um DNA codificando um domínio de ligação ou um parceiro de ligação deste, ou ambos os DNAs podem ser fundidos com um DNA codificando uma inteína de separação, em que o módulo de conversão de reconhecimento de sequência de ácido nucleico e a enzima conversora de base de ácido nucleico são traduzidos em uma célula hospedeira para formar um complexo. Nesses casos, um ligante e/ou um sinal de localização nuclear pode ser ligado a uma posição ade- quada de um de ou ambos os DNAs quando desejado.
[0420] Um DNA codificando uma proteína descrita neste documento pode ser obtido por qualquer método conhecido na técnica, tal como por síntese química da cadeia de DNA, por PCR, ou pelo método de Mon- tagem de Gibson. A vantagem de construir um DNA de comprimento total por síntese química ou uma combinação de método de PCR ou método de Montagem de Gibson é que os códons podem ser otimizados para garantir que a proteína de fusão seja expressa em alto nível em uma célula hospedeira. Códons otimizados podem ser selecionados usando o banco de dados de frequência de uso de código genético (http://www.kazusa.or.jp/codon/index.html), que é divulgado na página inicial do Kazusa DNA Research Institute. Uma vez obtidos, os polinu- cleotídeos que codificam as proteínas de fusão são incorporados em vetores de expressão adequados.
[0421] Vetores de expressão adequados incluem plasmídeos deri- vados de Escherichia coli (por exemplo, pBR322, pBR325, pUC12, pUC13); plasmídeos derivados de Bacillus subtilis (por exemplo, pUB110, pTP5, pC194); plasmídeos derivados de levedura (por exem- plo, pSH19, pSH15); plasmídeos adequados para expressão em células de inseto (por exemplo, pFast-Bac); plasmídeos adequados para ex- pressão em células de mamíferos (por exemplo, pA1-11, pXT1, pRc/CMV, pRc/RSV, pcDNAI/Neo); também bacteriófagos, tais como fago lambda e semelhantes; outros vetores que podem ser usados in- cluem vetores virais de inseto, tais como baculovírus e semelhantes (por exemplo, BmNPV, AcNPV); e vetores virais adequados para expressão em uma célula de mamífero, tal como retrovírus, vírus vaccinia, adeno- vírus e semelhantes.
[0422] Os polinucleotídeos codificando proteína de fusão são tipica- mente expressos sob o controle de um promotor adequado que é útil para expressão em uma célula hospedeira desejada. Por exemplo, quando o hospedeiro é uma célula animal, qualquer um dos seguintes promotores é usado: promotor SR alfa, promotor SV40, promotor LTR, promotor CMV (citomegalovírus), promotor RSV (vírus do sarcoma de Rous), MoMuLV (vírus da leucemia de camundongo Moloney) LTR, pro- motor HSV-TK (timidina quinase do herpes vírus simples) e similares são usados. Em uma modalidade, o promotor é promotor CMV ou pro- motor SR alfa. Quando a célula hospedeira é Escherichia coli, qualquer um dos seguintes promotores pode ser usado: promotor trp, promotor lac, promotor recA, promotor lambda PL, promotor lpp, promotor T7 e semelhantes. Quando o hospedeiro é do gênero Bacillus, qualquer um dos seguintes promotores pode ser usado: promotor SPO1, promotor SPO2, promotor penP e semelhantes. Quando o hospedeiro é uma le- vedura, qualquer um dos seguintes promotores pode ser usado: promo- tor Gal1/10, promotor PHO5, promotor PGK, promotor GAP, promotor ADH e semelhantes. Quando o hospedeiro é uma célula de inseto, qual- quer um dos seguintes promotores pode ser usado: promotor de polie- drina, promotor P10 e semelhantes. Quando o hospedeiro é uma célula vegetal, qualquer um dos seguintes promotores pode ser usado: promo- tor CaMV35S, promotor CaMV19S, promotor NOS e semelhantes.
[0423] Se desejado, o vetor de expressão também inclui qualquer um ou mais de um potenciador, sinal de splicing, terminador, sinal de adição polyA, um marcador de seleção (por exemplo, um gene de resis- tência à droga, gene complementar auxotrófico e semelhantes), ou uma origem de replicação.
[0424] Um RNA codificando um domínio de proteína descrito neste documento pode ser preparado, por exemplo, pela transcrição de um mRNA em um sistema de transcrição in vitro.
[0425] Uma proteína de fusão da invenção pode ser expressa pela introdução de um vetor de expressão que codifica uma proteína de fu- são em uma célula hospedeira, e cultivando a célula hospedeira. As cé- lulas hospedeiras úteis na invenção incluem células bacterianas, leve- duras, células de insetos, células de mamífero e semelhantes.
[0426] O gênero Escherichia inclui Escherichia coli K12.cndot.DH1 [Proc. Natl. Acad. Sci. USA, 60, 160 (1968)], Escherichia coli JM103 [Nucleic Acids Research, 9, 309 (1981)], Escherichia coli JA221 [Journal of Molecular Biology, 120, 517 (1978)], Escherichia coli HB101 [Journal of Molecular Biology, 41, 459 (1969)], Escherichia coli C600 [Genetics, 39, 440 (1954)] e semelhantes.
[0427] O gênero Bacillus inclui Bacillus subtilis M1114 [Gene, 24, 255 (1983)], Bacillus subtilis 207-21 [Journal of Biochemistry, 95, 87 (1984)] e semelhantes.
[0428] Levedura útil para expressar proteínas de fusão da invenção incluem Saccharomyces cerevisiae AH22, AH22R.sup.-, NA87-11A, DKD-5D, 20B-12, Schizosaccharomyces pombe NCYC1913, NCYC2036, Pichia pastoris KM71 e semelhantes são usadas.
[0429] Proteínas de fusão são expressas em células de inseto usando, por exemplo, vetores virais, tais como AcNPV. Células hospe- deiras de inseto incluem qualquer uma das seguintes linhagens celula- res: linhagem estabelecida derivada de larva de lagarta do repolho (cé- lula de Spodoptera frugiperda; célula Sf), células MG1 derivadas do in- testino médio de Trichoplusiani, High Five, células derivadas de um ovo de Trichoplusiani, células derivadas de Mamestra brassicae, células de- rivadas de Estigmena acrea e similares são utilizadas. Quando o vírus é BmNPV, células de uma linhagem derivada de Bombyx mori (célula N Bombyx mori; célula BmN) e semelhantes são utilizadas. As células Sf incluem, por exemplo, células Sf9 (ATCC CRL1711), célula Sf21 [todas acima, In Vivo, 13, 213-217 (1977)] e semelhantes.
[0430] No que diz respeito a insetos, larvas de Bombyx mori, Dro- sófila, grilo e semelhantes são usadas para expressar proteínas de fu- são [Nature, 315, 592 (1985)].
[0431] Linhagens celulares de mamíferos podem ser usadas para expressar proteínas de fusão. Essas linhagens celulares incluem célula COS-7 de macaco, célula Vero de macaco, célula de ovário de hamster chinês (CHO), célula CHO deficiente no gene dhfr, célula L de camun- dongo, célula AtT-20 de camundongo, célula de mieloma de camun- dongo, célula GH3 de rato, célula FL humana e semelhantes. São utili- zadas células-tronco pluripotentes, tais como célula iPS, célula ES e se- melhantes de seres humanos e outros mamíferos, e células cultivadas primárias preparadas a partir de diversos tecidos. Além disso, embrião de peixe-zebra, oócito de Xenopus e semelhantes também podem ser usados.
[0432] Células vegetais podem ser mantidas em cultura usando mé- todos bem conhecidos pelo versado na técnica. A cultura de células ve- getais envolve a suspensão de células cultivadas, calo, protoplasto, seg- mento de folha, segmento de raiz e semelhantes, que são preparadas a partir de várias plantas (por exemplo, arroz, trigo, milho, tomate, pepino, berinjela, cravos, Eustoma russellianum, tabaco, Arabidopsis thaliana a.
[0433] Todas as células hospedeiras acima mencionadas podem ser haploides (monoploides), ou poliploides (por exemplo, diploides, tri- ploides, tetraploides e semelhantes.
[0434] Vetores de expressão codificando uma proteína de fusão da invenção são introduzidos em células hospedeiras usando qualquer mé- todo de transfecção (por exemplo, usando lisozima, PEG, coprecipita- ção CaCl2, eletroporação, microinjeção, pistola de partículas, lipofecção, Agrobacterium e semelhantes). O método de transfecção é selecionado com base na célula hospedeira a ser transfectada. Escherichia coli pode ser transformada segundo os métodos descritos em, por exemplo, Proc. Natl. Acad. Sci. USA, 69, 2110 (1972), Gene, 17, 107 (1982) e seme- lhantes. Métodos para transduzir o gênero Bacillus são descritos em, por exemplo, Molecular & General Genetics, 168, 111 (1979).
[0435] Células de levedura são transduzidas usando métodos des- critos em, por exemplo, Methods in Enzimology, 194, 182-187 (1991), Proc. Natl. Acad. Sci. USA, 75, 1929 (1978) e semelhantes.
[0436] Células de insetos são transfectadas usando métodos des- critos em, por exemplo, Bio/Technology, 6, 47-55 (1988) e semelhantes.
[0437] Células de mamífero são transfectadas usando métodos descritos, por exemplo, em Cell Engineering volume adicional 8, New Cell Engineering Experiment Protocol, 263-267 (1995) (publicado por Shujunsha), e Virology, 52, 456 (1973).
[0438] Células compreendendo vetores de expressão da invenção são cultivadas de acordo com métodos conhecidos, que variam de acordo com o hospedeiro.
[0439] Por exemplo, quando células de Escherichia coli ou do gê- nero Bacillus são cultivadas, um meio líquido é usado. O meio contém preferencialmente uma fonte de carbono, fonte de nitrogênio, substân- cia inorgânica e outros componentes necessários para o crescimento do transformante. Exemplos da fonte de carbono incluem glicose, dex- trina, amido solúvel, sacarose e semelhantes; exemplos da fonte de ni- trogênio incluem substâncias inorgânicas ou orgânicas, tais como sais de amônio, sais de nitrato, licor de maceração de milho, peptona, case- ína, extrato de carne, bolo de soja, extrato de batata e semelhantes; e exemplos de substâncias inorgânicas incluem cloreto de cálcio, di-hidro- genofosfato de sódio, cloreto de magnésio e semelhantes. O meio tam- bém pode conter extrato de levedura, vitaminas, fatores de promoção de crescimento e semelhantes. O pH do meio é de preferência entre cerca de 5 a cerca de 8.
[0440] Como um meio para a cultura de Escherichia coli, por exem- plo, meio M9 contendo glicose, casaminoácido [Journal of Experiments in Molecular Genetics, 431-433, Cold Spring Harbor Laboratory, New York 1972] é usado. Escherichia coli são cultivadas geralmente a cerca de 15 a cerca de 43ºC. Quando necessário, aeração e agitação podem ser realizadas.
[0441] O gênero Bacillus é cultivado geralmente a cerca de 30 a cerca de 40ºC. Quando necessário, aeração e agitação são realizadas.
[0442] Exemplos de meios de cultura adequados para a cultura de levedura incluem meio mínimo Burkholder [Proc. Natl. Acad. Sci. USA, 77, 4505 (1980)], meio SD contendo 0,5% de casaminoácido [Proc. Natl. Acad. Sci. USA, 81, 5330 (1984)] e semelhantes. O pH do meio é de preferência cerca de 5 a cerca de 8. A cultura é realizada geralmente a cerca de 20ºC a cerca de 35ºC. Quando necessário, aeração e agitação podem ser realizadas.
[0443] Como um meio para a cultura de uma célula de inseto ou inseto, Meio de Inseto de Grace (Nature, 195, 788 (1962)) contendo um aditivo, tal como soro bovino a 10% inativado e similares são usados. O pH do meio é de preferência cerca de 6,2 a cerca de 6,4. As células são cultivadas a cerca de 27ºC. Quando necessário, aeração e agitação po- dem ser realizadas.
[0444] As células de mamífero são cultivadas, por exemplo, em qualquer meio essencial mínimo (MEM) contendo cerca de 5 a cerca de 20% de soro fetal bovino (Science, 122, 501 (1952)), meio de Eagle mo- dificado de Dulbecco (DMEM) (Virology, 8, 396 (1959)), meio RPMI
1640 (The Journal of the American Medical Association, 199, 519 (1967)), meio 199 (Proceeding of the Society for the Biological Medicine, 73, 1 (1950)) e semelhantes. O pH do meio é de preferência cerca de 6 a cerca de 8. A cultura é realizada a cerca de 30ºC a cerca de 40ºC. Quando necessário, aeração e agitação podem ser realizadas.
[0445] Como meio de cultura de células vegetais, por exemplo, meio MS, meio LS, meio B5 e semelhantes são usados. O pH do meio é de preferência cerca de 5 a cerca de 8. A cultura é realizada geral- mente a cerca de 20ºC a cerca de 30ºC. Quando necessário, aeração e agitação podem ser realizadas.
[0446] A expressão da proteína de fusão pode ser regulada usando um promotor indutível (por exemplo, promotor de metalotioneína (indu- zido por íon de metal pesado), promotor de proteína de choque térmico (induzido por choque térmico), promotor de sistema Tet-ON/Tet-OFF (induzido por adição ou remoção de tetraciclina ou um derivado desta), promotor responsivo a esteroides (induzido por hormônio esteroide ou um derivado deste etc.), o agente de indução é adicionado ao meio (ou retirado do meio) em estágio apropriado para induzir expressão da pro- teína de fusão.
[0447] Células procarióticas, tais como Escherichia coli e semelhan- tes, podem utilizar um promotor indutivo. Exemplos dos promotores in- dutíveis incluem, mas sem limitação, promotor lac (induzido por IPTG), promotor cspA (induzido por choque frio), promotor araBAD (induzido por arabinose) e semelhantes. Sistemas de Entrega
[0448] Ácidos nucleicos codificando editores de nucleobase multi- efetores de acordo com a presente divulgação podem ser administrados a indivíduos ou entregues em células por métodos conhecidos na téc- nica ou conforme descrito neste documento. Por exemplo, editores de nucleobase multiefetores podem ser entregues por, por exemplo, veto- res (por exemplo, vetores virais ou não virais), métodos não baseados em vetor (por exemplo, usando DNA nu ou complexos de DNA), ou uma combinação dos mesmos.
[0449] Um editor de nucleobase multiefetor como divulgado neste documento pode ser codificado em um ácido nucleico que está contido em um vetor viral. Vetores virais exemplificativos incluem vetores retro- virais (por exemplo, vírus da leucemia murina de Maloney, MML-V), ve- tores adenovirais (por exemplo, AD100), vetores lentivirais (por exem- plo, vetores baseados em HIV e FIV), vetores de herpesvírus (por exem- plo, HSV-2), e vetores virais adenoassociados. Vetores Virais Adenoassociados (AAVs)
[0450] Vetores de vírus adenoassociados (“AAV”) também podem ser usados para transdução de células com ácidos nucleicos alvo, por exemplo, na produção in vitro de ácidos nucleicos e peptídeos, e para procedimentos de terapia gênica in vivo e ex vivo (vide, por exemplo, West et al., Virology 160:38-47 (1987); Patente dos EUA Nº. 4.797.368; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994). A construção de vetores AAV recombinantes é descrita em um número de publicações, incluindo a Patente dos EUA Nº. 5.173.414; Tratschin et al., Mol. Cell. Biol. 5: 3251- 3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4: 2072-2081 (1984); Her- monat & Muzyczka, PNAS 81: 6466-6470 (1984); e Samulski et al., J. Virol. 63: 03822-3828 (1989).
[0451] Em termos de entrega in vivo, AAV pode ser vantajoso em relação a outros vetores virais. Em algumas modalidades, os vetores AAV têm baixa toxicidade. Pode ocorrer toxicidade quando os métodos de purificação não requerem ultracentrifugação de partículas celulares que podem ativar uma resposta imune. Em algumas modalidades, os vetores AAV têm baixa probabilidade de causar mutagênese por inser- ção porque não se integram ao genoma do hospedeiro.
[0452] AAV é um pequeno vírus dependente de DNA de cadeia sim- ples pertencente à família dos parvovírus. O genoma do AAV de 4,7 kb de tipo selvagem (wt) é composto de dois genes que codificam quatro proteínas de replicação e três proteínas de capsídeo, respectivamente, e é flanqueado em ambos os lados por repetições terminais invertidas (ITRs) de 145 bp. O vírion é composto por três proteínas de capsídeo, Vp1, Vp2 e Vp3, produzidas na proporção de 1:1:10 a partir do mesmo quadro de leitura aberto, mas a partir de splicing diferencial (Vp1) e sí- tios de início de tradução alternativos (Vp2 e Vp3, respectivamente). Vp3 é a subunidade mais abundante no vírion e participa do reconheci- mento do receptor na superfície da célula, definindo assim o tropismo do vírus. Um domínio de fosfolipase, que contribui para a infecciosidade viral, foi identificado no terminal N único de Vp1.
[0453] AAV tem um limite de empacotamento de 4,5 ou 4,75 Kb. Portanto, um editor de nucleobase multiefetor divulgado, bem como um promotor e terminador de transcrição, podem ser abrigados em um único vetor viral. Constructos maiores que 4,5 ou 4,75 Kb podem levar a uma redução significativa da produção de vírus. Por exemplo, SpCas9 é bem grande, o próprio gene tem mais de 4,1 Kb, o que dificulta o em- pacotamento em AAV. Portanto, modalidades da presente divulgação incluem a utilização de um editor de base divulgado que é mais curto em comprimento do que os editores de base convencionais. Em alguns exemplos, os editores de base têm menos de 4 kb. Editores de base divulgados podem ter menos de 4,5 kb, 4,4 kb, 4,3 kb, 4,2 kb, 4,1 kb, 4 kb, 3,9 kb, 3,8 kb, 3,7 kb, 3,6 kb, 3,5 kb, 3,4 kb, 3,3 kb, 3,2 kb, 3,1 kb, 3 kb, 2,9 kb, 2,8 kb, 2,7 kb, 2,6 kb, 2,5 kb, 2 kb, ou 1,5 kb. Em algumas modalidades, os editores base divulgados têm 4,5 kb ou menos de com- primento.
[0454] Um AAV pode ser AAV1, AAV2, AAV5 ou qualquer combina- ção dos mesmos. Pode-se selecionar o tipo de AAV em relação às cé- lulas a serem direcionadas. Por exemplo, pode-se selecionar os seróti- pos 1, 2, 5 de AAV ou um capsídeo híbrido AAV1, AAV2, AAV5 ou qual- quer combinação dos mesmos para direcionar células cerebrais ou neu- ronais; e pode-se selecionar AAV4 para direcionar o tecido cardíaco. AAV8 é útil para administração ao fígado. Uma tabulação de certos se- rótipos de AAV quanto a essas células pode ser encontrada em Grimm, D. et al, J. Virol. 82:5887-5911 (2008)).
[0455] Semelhante a AAV wt, AAV recombinante (rAAV) utiliza os ITRs de 145-bp de ação cis para flanquear cassetes de transgene de vetor, fornecendo até 4,5 kb para empacotar DNA estranho. Subsequen- temente à infecção, o rAAV pode expressar uma proteína de fusão da invenção e persistir sem integração no genoma do hospedeiror existindo epissomalmente em concatêmeros circulares cabeça-a-cauda. Embora existam inúmeros exemplos de sucesso de rAAV usando esse sistema, in vitro e in vivo, a capacidade de empacotamento limitada tem limitado o uso de entrega de genes mediada por AAV quando o comprimento da sequência de derivados do gene é igual ou maior em tamanho que o genoma de AAV wt.
[0456] A pequena capacidade de empacotamento de vetores AAV torna desafiadora a entrega de um número de genes que excedem esse tamanho e/ou o uso de grandes elementos reguladores fisiológicos. Es- ses desafios podem ser resolvidos, por exemplo, dividindo a(s) prote- ína(s) a ser(em) entregue(s) em dois ou mais fragmentos, usando, por exemplo, um sistema de inteína dividido. Inteínas
[0457] Inteínas (proteínas intervenientes) são domínios de autopro- cessamento encontrados em uma variedade de organismos diversos,
que realizam um processo conhecido como splicing de proteínas. O spli- cing de proteínas é uma reação bioquímica de várias etapas que com- preende tanto a clivagem quanto a formação de ligações peptídicas. Embora os substratos endógenos de splicing de proteínas sejam prote- ínas encontradas em organismos que contêm inteína, as inteínas tam- bém podem ser usadas para quimicamente manipular praticamente qualquer estrutura principal de polipeptídeo.
[0458] No splicing de proteínas, a inteína extirpa-se de um polipep- tídeo precursor clivando duas ligações peptídicas, ligando assim as se- quências de exteína flanqueadora (proteína externa) por meio da forma- ção de uma nova ligação peptídica. Esse rearranjo ocorre pós-tradução (ou possivelmente cotradução). O splicing de proteína mediado por in- teína ocorre espontaneamente, exigindo apenas o dobramento do do- mínio de inteína.
[0459] Cerca de 5% das inteínas são inteínas divididas, que são transcritas e traduzidas como dois polipeptídeos separados, a N-inteína e C-inteína, cada uma fundida a uma exteína. Após a tradução, os frag- mentos de inteína espontaneamente e não covalentemente montam na estrutura canônica de inteína para realizar o splicing da proteína em trans. O mecanismo de splicing de proteínas envolve uma série de rea- ções de transferência de acil que resultam na clivagem de duas ligações peptídicas nas junções inteína-exteína e a formação de uma nova liga- ção peptídica entre as N- e C-exteínas. Esse processo é iniciado pela ativação da ligação peptídica que une a N-exteína e o terminal N da inteína. Praticamente todas as inteínas têm uma cisteína ou serina em seu terminal N que ataca o carbono carbonil do resíduo de N-exteína C- terminal. Esse deslocamento de acil de N para O/S é facilitado por uma treonina e histidina conservada (referida como o motivo TXXH), junto com um aspartato comumente encontrado, que resulta na formação de um intermediário de (tio)éster linear. Em seguida, esse intermediário é submetido a trans-(tio)esterificação por ataque nucleofílico do primeiro resíduo de C-exteína (+1), que é uma cisteína, serina ou treonina. O intermediário de (tio)éster ramificado resultante é resolvido por meio de uma transformação única: ciclização da asparagina C-terminal alta- mente conservada da inteína. Esse processo é facilitado pela histidina (encontrada em um motivo HNF altamente conservado) e a penúltima histidina e também pode envolver o aspartato. Essa reação de formação de succinimida extirpa a inteína do complexo reativo e deixa para trás as exteínas anexadas através de uma ligação não peptídica. Essa es- trutura se reorganiza rapidamente em uma ligação peptídica estável de maneira independente de inteína.
[0460] Em algumas modalidades, um fragmento N-terminal de um editor de base (por exemplo, ABE, CBE) é fundido a uma inteína-N divi- dida e um fragmento C-terminal é fundidos a uma inteína-C dividida. Esses fragmentos são então empacotados em dois ou mais vetores AAV. O uso de certas inteínas para unir fragmentos de proteínas hete- rólogas é descrito, por exemplo, em Wood et al., J. Biol. Chem. 289(21); 14512-9(2014). Por exemplo, quando fundidas a fragmentos de proteína separados, as inteínas IntN e IntC se reconhecem, se emendam e si- multaneamente ligam as exteínas N- e C-terminais flanqueadoras dos fragmentos de proteína aos quais foram fundidos, reconstituindo assim uma proteína de comprimento total dos dois fragmentos de proteína. Outras inteínas adequadas serão evidentes para um versado na técnica.
[0461] Três regiões de spCas9 foram selecionadas, em que a pro- teína de fusão ABE foi dividida em fragmentos N- e C- terminais em resíduos Ala, Ser, Thr ou Cys dentro de regiões selecionadas de SpCas9. Essas regiões correspondem às regiões de alça identificadas pela análise da estrutura de cristal Cas9. O terminal N de cada frag- mento foi fundido a uma inteína-N e o terminal C de cada fragmento foi fundido a uma inteína C nas posições de aminoácido S303, T310, T313,
S355, A456, S460, A463, T466, S469, T472, T474, C574, S577, A589 e S590, que são indicadas em caixa-alta e negrito na sequência abaixo. 1 mdkkysigld igtnsvgwav itdeykvpsk kfkvlgntdr hsikknliga llfdsgetae 61 atrlkrtarr rytrrknric ylqeifsnem akvddsffhr leesflveed kkherhpifg 121 nivdevayhe kyptiyhlrk klvdstdkad lrliylalah mikfrghfli egdlnpdnsd 181 vdklfiqlvq tynqlfeenp inasgvdaka ilsarlsksr rlenliaqlp gekknglfgn 241 lialslgltp nfksnfdlae daklqlskdt ydddldnlla qigdqyadlf laaknlsdai 301 llSdilrvnT eiTkaplsas mikrydehhq dltllkalvr qqlpekykei ffdqSkngya 361 gyidggasqe efykfikpil ekmdgteell vklnredllr kqrtfdngsi phqihlgelh 421 ailrrqedfy pflkdnreki ekiltfripy yvgplArgnS rfAwmTrkSe eTiTpwnfee 481 vvdkgasaqs fiermtnfdk nlpnekvlpk hsllyeyftv yneltkvkyv tegmrkpafl 541 sgeqkkaivd llfktnrkvt vkqlkedyfk kieCfdSvei sgvedrfnAS lgtyhdllki 601 ikdkdfldne enedilediv ltltlfedre mieerlktya hlfddkvmkq lkrrrytgwg 661 rlsrklingi rdkqsgktil dflksdgfan rnfmqlihdd sltfkediqk aqvsgqgdsl 721 hehianlags paikkgilqt vkvvdelvkv mgrhkpeniv iemarenqtt qkgqknsrer 781 mkrieegike lgsqilkehp ventqlqnek lylyylqngr dmyvdqeldi nrlsdydvdh 841 ivpqsflkdd sidnkvltrs dknrgksdnv pseevvkkmk nywrqllnak litqrkfdnl 901 tkaergglse ldkagfikrq lvetrqitkh vaqildsrmn tkydendkli revkvitlks 961 klvsdfrkdf qfykvreinn yhhahdayln avvgtalikk ypklesefvy gdykvydvrk 1021 miakseqeig katakyffys nimnffktei tlangeirkr plietngetg eivwdkgrdf 1081 atvrkvlsmp qvnivkktev qtggfskesi lpkrnsdkli arkkdwdpkk yggfdsptva 1141 ysvlvvakve kgkskklksv kellgitime rssfeknpid fleakgykev kkdliiklpk 1201 yslfelengr krmlasagel qkgnelalps kyvnflylas hyeklkgspe dneqkqlfve 1261 qhkhyldeii eqisefskrv iladanldkv lsaynkhrdk pireqaenii hlftltnlga 1321 paafkyfdtt idrkrytstk evldatlihq sitglyetri dlsqlggd
[0462] Um fragmento de uma proteína de fusão da invenção pode variar em comprimento. Em algumas modalidades, um fragmento de proteína varia de 2 aminoácidos a cerca de 1000 aminoácidos de com- primento. Em algumas modalidades, um fragmento de proteína varia de cerca de 5 aminoácidos a cerca de 500 aminoácidos de comprimento. Em algumas modalidades, um fragmento de proteína varia de cerca de 20 aminoácidos a cerca de 200 aminoácidos de comprimento. Em algu- mas modalidades, um fragmento de proteína varia de cerca de 10 ami- noácidos a cerca de 100 aminoácidos de comprimento. Fragmentos de proteína adequados de outros comprimentos serão evidentes para um versado na técnica.
[0463] Em algumas modalidades, uma porção ou fragmento de uma nuclease (por exemplo, Cas9) é fundido a uma inteína. A nuclease pode ser fundida ao N-terminal ou C-terminal da inteina. Em algumas moda- lidades, uma porção ou fragmento de uma proteína de fusão é fundido a uma inteína e fundido a uma proteína de capsídeo AAV. A inteína, nuclease e proteína de capsídeo podem ser fundidos em qualquer ar- ranjo (por exemplo, nuclease-inteína-capsídeo, inteína-nuclease-capsí- deo, capsídeo-inteína-nuclease etc.). Em algumas modalidades, o ter- minal N de uma inteína é fundido ao C-terminal de uma proteína de fu- são e o terminal C de inteína é fundido ao terminal N de uma proteína de capsídeo AAV.
[0464] Em uma modalidade, vetores AAV duplos são gerados pela divisão de um grande cassete de expressão de transgene em duas me- tades separadas (extremidades 5′ e 3′, ou cabeça e cauda), em que cada metade do cassete é empacotada em um único vetor AAV (de <5 kb). A remontagem do cassete de expressão de transgene de compri- mento total é então alcançada após a coinfecção da mesma célula por ambos os vetores AAV duplos seguido por: (1) recombinação homóloga (HR) entre genomas 5′ e 3′ (sobreposição de vetores AAV duplos); (2) concatemerização cauda-a-cabeça mediada por ITR de genomas 5’ e 3’ (vetores de trans-splicing de AAV duplos); ou (3) uma combinação desses dois mecanismos (vetores híbridos AAV duplos). O uso de veto- res AAV duplos in vivo resulta na expressão de proteínas de compri- mento total. O uso da plataforma de vetores AAV duplos representa uma estratégia eficiente e viável de transferência de genes para transgenes com tamanho > 4,7 kb. Outros Vetores Virais
[0465] O uso de sistemas baseados em RNA ou DNA viral para a entrega de um editor de base aproveita os processos altamente evoluí- dos para direcionar um vírus para células específicas em cultura ou no hospedeiro e trafegar a carga viral para o núcleo ou genoma da célula hospedeira. Os vetores virais podem ser administrados diretamente a células em cultura, pacientes (in vivo), ou podem ser usados para tratar células in vitro, e as células modificadas podem ser opcionalmente ad- ministradas a pacientes (ex vivo). Os sistemas convencionais baseados em vírus podem incluir vetores de vírus retrovirais, lentivírus, adenovi- rais, adenoassociados e herpes simplex para transferência de genes. A integração no genoma do hospedeiro é possível com os métodos de transferência de genes de retrovírus, lentivírus e adenoassociados, mui- tas vezes resultando na expressão de longo prazo do transgene inse- rido. Além disso, altas eficiências de transdução foram observadas em diversos tipos de células e tecidos alvo.
[0466] As estratégias divulgadas para projetar editores de base po- dem ser úteis para gerar editores de base capazes de serem empaco- tados em um vetor viral. O uso de sistemas baseados em RNA ou DNA viral para a entrega de um editor de base aproveita os processos alta- mente evoluídos para direcionar um vírus para células específicas em cultura ou no hospedeiro e trafegar a carga útil viral para o núcleo ou genoma da célula hospedeira. Os vetores virais podem ser administra- dos diretamente a células em cultura, pacientes (in vivo), ou podem ser usados para tratar células in vitro, e as células modificadas podem ser opcionalmente administradas a pacientes (ex vivo). Os sistemas con- vencionais baseados em vírus podem incluir vetores de vírus retrovirais, lentivirais, adenovirais, adenoassociados e herpes simplex para trans- ferência de genes. A integração no genoma do hospedeiro é possível com os métodos de transferência de genes de retrovírus, lentivírus e adenoassociados, muitas vezes resultando na expressão de longo prazo do transgene inserido. Além disso, altas eficiências de transdução foram observadas em diversos tipos de células e tecidos alvo.
[0467] O tropismo de um retrovírus pode ser alterado pela incorpo- ração de proteínas de envelope estranhas, expandindo a população alvo potencial de células alvo. Vetores lentivirais são vetores retrovirais capazes de transduzir ou infectar células que não se dividem e tipica- mente produzem altos títulos virais. A seleção de um sistema de trans- ferência de gene retroviral dependeria, portanto, do tecido alvo. Os ve- tores retrovirais são compostos de repetições terminais longas de ação cis com capacidade de empacotamento para até 6-10 kb de sequência estrangeira. Os LTRs de ação cis mínimos são suficientes para a repli- cação e empacotamento de vetores, que são então usados para integrar o gene terapêutico na célula alvo para fornecer expressão de transgene permanente. Vetores retrovirais amplamente utilizados incluem aqueles baseados no vírus da leucemia murina (MuLV), vírus da leucemia do macaco gibão (GaLV), vírus da imunodeficiência símia (SIV), vírus da imunodeficiência humana (HIV) e suas combinações (Vide, por exem- plo, Buchscher et al., J. Virol. 66:2731-2739 (1992); Johann et al., J. Virol. 66:1635-1640 (1992); Sommnerfelt et al., Virol. 176:58-59 (1990); Wilson et al., J. Virol. 63: 2374-2378 (1989); Miller et al., J. Virol. 65: 2220-2224 (1991); PCT/US94/05700).
[0468] Vetores retrovirais, especialmente vetores lentivirais, podem exigir sequências de polinucleotídeo menores do que um determinado comprimento para integração eficiente em uma célula alvo. Por exem- plo, vetores retrovirais de comprimento maior do que 9 kb podem resul- tar em títulos virais baixos em comparação com aqueles de tamanho menor. Em alguns aspectos, um editor de base da presente divulgação é de tamanho suficiente de modo a permitir o empacotamento e entrega eficiente em uma célula alvo através de um vetor retroviral. Em alguns casos, um editor de base é de um tamanho de modo a permitir um em- pacotamento e entrega eficiente, mesmo quando expresso em conjunto com um ácido nucleico guia e/ou outros componentes de um sistema de nuclease direcionável.
[0469] Em aplicações em que expressão transiente é preferida, sis- temas baseados em adenovirais podem ser usados. Vetores baseados em adenovirais são capazes de eficiência de transdução muito alta em vários tipos de células e não requerem divisão celular. Com tais vetores, altos títulos e níveis de expressão foram obtidos. Esse vetor pode ser produzido em grandes quantidades em um sistema relativamente sim- ples. Os vetores de vírus adenoassociado (“AAV”) também podem ser usados para transduzir células com ácidos nucleicos alvo, por exemplo, na produção in vitro de ácidos nucleicos e peptídeos, e para procedi- mentos de terapia gênica in vivo e ex vivo (Vide, por exemplo, West et al., Virology 160:38-47 (1987); Patente dos EUA Nº. 4.797.368; WO 93/24641; Kotin, Human Gene Therapy 5:793-801 (1994); Muzyczka, J. Clin. Invest. 94:1351 (1994). A construção de vetores AAV recombinan- tes é descrita em uma série de publicações, incluindo a Patente dos EUA Nº. 5.173.414; Tratschin et al., Mol. Cell. Biol. 5:3251-3260 (1985); Tratschin, et al., Mol. Cell. Biol. 4:2072-2081 (1984); Hermonat & Muzyczka, PNAS 81:6466-6470 (1984); e Samulski et al., J. Virol. 63:03822-3828 (1989).
[0470] Um editor de nucleobase multiefetor aqui descrito pode, por- tanto, ser entregue com vetores virais. Um ou mais componentes do sistema de editor de base podem ser codificados em um ou mais vetores virais. Por exemplo, o editor de base e o ácido nucleico guia podem ser codificados em um único vetor viral. Em outros casos, o editor de base e o ácido nucleico guia são codificados em diferentes vetores virais. Em ambos os casos, o editor de base e o ácido nucleico guia podem ser operativamente ligados a um promotor e terminador.
[0471] A combinação de componentes codificados em um vetor viral pode ser determinada pelas restrições de tamanho de carga do vetor viral escolhido.
[0472] Qualquer promotor adequado pode ser usado para conduzir a expressão do editor de base e, quando apropriado, o polinucleotídeo guia. Para expressão ubíqua, os promotores que podem ser usados incluem promotores para CMV, CAG, CBh, PGK, SV40, cadeias pesa- das ou leves de ferritina etc. Para expressão de células cerebrais ou do CNS, promotores adequados podem incluir: SynapsinI para todos os neurônios, promotor CaMKIIalfa para neurônios excitatórios, promotor GAD67, GAD65 ou VGAT para neurônios GABAérgicos, etc. Para ex- pressão de células hepáticas, os promotores adequados incluem o pro- motor de albumina. Para expressão de células pulmonares, os promo- tores adequados podem incluir o promotor SP-B. Para células endoteli- ais, os promotores adequados podem incluir o promotor ICAM. Para cé- lulas hematopoiéticas, os promotores adequados podem incluir o pro- motor IFNbeta ou CD45. Para Osteoblastos, os promotores adequados podem incluir o promotor OG-2.
[0473] Um promotor usado para conduzir a expressão da molécula de ácido nucleico que codifica o editor de base pode incluir AAV ITR. Isso pode ser vantajoso para eliminar a necessidade de um elemento promotor adicional, que pode ocupar espaço no vetor. O espaço adicio- nal liberado pode ser usado para conduzir a expressão de elementos adicionais, tais como um ácido nucleico guia ou um marcador selecio- nável. A atividade de ITR é relativamente fraca, então pode ser usado para reduzir a toxicidade potencial devido à superexpressão da nu- clease escolhida.
[0474] Em algumas modalidades, um editor de base da presente di- vulgação é de tamanho pequeno o suficiente para permitir que promo- tores separados conduzam a expressão do editor de base e um polinu- cleotídeo guia compatível dentro da mesma molécula de ácido nucleico. Por exemplo, um vetor ou vetor viral pode compreender um primeiro promotor operacionalmente ligado a um ácido nucleico codificando o editor de base e um segundo promotor operacionalmente ligado ao ácido nucleico guia.
[0475] O promotor usado para dirigir a expressão de um polinucle- otídeo guia pode incluir: Promotores Pol III, tais como U6 ou H1. Uso do promotor Pol II e cassetes intrônicos para expressar Vírus Adenoasso- ciado a gRNA (AAV).
[0476] Um editor de nucleobase multiefetor aqui descrito com ou sem um ou mais ácidos nucleicos guia podem ser entregues usando vírus adenoassociados (AAV), lentivírus, adenovírus ou outros plasmí- deos ou tipos de vetores virais, em particular, usando formulações e do- ses, por exemplo, da Patente dos EUA Nº. 8.454.972 (formulações, do- ses para adenovírus), Patente dos EUA Nº. 8.404.658 (formulações, do- ses para AAV), Patente dos EUA Nº. 5.846.946 (formulações, doses para plasmídeos de DNA), e de ensaios clínicos e publicações sobre os ensaios clínicos envolvendo lentivírus, AAV e adenovírus. Por exemplo, para AAV, a via de administração, formulação e dose pode ser como na Patente dos EUA Nº. 8.454.972 e como em ensaios clínicos envolvendo AAV. Para adenovírus, a via de administração, formulação e dose po- dem ser como na Patente dos EUA Nº. 8.404.658 e como em ensaios clínicos envolvendo adenovírus. Para a entrega de plasmídeo, a via de administração, formulação e dose pode ser como na Patente dos EUA Nº. 5.846.946 e como em estudos clínicos envolvendo plasmídeos. As doses podem ser baseadas em ou extrapoladas para um indivíduo mé- dio de 70 kg (por exemplo, um homem adulto do sexo masculino), e podem ser ajustadas para pacientes, indivíduos, mamíferos de diferen- tes pesos e espécies. A frequência de administração está dentro do âm- bito do médico ou veterinário (por exemplo, médico, veterinário), depen- dendo de fatores usuais, incluindo a idade, sexo, saúde geral, outras condições do paciente ou do indivíduo e a condição particular ou sinto- mas sendo tratados. Os vetores virais podem ser injetados no tecido de interesse. Para edição de base específica de tipo celular, a expressão do editor de base e ácido nucleico guia opcional pode ser conduzida por um promotor específico do tipo celular.
[0477] Lentivírus são retrovírus complexos que têm a capacidade de infectar e expressar seus genes em células mitóticas e pós-mitóticas. O lentivírus mais conhecido é o vírus da imunodeficiência humana (HIV), que usa as glicoproteínas do envelope de outros vírus para atingir uma ampla gama de tipos de células.
[0478] Os lentivírus podem ser preparados da seguinte forma. Após a clonagem de pCasES10, que contém um esqueleto de plasmídeo de transferência lentiviral, HEK293FT em baixa passagem (p = 5) são se- meados em frasco T-75 para confluência de 50% na véspera da trans- fecção em DMEM com 10% de soro fetal bovino e sem antibióticos. Após 20 horas, o meio é trocado por meio OptiMEM (sem soro) e a transfecção ocorre 4 horas depois. As células são transfectadas com 10 µg de plasmídeo de transferência lentiviral (pCasES10) e os seguintes plasmídeos de empacotamento: 5 µg de pMD2.G (pseudótipo VSV-g), e 7,5 µg de psPAX2 (gag/pol/rev/tat). A transfecção pode ser feita em 4 ml OptiMEM com um agente de liberação de lipídio catiônico (50 µl de Lipofectamine 2000 e 100 µl de reagente Plus). Após 6 horas, o meio é trocado para DMEM sem antibiótico com 10% de soro fetal bovino. Es- ses métodos usam soro durante a cultura de células, mas os métodos sem soro são preferidos. O lentivírus pode ser purificado como segue. Os sobrenadantes virais são colhidos após 48 horas. Dos sobrenadan- tes, são primeiro eliminados os resíduos e filtrados através de um filtro de baixa ligação à proteína (PVDF) de 0,45 µm. Eles são então centri- fugados em uma ultracentrífuga por 2 horas a 24.000 rpm. Os péletes virais são ressuspensos em 50 µl de DMEM durante a noite a 4ºC. Eles são então aliquotados e imediatamente congelados a -80ºC.
[0479] Em outra modalidade, vetores lentivirais de não primata mí- nimos baseado no vírus da anemia infecciosa equina (EIAV) também são contemplados. Em outra modalidade, RETINOSTAT®., um vetor de terapia gênica lentiviral à base de vírus da anemia infecciosa equina que expressa as proteínas angiostáticas endostatina e angiostatina que é contemplado para ser entregue via injeção sub-retiniana. Em outra mo- dalidade, o uso de vetores lentivirais autoinativadores é contemplado.
[0480] Qualquer polinucleotídeo guia ou polinucleotídeo de codifi- cação de editor de base pode ser entregue a uma célula na forma de RNA. O mRNA do codificação de editor de base pode ser gerado por transcrição in vitro. Por exemplo, o mRNA de nuclease pode ser sinteti- zado usando um cassete de PCR contendo os seguintes elementos: promotor T7, sequência de Kozak opcional (GCCACC), sequência de nuclease, e 3’ UTR, tal como uma 3’ UTR da cauda beta globina-poliA. O cassete pode ser transcrito por polimerase T7. Os polinucleotídeos guia (por exemplo, gRNA) também podem ser transcritos usando trans- crição in vitro de um cassete contendo um promotor T7, seguido por uma sequência “GG,” e uma sequência de polinucleotídeo guia.
[0481] Para aumentar a expressão e reduzir a possível toxicidade, a sequência de codificação de editor de base e/ou o ácido nucleico guia podem ser modificados para incluir um ou mais nucleosídeos modifica- dos, por exemplo, um pseudo-U ou 5-Metil-C.
[0482] A divulgação, em algumas modalidades, engloba um método de modificar uma célula ou organismo. A célula pode ser uma célula procariótica ou eucariótica. A célula pode ser uma célula de mamífero. A célula de mamífero pode ser uma célula de primata não-humano, bo- vina, porcina, de roedor ou de camundongo. A modificação introduzida na célula pelos editores de base, composições e métodos da presente divulgação pode ser tal que a célula e progênie da célula são alteradas para produção melhorada de produtos biológicos, tais como um anti- corpo, amido, álcool ou outro resultado celular desejado. A modificação introduzida na célula pelos métodos da presente divulgação pode ser tal que a célula e progênie da célula incluam uma alteração que altera o produto biológico produzido.
[0483] O sistema pode compreender um ou mais vetores diferentes. Em um aspecto, o editor de base é otimizado em códon para expressão no tipo de célula desejado. Em algumas modalidades, o editor de base é expresso em uma célula eucariótica, tal como uma célula de mamífero ou uma célula humana.
[0484] Em geral, a otimização de códons se refere a um processo de modificação de uma sequência de ácido nucleico para expressão aprimorada nas células hospedeiras de interesse substituindo pelo me- nos um códon (por exemplo, cerca de ou mais de cerca de 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, ou mais códons) da sequência nativa com códons que são mais frequentemente ou mais frequentemente usados nos ge- nes daquela célula hospedeira, mantendo a sequência de aminoácido nativa. Várias espécies apresentam enviesamento para certos códons de um determinado aminoácido. O enviesamento de códons (diferenças no uso de códons entre organismos) muitas vezes se correlaciona com a eficiência de tradução do RNA mensageiro (mRNA), que por sua vez é considerado dependente, entre outras coisas, das propriedades dos códons sendo traduzidos e da disponibilidade de moléculas de RNA de transferência (tRNA) particulares. A predominância de tRNAs selecio- nados em uma célula é geralmente um reflexo dos códons usados com mais frequência na síntese de peptídeos. Consequentemente, os genes podem ser adaptados para a expressão de gene ideal em um determi- nado organismo com base na otimização de códons. As tabelas de uso de códons estão prontamente disponíveis, por exemplo, no “Banco de Dados de Uso de Códons” disponível em www.kazusa.orjp/codon/ (visi- tado em 9 de julho de 2002), e essas tabelas podem ser adaptadas de várias maneiras. Vide Nakamura, Y., et al. “Codon usage tabulated from the international DNA sequence databases: status for the year 2000”
Nucl. Acids Res. 28:292 (2000). Algoritmos de computador para otimi- zação de códons de uma determinada sequência para expressão em uma determinada célula hospedeira também estão disponíveis, como Gene Forge (Aptagen; Jacobus, Pa.). Em algumas modalidades, um ou mais códons (por exemplo, 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, ou mais, ou todos os códons) em uma sequência codificando uma nuclease modifi- cada correspondem ao códon mais frequentemente usado para um de- terminado aminoácido.
[0485] Células empacotadoras são tipicamente utilizadas para for- mar partículas virais que são capazes de infectar uma célula hospe- deira. Essas células incluem 293 células, que empacotam adenovírus, células e psi.2 ou células PA317, que empacotam retrovírus. Os vetores virais usados em terapia gênica são geralmente gerados pela produção de uma linhagem celular que empacota um vetor de ácido nucleico em uma partícula viral. Os vetores normalmente contêm as sequências vi- rais mínimas necessárias para o empacotamento e subsequente inte- gração em um hospedeiro, com outras sequências virais sendo substi- tuídas por um cassete de expressão para o(s) polinucleotídeo(s) a ser(em) expresso(s). As funções virais ausentes são normalmente for- necidas em trans pela linhagem de células de empacotamento. Por exemplo, vetores de AAV usados em terapia gênica normalmente pos- suem apenas sequências ITR do genoma de AAV que são necessárias para empacotamento e integração no genoma do hospedeiro. O DNA viral pode ser empacotado em uma linhagem celular, que contém um plasmídeo auxiliar que codifica os outros genes AAV, a saber, rep e cap, mas sem sequências ITR. A linhagem celular também pode ser infec- tada com adenovírus como auxiliar. O vírus auxiliar pode promover a replicação do vetor AAV e expressão dos genes AAV a partir do plasmí- deo auxiliar. O plasmídeo auxiliar, em algumas modalidades, não é em- pacotado em quantidades significativas devido à falta de sequências
ITR. A contaminação com adenovírus pode ser reduzida, por exemplo, por tratamento térmico a que o adenovírus é mais sensível do que AAV. Entrega Não Viral de Editores de Base
[0486] Os ácidos nucleicos codificando editores de nucleobase mul- tiefetores podem ser entregues diretamente às células como DNA ou RNA nu, por exemplo por transfecção ou eletroporação, ou podem ser conjugados a moléculas (por exemplo, N-acetilgalactosamina) promo- vendo a absorção pelas células-alvo. Os vetores de ácido nucleico, tais como os vetores, também podem ser usados.
[0487] Os vetores de ácido nucleico podem compreender uma ou mais sequências que codificam um domínio de uma proteína de fusão aqui descrita. Um vetor também pode compreender uma sequência que codifica um peptídeo sinal (por exemplo, para localização nuclear, loca- lização nucleolar ou localização mitocondrial), associado com (por exemplo, inserido em ou fundido a) uma sequência que codifica uma proteína. Como exemplo, um vetor de ácido nucleico pode incluir uma sequência de codificação de Cas9 que inclui uma ou mais sequências de localização nuclear (por exemplo, uma sequência de localização nu- clear de SV40), e um ou mais desaminases.
[0488] O vetor de ácido nucleico também pode incluir qualquer nú- mero adequado de elementos reguladores/de controle, por exemplo, promotores, intensificadores, íntrons, sinais de poliadenilação, sequên- cias consenso de Kozak ou sítios de entrada de ribossomo interno (IRES). Esses elementos são bem conhecidos na técnica.
[0489] Os vetores de ácido nucleico de acordo com esta divulgação incluem vetores virais recombinantes. Vetores virais exemplificativos são aqui apresentados acima. Outros vetores virais conhecidos na téc- nica também podem ser usados. Além disso, as partículas virais podem ser usadas para entregar componentes do sistema de edição de ge- noma na forma de ácido nucleico e/ou peptídeo. Por exemplo, partículas virais “vazias” podem ser montadas para conter qualquer carga ade- quada. Os vetores virais e as partículas virais também podem ser pro- jetados para incorporar ligandos de direcionamento para alterar a espe- cificidade do tecido alvo.
[0490] Além de vetores virais, abordagens de entrega não viral para os editores de base divulgados estão disponíveis. Uma categoria impor- tante de entrega de ácido nucleico não viral é a de nanopartículas, que podem ser orgânicas ou inorgânicas. As nanopartículas são bem conhe- cidas na técnica. Qualquer projeto de nanopartícula adequado pode ser usado para entregar componentes do sistema de edição de genoma ou ácidos nucleicos que codificam tais componentes. Por exemplo, nano- partículas orgânicas (por exemplo, lipídio e/ou polímero) podem ser usa- das como veículos de entrega em certas modalidades desta divulgação. Lípidos exemplificativos para uso em formulações de nanopartículas e/ou transferência de genes são mostrados na Tabela 7 abaixo. Tabela 7 Lipídios Usados para Transferência de Gene Lipídio Abreviação Característica 1,2-Dioleoil-sn-glicero-3-fosfatidilcolina DOPC Auxiliar 1,2-Dioleoil-sn-glicero-3-fosfatidiletanolamina DOPE Auxiliar Colesterol Auxiliar Cloreto de N-[1-(2,3-Dioleiloxi)propil]N,N,N-trimetilamônio DOTMA Catiônico 1,2-Dioleoiloxi-3-trimetilamônio-propano DOTAP Catiônico Dioctadecilamidoglicilspermina DOGS Catiônico Brometo de N-(3-Aminopropil)-N,N-dimetil-2,3-bis(dodeciloxi)-1-propanamínio GAP-DLRIE Catiônico Brometo de cetiltrimetilamônio CTAB Catiônico 6-Lauroxihexil ornitinato LHON Catiônico 1-(2,3-Dioleoiloxipropil)-2,4,6-trimetilpiridínio 2Oc Catiônico Trifluoroacetato de 2,3-Dioleiloxi-N-[2(sperminecarboxamido-etil]-N,N-dimetil-1-propanamínio DOSPA Catiônico 1,2-Dioleil-3-trimetilamônio-propano DOPA Catiônico Brometo de N-(2-Hidroxietil)-N,N-dimetil-2,3-bis(tetradeciloxi)-1-propanamínio MDRIE Catiônico Brometo de Dimiristooxipropil dimetil hidroxietil amônio DMRI Catiônico 3β-[N-(N’,N’-Dimetilaminoetano)-carbamoil]colesterol DC-Chol Catiônico Bis-guanidium-tren-colesterol BGTC Catiônico 1,3-Diodeoxi-2-(6-carboxi-espermil)-propilamida DOSPER Catiônico Brometo de Dimetiloctadecilamônio DDAB Catiônico Dioctadecilamidoglicilespermidina DSL Catiônico Cloreto de rac-[(2,3-Dioctadeciloxipropil)(2-hidroxietil)]- CLIP-1 Catiônico dimetilamônio Brometo de rac-[2(2,3-Dihexadeciloxipropil- CLIP-6 Catiônico oximetiloxi)etil]trimetilamônio Etildimiristoilfosfatidilcolina EDMPC Catiônico 1,2-Disteariloxi-N,N-dimetil-3-aminopropano DSDMA Catiônico 1,2-Dimiristoil-trimetilamônio propano DMTAP Catiônico O,O’-Dimiristil-N-lisil aspartato DMKE Catiônico 1,2-Distearoil-sn-glicero-3-etilfo esfocolina DSEPC Catiônico N-Palmitoil D-eritro-esfingosil carbamoil-espermina CCS Catiônico
Lipídios Usados para Transferência de Gene Lipídio Abreviação Característica N-t-Butil-N0-tetradecil-3-tetradecilaminopropionamidina diC14-amidina Catiônico Cloreto de octadecenolioxi[etil-2-heptadecenil-3 hidroxietil] imidazolínio DOTIM Catiônico N1-Colesteriloxicarbonil-3,7-diazanonano-1,9-diamina CDAN Catiônico 2-(3-[Bis(3-amino-propil)-amino]propilamino)-N- RPR209120 Catiônico ditetradecilcarbamoilme-etil-acetamida 1,2-dilinoleiloxi-3-dimetilaminopropano DLinDMA Catiônico 2,2-dilinoleil-4-dimetilaminoetil-[1,3]-dioxolano DLin-KC2-DMA Catiônico dilinoleil-metil-4-dimetilaminobutirato DLin-MC3-DMA Catiônico
[0491] A Tabela 8 abaixo lista polímeros exemplificativos para uso em formulações de nanopartículas e/ou transferência de genes. Tabela 8 Polímeros Usados para Transferência de Gene Polímero Abreviação Poli(etileno)glicol PEG Polietilenimina PEI Ditiobis (succinimidilpropionato) DSP Dimetil-3,3’-ditiobispropionimidato DTBP Poli(etileno imina)biscarbamato PEIC Poli(L-lisina) PLL PLL modificada por Histidina Poli(N-vinilpirrolidona) PVP Poli(propilenimina) PPI Poli(amidoamina) PAMAM Poli(amidoetilenimina) SS-PAEI Trietilenotetramina TETA Poli(β-aminoéster) Poli(4-hidroxi-L-prolina éster) PHP Poli(alilamina) Poli(α-[4-aminobutil]-L-ácido glicólico) PAGA Poli(D,L-láctico-co-ácido glicólico) PLGA Poli(N-etil-4-vinilpiridínio brometo) Poli(fosfazeno)s PPZ Poli(fosfoéster)s PPE Poli(fosforamidato)s PPA Poli(N-2-hidroxipropilmetacrilamida) pHPMA Poli(2-(dimetilamino)etil meta-crilato) pDMAEMA Poli(2-aminoetil propileno fosfato) PPE-EA Quitosana Quitosana Galactosilada Quitosana N-Dodacilada Histona Colágeno Dextrana-espermina D-SPM
[0492] A Tabela 9 resume métodos de entrega para um polinucleo- tídeo codificando uma proteína de fusão descrito neste documento. Tabela 9 Entrega em Células Não Duração da Expres- Integração no Ge- Tipo de Molécula En- Entrega Vetor/Modo Divididas são noma tregue Física (por exemplo, eletroporação, SIM Transiente NÃO Ácidos Nucleicos e pistola de partículas, Trans- Proteínas fecção de Fosfato de Cálcio Viral Retrovírus NÃO Estável SIM RNA Lentivírus SIM Estável SIM/NÃO com mo- RNA dificação Adenovírus SIM Transiente NÃO DNA
Entrega em Células Não Duração da Expres- Integração no Ge- Tipo de Molécula En- Entrega Vetor/Modo Divididas são noma tregue Vírus adenoassociado (AAV) SIM Estável NÃO DNA Vírus Vaccinia SIM Muito Transiente NÃO DNA Vírus da Herpes Simplex SIM Estável NÃO DNA Não Viral Catiônico Lipossomas SIM Transiente Depende do que é Ácidos Nucleicos e entregue Proteínas Nanopartículas poliméticas SIM Transiente Depende do que é Ácidos Nucleicos e entregue Proteínas Veículos de Entrega Bactérias Atenuadas SIM Transiente NÃO Ácidos Nucleicos Não Virais Biológicos Bacteriófagos Modificados SIM Transiente NÃO Ácidos Nucleicos Partículas semelhantes a ví- SIM Transiente NÃO Ácidos Nucleicos rus de mamífero Lipossomas Biológicos: Es- SIM Transiente NÃO Ácidos Nucleicos pectros de Eritrócitos e Exos- somas
[0493] Em outro aspecto, a entrega de componentes do sistema de edição de base ou ácidos nucleicos codificando tais componentes, por exemplo, um editor de base multiplex e/ou uma proteína de ligação de ácido nucleico, tal como, por exemplo, Cas9 ou suas variantes, um gRNA direcionado a uma sequência de ácido de núcleo genômico de interesse, pode ser conseguida através da entrega de uma ribonucleo- proteína (RNP) às células. A RNP compreende a proteína de ligação de ácido nucleico, por exemplo, Cas9, no complexo com o gRNA de direci- onamento. NPs podem ser entregues às células usando métodos co- nhecidos, tais como eletroporação, nucleofecção ou métodos mediados por lipídios catiônicos, por exemplo, conforme relatado por Zuris, J.A. et al., 2015, Nat. Biotechnology, 33(1): 73-80. Os RNPs são vantajosos para uso em sistemas de edição de base CRISPR, particularmente para células de difícil transfecção, tais como as células primárias. Além disso, os RNPs também podem aliviar as dificuldades que podem ocorrer na expressão de proteína nas células, especialmente quando os promoto- res eucarióticos, por exemplo, CMV ou EF1A, que podem ser usados em plasmídeos CRISPR, não são bem expressos. Vantajosamente, o uso de RNPs não requer a entrega de DNA estranho às células. Além disso, como um RNP compreendendo uma proteína de ligação de ácido nucleico e um complexo de gRNA é degradado ao longo do tempo, o uso de RNPs tem o potencial de limitar os efeitos de alvo não específico.
De uma maneira semelhante à das técnicas baseadas em plasmídeo, RNPs podem ser usados para entregar proteína de ligação (por exem- plo, variantes de Cas9) e para dirigir o reparo dirigido por homologia (HDR). Triagem de Editores de Nucleobase Multiefetores
[0494] A adequação de candidatos de editores de nucleobase mul- tiefetores pode ser avaliada em várias abordagens de triagem. Cada proteína de fusão a ser testada é transfectada em uma célula de inte- resse juntamente com uma pequena quantidade de um vetor que codi- fica um repórter (por exemplo, GFP). Em experimentos preliminares, es- sas células podem ser imortalizadas em linhagens de células humanas como 293T, K562 ou U20S. Alternativamente, podem ser utilizadas cé- lulas humanas primárias. Nesse caso, as células podem ser relevantes para o eventual alvo celular terapêutico.
[0495] A transfecção pode ser realizada usando transfecção de lipí- dios (como Lipofectamina ou Fugene) ou por eletroporação. Após a transfecção, a expressão de GFP pode ser determinada por microsco- pia de fluorescência ou por citometria de fluxo para confirmar níveis ele- vados e consistentes de transfecção. Essas transfecções preliminares podem compreender diferentes editores de nucleobase para determinar quais combinações de editores dão a maior atividade.
[0496] A atividade do editor de nucleobase é avaliada conforme descrito neste documento, ou seja, por sequenciamento do genoma das células para detectar alterações em uma sequência alvo. Para o se- quenciamento Sanger, os amplicons de PCR purificados são clonados em uma estrutura principal de plasmídeo, transformados, miniprepara- dos e sequenciados com um único iniciador. O sequenciamento também pode ser realizado usando técnicas de sequenciamento de próxima ge- ração. Ao usar o sequenciamento de próxima geração, os amplicons podem ter 300-500 bp com o sítio de corte pretendido colocado de forma assimétrica. Após PCR, os adaptadores de sequenciamento e códigos de barras de próxima geração (por exemplo, adaptadores e índices mul- tiplex Illumina) podem ser adicionados às extremidades do amplicon, por exemplo, para uso em sequenciamento de alto rendimento (por exemplo, em um Illumina MiSeq).
[0497] As proteínas de fusão que induzem os maiores níveis de al- terações específicas de alvo em testes iniciais podem ser selecionadas para avaliação adicional. Aplicativos para Editores de Nucleobase multiefetores
[0498] Os editores de nucleobase multiefetores podem ser usados para direcionar polinucleotídeos de interesse para criar alterações que modificam a expressão de proteínas. Em uma modalidade, um editor de nucleobase multiefetor é usado para modificar uma sequência regulató- ria ou não codificadora, incluindo, mas sem limitação, sítios de splice, realçadores e elementos reguladores da transcrição. O efeito de altera- ção na expressão de um gene controlado pelo elemento regulador é então testado usando qualquer método conhecido na técnica. Em uma modalidade particular, um editor de nucleobase multiefetor é capaz de alterar substancialmente uma sequência reguladora, abolindo assim sua capacidade de regular a expressão gênica. Vantajosamente, isso pode ser feito sem gerar quebras de filamento duplo na sequência ge- nômica alvo, em contraste com outras nucleases programáveis por RNA.
[0499] Os editores de nucleobase multiefetores podem ser usados para direcionar polinucleotídeos de interesse para criar alterações que modificam a atividade de proteínas. No contexto de mutagênese, por exemplo, editores de nucleobase multiefetores têm uma série de vanta- gens sobre PCR propenso a erros e outros métodos baseados em poli- merase. Como os editores de nucleobase multiefetores da invenção criam alterações em bases múltiplas em uma região alvo, tais mutações são mais prováveis de serem expressas no nível da proteína em relação às mutações introduzidas por PCR propenso a erros, que são menos prováveis de serem expressas na proteína dado que uma única altera- ção de nucleotídeo em um códon pode ainda codificar o mesmo amino- ácido (por exemplo, devido à degenerescência do códon). Ao contrário da PCR propensa a erros, que induz alterações aleatórias ao longo de um polinucleotídeo, editores de nucleobase multiefetores da invenção podem ser usados para direcionar aminoácidos específicos dentro de uma pequena ou definida região de proteína de interesse.
[0500] Em outras modalidades, um editor de nucleobase multiefetor da invenção é usado para direcionar um polinucleotídeo de interesse dentro de um genoma de um organismo. Em uma modalidade, o orga- nismo é uma bactéria do microbioma (por exemplo, Bacteriodetes, Ver- rucomicrobia, Firmicutes; Gammaproteobacteria, Alphaproteobacteria, Bacteriodetes, Clostridia, Erysipelotrichia, Bacilli; Enterobacteriales, Bacteriodales, Verrucomicrobiales, Clostridiales, Erysiopelotrichales, Lactobacillales; Enterobacteriaceae, Bacteroidaceae, Erysiopelotricha- ceae, Prevotellaceae, Coriobacteriaceae, e Alcaligenaceae; Escheri- chia, Bacteroides, Alistipes, Akkermansia, Clostridium, Lactobacillus). Em outra modalidade, o organismo é um animal importante para a agri- cultura (por exemplo, vaca, ovelha, cabra, cavalo, galinha, peru) ou planta (por exemplo, soja, trigo, milho, arroz, tabaco, maçã, uva, pês- sego, ameixa, cereja). Em uma modalidade, um editor de nucleobase multiefetor da invenção é entregue a células em conjunto com uma bi- blioteca de RNAs guia que é usada para direcionar uma variedade de sequências dentro do genoma de uma célula, alterando assim sistema- ticamente as sequências ao longo do genoma. Em uma modalidade, um editor de nucleobase multiefetor da invenção é entregue a células em conjunto com uma biblioteca de RNAs guia que são usados para direci- onar uma variedade de sequências dentro do genoma de uma célula,
alterando assim sistematicamente as sequências ao longo do genoma.
[0501] As mutações podem ser feitas em qualquer de uma varie- dade de proteínas para facilitar a análise estrutura-função ou para alte- rar a atividade endógena da proteína. As mutações podem ser feitas, por exemplo, em uma enzima (por exemplo, quinase, fosfatase, carbo- xilase, fosfodiesterase) ou em um substrato enzimático, em um receptor ou em seu ligando, e em um anticorpo e seu antígeno. Em uma modali- dade, um editor de nucleobase multiefetor tem como alvo uma molécula de ácido nucleico que codifica o sítio ativo da enzima, o sítio de ligação de ligando de um receptor, ou uma região de determinação de comple- mentaridade (CDR) de um anticorpo ou uma molécula de ligação a an- tígeno. No caso de uma enzima, induzir mutações no sítio ativo podem aumentar, diminuir ou abolir a atividade da enzima. O efeito de muta- ções na enzima é caracterizado realizando um ensaio de atividade en- zimática, incluindo qualquer um de uma série de ensaios conhecidos na técnica e/ou que seriam evidentes para o versado na técnica. No caso de um receptor, as mutações feitas no sítio de ligação de ligando podem aumentar, diminuir ou abolir a afinidade de um receptor por seu ligando. O efeito de tais mutações é tipicamente testado em um ensaio de liga- ção de receptor/ligando, incluindo qualquer número de ensaios conhe- cidos na técnica e/ou que seriam evidentes para o versado na técnica. No caso de um CDR de anticorpo, as mutações feitas dentro do CDR poderiam aumentar, diminuir ou abolir a ligação ao antígeno cognato. Alternativamente, mutações feitas dentro do CDR poderiam alterar a es- pecificidade do anticorpo ou molécula de ligação a antígeno para o an- tígeno. O efeito dessas alterações na função CDR é então testado, por exemplo, medindo a ligação específica do CDR ao seu antígeno ou em qualquer outro tipo de imunoensaio, como seria evidente para o versado na técnica e comumente usado na técnica pertinente. Composições Farmacêuticas
[0502] Outros aspectos da presente divulgação se referem a com- posições farmacêuticas compreendendo qualquer um dos editores de base multiefetores, proteínas de fusão ou os complexos de proteína de fusão-polinucleotídeo guia aqui descritos. O termo “composição farma- cêutica”, conforme aqui utilizado, se refere a uma composição formulada para uso farmacêutico. Em algumas modalidades, a composição farma- cêutica ainda compreende um veículo farmaceuticamente aceitável. Em algumas modalidades, a composição farmacêutica compreende agen- tes adicionais (por exemplo, para entrega específica, aumento da meia- vida ou outros compostos terapêuticos).
[0503] Conforme usado aqui, o termo “veículo farmaceuticamente aceitável” significa um material, composição ou veículo farmaceutica- mente aceitável, tal como um enchimento líquido ou sólido, diluente, ex- cipiente, auxiliar de fabricação (por exemplo, lubrificante, talco magné- sio, cálcio ou estearato de zinco, ou ácido estérico), ou material de en- capsulamento de solvente, envolvido na veiculação ou transporte do composto de um sítio (por exemplo, o sítio de entrega) do corpo, para outro sítio (por exemplo, órgão, tecido ou porção do corpo). Um veículo farmaceuticamente aceitável é “aceitável” no sentido de ser compatível com os outros ingredientes da formulação e não prejudicial ao tecido do indivíduo (por exemplo, fisiologicamente compatível, estéril, pH fisioló- gico etc.).
[0504] Alguns exemplos não limitantes de materiais que podem ser- vir como veículos farmaceuticamente aceitáveis incluem: (1) açúcares, tais como lactose, glicose e sacarose; (2) amidos, tais como amido de milho e amido de batata; (3) celulose, e seus derivados, tais como car- boximetilcelulose de sódio, metilcelulose, etilcelulose, celulose micro- cristalina e acetato de celulose; (4) tragacanto em pó; (5) malte; (6) ge- latina; (7) agentes lubrificantes, tais como estearato de magnésio, lau- rilsulfato de sódio e talco; (8) excipientes, tais como manteiga de cacau e ceras para supositórios; (9) óleos, tais como óleo de amendoim, óleo de semente de algodão, óleo de cártamo, óleo de sésamo, azeite, óleo de milho e óleo de soja; (10) glicóis, tais como propilenoglicol; (11) po- lióis, tais como glicerina, sorbitol, manitol e polietilenoglicol (PEG); (12) ésteres, tais como oleato de etila e laurato de etila; (13) ágar; (14) agen- tes tamponantes, tais como hidróxido de magnésio e hidróxido de alu- mínio; (15) ácido algínico; (16) água apirogênica; (17) solução salina isotônica; (18) solução de Ringer; (19) álcool etílico; (20) soluções com pH tamponado; (21) poliésteres, policarbonatos e/ou polianidridos; (22) agentes de volume, tais como polipeptídeos e aminoácidos, (23) álcoois de soro, tais como etanol; e (23) outras substâncias não tóxicas compa- tíveis empregadas em formulações farmacêuticas. Agentes umectantes, agentes corantes, agentes de liberação, agentes de revestimento, agen- tes adoçantes, agentes aromatizantes, agentes perfumantes, conser- vantes e antioxidantes também podem estar presentes na formulação. Termos como “excipiente”, “veículo”, “veículo farmaceuticamente acei- tável”, “transportador” ou semelhantes são usados indistintamente neste documento.
[0505] As composições farmacêuticas podem compreender um ou mais compostos de tamponamento de pH para manter o pH da formu- lação em um nível predeterminado que reflete o pH fisiológico, tal como na faixa de cerca de 5,0 a cerca de 8,0. O composto de tamponamento de pH usado na formulação líquida aquosa pode ser um aminoácido ou mistura de aminoácidos, tais como histidina, ou uma mistura de amino- ácidos, tais como histidina e glicina. Alternativamente, o composto de tamponamento de pH é um agente que mantém o pH da formulação em um nível predeterminado, tal como na faixa de cerca de 5,0 a cerca de 8,0, e que não quela íons de cálcio. Exemplos ilustrativos de tais com- postos de tamponamento de pH incluem, mas sem limitação, íons de imidazol e acetato. O composto de tamponamento de pH pode estar presente em qualquer quantidade adequada para manter o pH da for- mulação em um nível predeterminado.
[0506] As composições farmacêuticas também podem conter um ou mais agentes de modulação osmótica, ou seja, um composto que mo- dula as propriedades osmóticas (por exemplo, tonicidade, osmolalidade e/ou pressão osmótica) da formulação a um nível que seja aceitável para a corrente sanguínea e glóbulos vermelhos de indivíduos recepto- res. O agente de modulação osmótica pode ser um agente que não quela os íons de cálcio. O agente de modulação osmótica pode ser qual- quer composto conhecido ou disponível para aqueles versados na téc- nica que module as propriedades osmóticas da formulação. Um versado na técnica pode determinar empiricamente a adequação de um dado agente de modulação osmótica para uso na formulação da invenção. Exemplos ilustrativos de tipos adequados de agentes de modulação os- mótica incluem, mas sem limitação: sais, tais como cloreto de sódio e acetato de sódio; açúcares, tais como sacarose, dextrose e manitol; aminoácidos, tais como glicina; e misturas de um ou mais desses agen- tes e/ou tipos de agentes. O(s) agente(s) de modulação osmótica pode(m) estar presente(s) em qualquer concentração suficiente para modular as propriedades osmóticas da formulação.
[0507] Em algumas modalidades, a composição farmacêutica é for- mulada para entrega a um indivíduo, por exemplo, para edição genética. As vias adequadas de administração da composição farmacêutica aqui descrita incluem, sem limitação: administração tópica, subcutânea, transdérmica, intradérmica, intralesional, intra-articular, intraperitoneal, intravesical, transmucosa, gengival, intradental, intracoclear, transtim- pânica, intraórgãos, epidural, intratecal, intramuscular, intravenosa, in- travascular, intraóssea, periocular, intratumoral, intracerebral e intrace- rebroventricular.
[0508] Em algumas modalidades, a composição farmacêutica aqui descrita é administrada localmente a um sítio de doença (por exemplo, CNS, neurônio motor). Em algumas modalidades, a composição farma- cêutica aqui descrita é administrada a um indivíduo por injeção, por meio de um cateter, por meio de um supositório, ou por meio de um implante, o implante sendo de um material poroso, não poroso ou gelatinoso, in- cluindo uma membrana, tal como uma membrana sialástica, ou uma fi- bra.
[0509] Em outras modalidades, a composição farmacêutica aqui descrita é entregue em um sistema de liberação controlada. Em uma modalidade, uma bomba pode ser usada (Vide, por exemplo, Langer, 1990, Science 249: 1527-1533; Sefton, 1989, CRC Crit. Ref. Biomed. Eng. 14:201; Buchwald et al., 1980, Surgery 88:507; Saudek et al., 1989, N. Engl. J. Med. 321:574). Em outra modalidade, materiais poliméricos podem ser usados. (vide, por exemplo, Medical Applications of Con- trolled Release (Langer e Wise eds., CRC Press, Boca Raton, Fla., 1974); Controlled Drug Bioavailability, Drug Product Design and Perfor- mance (Smolen e Ball eds., Wiley, New York, 1984); Ranger e Peppas, 1983, Macromol. Sci. Rev. Macromol. Chem. 23:61. Vide também Levy et al., 1985, Science 228: 190; During et al., 1989, Ann. Neurol. 25:351; Howard et ah, 1989, J. Neurosurg. 71: 105.). Outros sistemas de libera- ção controlada são discutidos, por exemplo, em Langer, supra.
[0510] Em algumas modalidades, a composição farmacêutica é for- mulada de acordo com procedimentos de rotina como uma composição adaptada para administração intravenosa ou subcutânea a um indiví- duo, por exemplo, um ser humano. Em algumas modalidades, a com- posição farmacêutica para administração por injeção são soluções em uso isotônico estéril usadas como agente solubilizante e um anestésico local, tal como lidocaína, para aliviar a dor no sítio da injeção. Geral- mente, os ingredientes são fornecidos separadamente ou misturados na forma de dosagem unitária, por exemplo, como pó liofilizado seco ou concentrado sem água em recipiente hermeticamente fechado como ampola ou sachê com indicação da quantidade do agente ativo. Quando a droga tiver que ser administrada por infusão, pode ser dispensada com frasco de infusão contendo água estéril grau farmacêutico ou solu- ção salina. Quando a composição farmacêutica é administrada por inje- ção, uma ampola de água estéril para injeção ou solução salina pode ser fornecida para que os ingredientes possam ser misturados antes da administração.
[0511] Uma composição farmacêutica para administração sistêmica pode ser um líquido, por exemplo, solução salina estéril, solução de Hank ou de Ringer com lactato. Além disso, a composição farmacêutica pode estar na forma sólida e ser redissolvida ou suspensa imediata- mente antes do uso. As formas liofilizadas também são contempladas. A composição farmacêutica pode estar contida dentro de uma partícula ou vesícula lipídica, tal como um lipossoma ou microcristal, que também é adequado para administração parenteral. As partículas podem ser de qualquer estrutura adequada, tal como unilamelar ou plurilamelar, desde que composições estejam nelas contidas. Os compostos podem ser aprisionados em “partículas de lipídio-plasmídeo estabilizadas” (SPLP) contendo o lipídio fusogênico dioleoilfosfatidiletanolamina (DOPE), baixos níveis (5-10% em mol) de lipídio catiônico, e estabiliza- dos por um revestimento de polietilenoglicol (PEG) (Zhang YP et ah, Gene Ther. 1999, 6: 1438-47). Lípidos carregados positivamente, tais como N-[1-(2,3-dioleoiloxi)propil]-N,N,N-trimetil-amôniometilsulfato, ou “DOTAP”, são particularmente preferidos para tais partículas e vesícu- las. A preparação de tais partículas lipídicas é bem conhecida. Vide, por exemplo, as Patentes dos EUA Nºs. 4.880.635; 4.906.477; 4.911.928;
4.917.951; 4.920.016; e 4.921.757; cada uma das quais é aqui incorpo- rada por referência.
[0512] A composição farmacêutica aqui descrita pode ser adminis- trada ou embalada em dose unitária, por exemplo. O termo “dose unitá- ria”, quando usado em referência a uma composição farmacêutica da presente divulgação, se refere a unidades fisicamente discretas ade- quadas como dosagem unitária para o indivíduo, cada unidade con- tendo uma quantidade predeterminada de material ativo calculada para produzir o efeito terapêutico desejado em associação com o diluente necessário; ou seja, veículo ou transportador.
[0513] Além disso, a composição farmacêutica pode ser fornecida como um kit farmacêutico compreendendo (a) um recipiente contendo um composto da invenção na forma liofilizada e (b) um segundo recipi- ente contendo um diluente farmaceuticamente aceitável (por exemplo, estéril usado para reconstituição ou diluição do composto liofilizado da invenção. Opcionalmente associado a tais recipientes pode estar um aviso na forma prescrita por uma agência governamental que regula- menta a fabricação, uso ou venda de produtos farmacêuticos ou bioló- gicos, cujo aviso reflete a aprovação da agência de fabricação, uso ou venda para administração humana.
[0514] Em outro aspecto, um artigo de fabricação contendo materi- ais úteis para o tratamento das doenças descritas acima está incluído. Em algumas modalidades, o artigo de fabricação compreende um reci- piente e um rótulo. Recipientes adequados incluem, por exemplo, gar- rafas, frascos, seringas e tubos de ensaio. Os recipientes podem ser feitos de uma variedade de materiais, tais como vidro ou plástico. Em algumas modalidades, o recipiente contém uma composição que é efi- caz para o tratamento de uma doença aqui descrita e pode ter uma porta de acesso estéril. Por exemplo, o recipiente pode ser um saco de solu- ção intravenosa ou um frasco com uma rolha perfurável por uma agulha de injeção hipodérmica. O agente ativo na composição é um composto da invenção. Em algumas modalidades, o rótulo em ou associado ao recipiente indica que a composição é usada para tratar a doença de es- colha. O artigo de fabricação pode ainda compreender um segundo re- cipiente compreendendo um tampão farmaceuticamente aceitável, tal como solução salina tamponada com fosfato, solução de Ringer ou so- lução de dextrose. Pode ainda incluir outros materiais desejáveis do ponto de vista comercial e do usuário, incluindo outros tampões, diluen- tes, filtros, agulhas, seringas, bulas e instruções de uso.
[0515] Em algumas modalidades, quaisquer das proteínas de fusão, gRNAs e/ou complexos descritos neste documento são fornecidos como parte de uma composição farmacêutica. Em algumas modalida- des, a composição farmacêutica compreende qualquer uma das proteí- nas de fusão aqui fornecidas. Em algumas modalidades, a composição farmacêutica compreende qualquer um dos complexos aqui fornecidos. Em algumas modalidades, a composição farmacêutica compreende um complexo de ribonucleoproteínas compreendendo uma nuclease guiada por RNA (por exemplo, Cas9) que forma um complexo com um gRNA e um lipídio catiônico. Em algumas modalidades, a composição farmacêu- tica compreende um gRNA, uma proteína de ligação de DNA programá- vel de ácido nucleico, um lipídio catiônico e um excipiente farmaceutica- mente aceitável. As composições farmacêuticas podem opcionalmente compreender uma ou mais substâncias terapeuticamente ativas adicio- nais.
[0516] A modificação de composições farmacêuticas adequadas para administração a seres humanos a fim de tornar as composições adequadas para administração a vários animais é bem compreendida, e o farmacologista veterinário comumente habilitado pode projetar e/ou realizar tal modificação com experimentação meramente ordinária, se houver. Os indivíduos para os quais a administração das composições farmacêuticas é contemplada incluem, mas sem limitação, seres huma- nos e/ou outros primatas; mamíferos, animais domesticados, animais de estimação, e mamíferos comercialmente relevantes, tais como gado, porcos, cavalos, ovelhas, gatos, cães, camundongos e/ou ratos; e/ou aves, incluindo aves comercialmente relevantes, tais como galinhas, pa- tos, gansos e/ou perus.
[0517] As formulações das composições farmacêuticas aqui descri- tas podem ser preparadas por qualquer método conhecido ou posterior- mente desenvolvido na técnica de farmacologia. Em geral, tais métodos preparatórios incluem a etapa de colocar o(s) ingrediente(s) ativo(s) em associação com um excipiente e/ou um ou mais outros ingredientes acessórios, e então, se necessário e/ou desejável, moldar e/ou embalar o produto em uma unidade de dose única ou múltipla desejada. As for- mulações farmacêuticas podem compreender, adicionalmente, um ex- cipiente farmaceuticamente aceitável, que, tal como aqui utilizado, inclui quaisquer e todos os solventes, meios de dispersão, diluentes ou outros veículos líquidos, auxiliares de dispersão ou suspensão, agentes tenso- ativos, agentes isotônicos, espessantes ou emulsificantes, conservan- tes, aglutinantes sólidos, lubrificantes e semelhantes, conforme ade- quado para a forma de dosagem particular desejada. Remington’s The Science and Practice of Pharmacy, 21ª Edição, A. R. Gennaro (Lippin- cott, Williams & Wilkins, Baltimore, MD, 2006; incorporado em sua tota- lidade neste documento por referência) divulga vários excipientes usa- dos na formulação de composições farmacêuticas e técnicas conheci- das para a sua preparação. Ver também o pedido PCT PCT/US2010/055131 (Publicação número WO2011053982 A8, deposi- tado em 2 de novembro de 2010), incorporado em sua totalidade neste documento por referência, para métodos adicionais adequados, reagen- tes, excipientes e solventes para a produção de composições farmacêu- ticas compreendendo uma nuclease.
[0518] Exceto na medida em que qualquer meio excipiente conven- cional seja incompatível com uma substância ou seus derivados, tal como produzindo qualquer efeito biológico indesejável ou de outra forma interagindo de forma deletéria com qualquer outro(s) componente(s) da composição farmacêutica, seu uso é contemplado como dentro do es- copo desta divulgação.
[0519] As composições, conforme descrito acima, podem ser admi- nistradas em quantidades eficazes. A quantidade eficaz dependerá do modo de administração, da condição particular a ser tratada e do resul- tado desejado. Também pode depender do estágio da condição, da idade e condição física do indivíduo, da natureza da terapia concomi- tante, se houver, e de fatores semelhantes bem conhecidos do médico. Para aplicações terapêuticas, é a quantidade suficiente para alcançar um resultado clinicamente desejável. Métodos de Tratar uma Doença ou Distúrbio
[0520] Também são fornecidos métodos de tratamento de uma do- ença ou distúrbio, cujos métodos compreendem administrar a um indi- víduo (por exemplo, um mamífero, tal como um ser humano) uma quan- tidade terapeuticamente eficaz de uma composição farmacêutica que compreende um polinucleotídeo que codifica um sistema de editor de base (por exemplo, editor de base multiefetor e gRNA) conforme des- crito neste documento. Em algumas modalidades, o editor de base é uma proteína de fusão que compreende um domínio de ligação de DNA programável de polinucleotídeo, um ou mais domínios de desaminase (por exemplo, um domínio de adenosina desaminase e um domínio de citidina desaminase). Uma célula do indivíduo é transduzida com o edi- tor de base multiefetor e um ou mais polinucleotídeos guia que têm como alvo o editor de base para efetuar uma alteração de A•T para G•C e uma alteração de C•G para U•A (se a célula for transduzida com um domínio de adenosina desaminase e um domínio de citidina desami- nase) de uma sequência de ácido nucleico alvo.
[0521] Os métodos aqui incluem administrar ao indivíduo (incluindo um indivíduo identificado como necessitando de tal tratamento, ou um indivíduo suspeito de estar em risco de doença e necessitando de tal tratamento) uma quantidade eficaz de uma composição aqui descrita. Identificar um indivíduo que necessita desse tratamento pode ser no jul- gamento de um indivíduo ou de um profissional de saúde e pode ser subjetivo (por exemplo, opinião) ou objetivo (por exemplo, mensurável por um método de teste ou diagnóstico).
[0522] Os métodos terapêuticos, em geral, compreendem a admi- nistração de uma quantidade terapeuticamente eficaz de uma composi- ção farmacêutica compreendendo, por exemplo, um vetor codificando um editor de base multiefetor e um gRNA que tem como alvo uma se- quência de polinucleotídeo, por exemplo, uma sequência de polinucleo- teo (gene) que é associada a uma doença ou distúrbio, de um indivíduo (por exemplo, um paciente humano) em necessidade do mesmo. Esse tratamento será administrado adequadamente a um indivíduo, em par- ticular um indivíduo humano, que sofra de, tendo, suscetível a, ou em risco para a doença ou distúrbio.
[0523] Em uma modalidade, um método de monitoramento do pro- gresso do tratamento é fornecido. O método inclui a etapa de determi- nação de um nível de marcador de diagnóstico (Marcador) ou medição de diagnóstico (por exemplo, triagem, ensaio) em um indivíduo que so- fre ou é suscetível a uma doença ou distúrbio ou sintomas do mesmo, em que ao indivíduo foi administrado uma quantidade terapêutica de uma composição aqui suficiente para tratar a doença ou seus sintomas. O nível de Marcador determinado no método pode ser comparado a ní- veis conhecidos de Marcador em controles normais saudáveis ou em outros pacientes afetados para estabelecer o status da doença do indi- víduo. Em modalidades preferidas, um segundo nível de Marcador no indivíduo é determinado em um ponto de tempo posterior à determina- ção do primeiro nível, e os dois níveis são comparados para monitorar o curso da doença ou a eficácia da terapia. Em certas modalidades pre- feridas, um nível de pré-tratamento de Marcador no indivíduo é determi- nado antes do início do tratamento de acordo com esta invenção; esse nível de pré-tratamento de Marcador pode então ser comparado ao nível de Marker no indivíduo após o início do tratamento, para determinar a eficácia do tratamento.
[0524] Em algumas modalidades, composições incluindo os edito- res de base multiefetores, conforme fornecido neste documento, são administradas a um indivíduo, por exemplo, a um indivíduo humano, a fim de efetuar uma modificação genômica direcionada dentro do indiví- duo. Em algumas modalidades, as células são obtidas do indivíduo e colocadas e contato com qualquer uma das composições farmacêuticas fornecidas neste documento. Em algumas modalidades, células remo- vidas de um indivíduo e colocadas em contato ex vivo com uma compo- sição farmacêutica são reintroduzidas no indivíduo, opcionalmente, após a modificação genômica desejada ter sido efetuada ou detectada nas células.
[0525] Métodos de entrega de composições farmacêuticas compre- endendo nucleases são conhecidos, e são descritos, por exemplo, nas Patentes dos EUA nºs 6.453.242; 6.503.717; 6.534.261; 6.599.692;
6.607.882; 6.689.558; 6.824.978; 6.933.113; 6.979.539; 7.013.219; e
7.163.824, as divulgações de todas as quais são incorporadas neste documento por referência em sua totalidade. Embora as descrições das composições farmacêuticas fornecidas neste documento sejam princi- palmente direcionadas a composições farmacêuticas que são adequa- das para administração a seres humanos, será entendido pelo versado na técnica que tais composições são geralmente adequadas para admi- nistração a animais ou organismos de todos os tipos, por exemplo, para uso veterinário. Kits
[0526] Vários aspectos desta divulgação proporcionam kits compre- endendo um sistema de editor de base. Em uma modalidade, o kit com- preende um constructo de ácido nucleico compreendendo uma sequên- cia de nucleotídeo codificando um editor de nucleobase multiefetor ca- paz de desaminar uma nucleobase em uma molécula de ácido desoxir- ribonucleico (DNA). Em certas modalidades, o editor de nucleobase multiefetor tem atividade de citidina desaminase e/ou adenosina desa- minase. Em algumas modalidades, a sequência de nucleotídeo compre- ende um promotor heterólogo que dirige a expressão do editor de nu- cleobase multiefetor.
[0527] Em um aspecto, um kit compreendendo um constructo de ácido nucleico, compreendendo (a) uma sequência de nucleotídeo co- dificando (a) um domínio de Cas9 fundido a uma adenosina desaminase e uma citidina desaminase como aqui fornecido; e (b) um promotor he- terólogo que conduz a expressão de a sequência de (a) é fornecido.
[0528] Em outro aspecto, as células compreendendo qualquer uma das proteínas de fusão/editor de nucleobase multiefetor são aqui forne- cidas. Em algumas modalidades, as células compreendem qualquer um dos nucleotídeos ou vetores aqui fornecidos.
[0529] Em algumas modalidades, o kit fornece instruções para usar o kit para efetuar edição de base multiefetora usando os sistemas con- forme divulgado neste documento. As instruções geralmente incluirão informações sobre o uso do kit para edição de moléculas de ácido nu- cleico. Em outras modalidades, as instruções incluem pelo menos um dos seguintes: precauções; avisos; estudos clínicos; e/ou referências. As instruções podem ser impressas diretamente no recipiente (quando presente), ou como etiqueta aplicada no recipiente, ou como folha se- parada, folheto, cartão ou pasta fornecida com o recipiente. Em uma modalidade adicional, um kit pode compreender instruções na forma de um rótulo ou folheto separado (folheto informativo) para parâmetros operacionais adequados. Em ainda outra modalidade, o kit pode com- preender um ou mais recipientes com controles positivos e negativos apropriados ou amostras de controle, para serem usados como pa- drão(ões) para detecção, calibração ou normalização. O kit pode ainda compreender um segundo recipiente compreendendo um tampão far- maceuticamente aceitável, tal como solução salina tamponada com fos- fato (estéril), solução de Ringer, ou solução de dextrose. Pode ainda incluir outros materiais desejáveis do ponto de vista comercial e do usu- ário, incluindo outros tampões, diluentes, filtros, agulhas, seringas, bu- las e instruções de uso.
[0530] A prática da presente invenção emprega, salvo indicação em contrário, técnicas convencionais de biologia molecular (incluindo técni- cas recombinantes), microbiologia, biologia celular, bioquímica e imuno- logia, que estão bem dentro do alcance do versado na técnica. Tais téc- nicas são amplamente explicadas na literatura, tais como, “Molecular Cloning: A Laboratory Manual”, segunda edição (Sambrook, 1989); “Oli- gonucleotide Synthesis” (Gait, 1984); “Animal Cell Culture” (Freshney, 1987); “Métodos in Enzymology” “Handbook of Experimental Immuno- logy” (Weir, 1996); “Gene Transfer Vectors for Mammalian Cells” (Miller e Calos, 1987); “Current Protocols in Molecular Biology” (Ausubel, 1987); “PCR: The Polymerase Chain Reaction”, (Mullis, 1994); “Current Protocols in Immunology” (Coligan, 1991). Essas técnicas são aplicá- veis à produção de polinucleotídeos e polipeptídeos da invenção, e, as- sim, podem ser consideradas na elaboração e prática da invenção. Téc- nicas particularmente úteis para modalidades particulares serão discu- tidas nas seções a seguir.
EXEMPLOS
[0531] Os exemplos a seguir são apresentados de modo a fornecer àqueles versados na técnica uma completa divulgação e descrição de como fazer e usar os métodos de ensaio, triagem e terapêuticos da in- venção, e não se destinam a limitar o escopo do que os inventores con- sideram sua invenção. Exemplo 1: Editores de Nucleobase Multiefetores
[0532] Um editor de nucleobase multiefetor foi desenvolvido com- preendendo um domínio de ligação de DNA programável de ácido nu- cleico Cas9, um heterodímero de TadA7.10 e TadA de tipo selvagem, uma citidina desaminase de lampreia-marinha, e dois domínios de inibi- dor de uracil DNA glicosilase, em um constructo de plasmídeo denomi- nado pNMG- B79. Um domínio de TadA7.10 tem atividade de adenosina desaminase. O domínio de nCas9 de S. pyogenes (D10A) tem atividade de nickase. A citidina desaminase de lampreia-marinha (pmCDA) possui atividade de citidina desaminase. Também inclui dois domínios de inibi- dor de Uracil DNA glicosilase (UGI). UGI é uma proteína de 83 resíduos do bacteriófago Bacillus subtilis PBS1, que bloqueia potentemente a ati- vidade de UDG humana (IC50 = 12 pM). O polipeptídeo pNMG-B79 inclui sinais de localização nuclear em seus terminais N e C.
[0533] A sequência de pNMG-B79 segue: pNMG-B79: -NLS negrito-wtTadA sublinhado-32 a.a. ligante itálico-TadA * 7.10 sublinhado- 23. a.a. ligante itálico-nCas9-32 a.a. li- gante itálico - pmCDA-UGI-UGI negrito e sublinhado-NLS-BP-NLS itá- lico negrito MPKKKRKVSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVI- GEGWNRPIGRHDP-
TAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGA RDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRR- QEIKAQK- KAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRH ALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALR- QGGLVMQNYRLI- DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNH RVEITEGILADECAALLCYFFRMPRQVFNAQK- KAQSSTDSGGSSGGSSGSETPGTSESA- TPEDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR- LEESFLVEEDK- KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK FRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAIL- SARLSKSRRLEN- LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMI- KRYDEHHQDLTLLKA- LVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKI- EKILTFRIPYY- VGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLP NEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF- KTNRKVTVKQL- KEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLS- RKLINGIRD- KQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHI ANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT- QKGQKNSRER- MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINR LSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK- MKNYWRQLLNAKLIT- QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDE NDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTA- LIKKYPKLE- SEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEI RKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKE- SILPKRNSD- KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASA- GELQKGNELAL- PSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRV ILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTI- DRKRYTST- KEVLDATLIHQSITGLYETRIDLSQLGGDSGGSSGGSSGSETPGTSESATPE SSGGSSGGSTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRR- GER- RACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPC ADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNL- RDNGVGLN- VMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILH TTKSPAVSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVI- GNKPESDIL- VHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGS TNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDES- TDENVMLLTSDA-
PEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFES PKKKRKV pNMG-B92: -NLS negrito –wtTadA sublinhado-32 a.a. ligante itá- lico-TadA*7.10 sublinhado- 23. a.a. ligante itálico-nCas9-105 a.a. li- gante itálico- pmCDA sublinhado- ligante itálico-UGI-UGI sublinhado em negrito -NLS-BP-NLS itálico em negrito MPKKKRKVSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVI- GEGWNRPIGRHDP-
TAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGA RDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRR- QEIKAQK- KAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRH ALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALR- QGGLVMQNYRLI- DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNH RVEITEGILADECAALLCYFFRMPRQVFNAQK- KAQSSTDSGGSSGGSSGSETPGTSESA- TPEDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR- LEESFLVEEDK- KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK FRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAIL- SARLSKSRRLEN- LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMI- KRYDEHHQDLTLLKA- LVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKI- EKILTFRIPYY- VGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLP NEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF- KTNRKVTVKQL- KEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLS- RKLINGIRD- KQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHI ANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT- QKGQKNSRER- MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINR LSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK- MKNYWRQLLNAKLIT- QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDE NDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTA- LIKKYPKLE- SEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEI RKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKE- SILPKRNSD- KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASA- GELQKGNELAL- PSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRV ILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTI- DRKRYTST- KEVLDATLIHQSITGLYETRIDLSQLGGDSRADPKKKRKVGGGGTGGGGSAE YVRALFDFNGNDEEDLPFKKGDILRIRDKPEEQWWNAEDSEGKRGMILVPY- VEKYSGDYK- DHDGDYKDHDIDYKDDDDKSGMTDAEYVRIHEKLDIYTFKKQFFNNKKSVSH RCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDN- PGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARN QIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRA- EKWRSELSIMI- QVKILHTTKSPAVGPKKKRKVGTSGGSGGSGGSTNLSDIIEKETGKQLVIQE SILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWAL- VIQDSNGENKIK- MLSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDI LVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLPKKKRKVE-
GADKRTADGSEFESPKKKRKV pNMG-B93: -NLS-wtTadA-32 a.a. ligante itálico-TadA*7.10 sublinhado- 23. a.a. ligante itálico-nCas9-105 a.a. ligante itálico- rAPO- BEC1 sublinhado-ligante itálico-UGI-UGI sublinhado em negrito-NLS- BP-NLS itálico em negrito MPKKKRKVSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVI-
GEGWNRPIGRHDP- TAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGA RDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRR- QEIKAQK- KAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSSEVEFSHEYWMRH ALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALR- QGGLVMQNYRLI- DATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNH RVEITEGILADECAALLCYFFRMPRQVFNAQK- KAQSSTDSGGSSGGSSGSETPGTSESA- TPEDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGA LLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHR- LEESFLVEEDK- KHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIK FRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAIL- SARLSKSRRLEN- LIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLD NLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMI- KRYDEHHQDLTLLKA- LVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEEL LVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKI- EKILTFRIPYY- VGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLP NEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLF- KTNRKVTVKQL- KEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDIL EDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLS- RKLINGIRD- KQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHI ANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTT- QKGQKNSRER- MKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINR LSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKK- MKNYWRQLLNAKLIT- QRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDE NDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTA- LIKKYPKLE- SEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEI RKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKE- SILPKRNSD- KLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIM ERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASA- GELQKGNELAL- PSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRV ILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTI- DRKRYTST- KEVLDATLIHQSITGLYETRIDLSQLGGDSRADPKKKRKVGGGGTGGGGSAE YVRALFDFNGNDEEDLPFKKGDILRIRDKPEEQWWNAEDSEGKRGMILVPY- VEKYSGDYK- DHDGDYKDHDIDYKDDDDKSGSSETGPVAVDPTLRRRIEPHEFEVFFDPREL RKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFT- TERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHA DPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHW- PRYPHLWVRLYVLE- LYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLKGPKK KRKVGTSGGSGGSGGSTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNK- PESDIL- VHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKMLSGGSGGSGGS TNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDES- TDENVMLLTSDA- PEYKPWALVIQDSNGENKIKMLPKKKRKVEGADKRTADGSEFESPKKKRKV
[0534] Células HEK293T foram cotransfectadas com pNMG-B79 ou um plasmídeo que codifica ABE7.10, e o sgRNA apropriado. O vetor incluiu um promotor CMV para direcionar a expressão da proteína de fusão. As células foram deixadas em cultura por cinco dias para que a edição de nucleobase ocorresse. Posteriormente, o DNA genômico foi extraído das células, e os loci foram analisados por sequenciamento de alto rendimento (HTS). O sgRNA direcionado a pares de 20 bases 5’ de uma sequência PAM como mostrado na Figura 1. O Editor de Base de Adenina (ABE) 7.10, que é uma adenosina desaminase, converteu a adenosina na posição 5 (A5) em G em aproximadamente 80% dos poli- nucleotídeos sequenciados (Figura 1) e converteu A7 em G em 29% dos polinucleotídeos sequenciados (Figura 1). Um polinucleotídeo não tratado incubado em condições semelhantes, mas na ausência de qual- quer editor de base, foi incluído como um controle e não teve tais modi- ficações (Figura 1, parte inferior).
[0535] Surpreendentemente, pNMG-B79 apresentou ambas a ati- vidade de adenosina desaminase e atividade de citosina desaminase (Figura 1, meio). pNMG-B79 converteu C4 em T em 41% dos polinucle- otídeos sequenciados, converteu A5 em G em 66% dos polinucleotídeos sequenciados, converteu C6 em T em aproximadamente 35% dos poli- nucleotídeos sequenciados; e converteu A em G em aproximadamente 15% dos polinucleotídeos sequenciados. Isso marca a primeira de- monstração de um editor de base que pode criar todas as mutações em transição em um polinucleotídeo alvo.
[0536] A atividade de edição base de variantes de pNMG-B79 foi testada. Nos editores de base pNMG-90 e 92, o comprimento do ligante entre o domínio de nCas9 (D10A) e o domínio de citidina desaminase foi aumentado de 32 em pNMG-B79 para 104 aminoácidos. Em outro exemplo, o editor de base pNMG-91 e 93, o pmCDA foi trocado por rA-
POBEC1 e um ligante longo foi incluído entre nCas9 (D10A) e rAPO- BEC1 (Figura 2). A Figura 3A fornece esquemas de editores de nucleo- base multiefetores. A capacidade do editor de base modificar o DNA genômico foi testada (Figura 3B). pNMG-B79 converteu A5 em G em 58% dos polinucleotídeos sequenciados, e converteu C6 em T em apro- ximadamente 25% dos polinucleotídeos sequenciados. pNMG-90 e 92 apresentaram diferentes graus de atividade. pNMG-92 converteu A5 em G em 50% dos polinucleotídeos sequenciados, e converteu C6 em T em aproximadamente 9,8% dos polinucleotídeos sequenciados. pNMG-90 não converteu A5 em G em nenhum dos polinucleotídeos sequenciados, mas converteu C6 em T em aproximadamente 13% dos polinucleotí- deos sequenciados. Em outro exemplo, o editor de base pNMG-93 con- verteu A5 em G em 77% dos polinucleotídeos sequenciados e C6 em T em aproximadamente 13% dos polinucleotídeos sequenciados. Em ou- tro exemplo, o editor de base pNMG-91 converteu C6 em G em aproxi- madamente 17% dos polinucleotídeos sequenciados, e C6 em T em 58% dos polinucleotídeos sequenciados. Outros editores de base in- cluem CDA BEmax, CDAmax e ABE. ABEmax converteu C6 em G ou T em aproximadamente 8% ou 61% dos polinucleotídeos sequenciados, respectivamente (Figura 8A, 8B). CDAmax converteu C em G ou T em aproximadamente 5% ou 43%, respectivamente. ABE converteu A5 em G em aproximadamente 80% dos polinucleotídeos sequenciados e A8 em G em aproximadamente 10% dos polinucleotídeos sequenciados.
[0537] As atividades de edição de base de uma variedade de edi- tores de base mostrados na Figura 4A foi avaliada em um sítio alvo de HBG1 (Figura 4B, 4C). pNMG-B79 converteu A5 em G em aproximada- mente 23% dos polinucleotídeos sequenciados, e converteu C6 em T em aproximadamente 8% dos polinucleotídeos sequenciados. pNMG- B92 converteu A5 em G em 15% dos polinucleotídeos sequenciados, e converteu C6 em T em aproximadamente 9,8% dos polinucleotídeos se- quenciados. pNMG-90 não converteu A5 em G em nenhum dos polinu- cleotídeos sequenciados, mas converteu C6 em T em aproximada- mente 4% dos polinucleotídeos sequenciados e converteu C7 em T em aproximadamente 15% dos polinucleotídeos sequenciados e converteu A8 em G em cerca de 2% dos polinucleotídeos sequenciados. Em outro exemplo, o editor de base pNMG-B93 converteu A5 em G em 19% dos polinucleotídeos sequenciados, C6 em T em aproximadamente 20% dos polinucleotídeos sequenciados, C7 em T em aproximadamente 18% da sequência de polinucleotídeos, e A8 em G em 16% de polinu- cleotídeos sequenciados. Em outro exemplo, o editor de base pNMG- 90 converteu C6 em G em aproximadamente 8% dos polinucleotídeos sequenciados, e C7 em T em 28% dos polinucleotídeos sequenciados. BEmax converteu C6 em T em aproximadamente 27% dos polinucleotí- deos sequenciados, e C7 em T em aproximadamente 35% dos polinu- cleotídeos sequenciados. ABE converteu A5 em G em aproximada- mente 35% dos polinucleotídeos sequenciados; A8 a G em aproxima- damente 47% dos polinucleotídeos sequenciados; e A9 a G em 8,6 por cento dos polinucleotídeos sequenciados.
[0538] As atividades do editor duplo de nucleobases pNMG-79 e editor de nucleobases convencional ABE7.10 foram testadas no sítio HBG1. Os resultados de ABE7.10 são mostrados na parte superior da Figura 5A, 5B, e os resultados de controle não tratado são mostrados na parte inferior da figura. pNMG-B79 converteu C4 em T em 41% dos polinucleotídeos sequenciados; converteu A5 em G em 67% dos polinu- cleotídeos sequenciados, C6 em T em 35% dos polinucleotídeos se- quenciados, e A em G em aproximadamente 15% dos polinucleotídeos sequenciados. A Figura 5B fornece leituras de sequenciamento exem- plificativas dos resultados resumidos na Figura 5A. A Figura 5C fornece uma lista completa de leituras de sequenciamento para pNMG-B79 em relação a ABE7.10. pNMG-B79 gerou indels à taxa de 2,68%, enquanto ABE7.10 gerou indels à taxa de 0,56% em condições semelhantes (Fi- gura 6).
[0539] Uma variedade de editores de nucleobase multiefetores fo- ram testados contra um alvo HBG1. A capacidade desses editores bá- sicos de modificar o alvo é mostrada nas Figuras 7A e 7B. O percentual de indels gerados é mostrado na extremidade direita da figura.
[0540] Como evidenciado pelos resultados, os editores de nucleo- base que foram testados com sucesso desaminou ambos As e Cs na janela de edição de um determinado alvo. Os amplicons mostram A→G e C→T no mesmo amplicon. O uso de Polipeptídeo Catalítico de Edução de mRNA de Apolipoproteína B ou CDA (rAPOBEC1) também pode ser testado no sítio desejado.
[0541] Os Editores de nucleobase multiefetores descritos acima ainda são modificados pela inserção nos vetores de uma uracil-DNA gli- cosilase. Outras modalidades
[0542] A partir da descrição anterior, será evidente que variações e modificações podem ser feitas à invenção aqui descrita para adotá-la em vários usos e condições. Tais modalidades também estão dentro do escopo das reivindicações a seguir.
[0543] A citação de uma lista de elementos em qualquer definição de uma variável neste documento inclui as definições dessa variável como qualquer elemento único ou combinação (ou subcombinação) de elementos listados. A citação de uma modalidade aqui inclui essa mo- dalidade como qualquer modalidade única ou em combinação com quaisquer outras modalidades ou porções das mesmas. Incorporação por Referência
[0544] Todas as publicações, patentes e pedidos de patentes men- cionados nesta especificação são aqui incorporados por referência na mesma extensão como se cada publicação, patente ou pedido de pa- tente individual fosse especificamente e individualmente indicado para ser incorporado por referência.
Na ausência de qualquer indicação em contrário, publicações, patentes e pedidos de patente mencionados nesta especificação são incorporados aqui por referência em sua totali- dade

Claims (66)

REIVINDICAÇÕES
1. Polipeptídeo editor de nucleobase multiefetor, caracteri- zado pelo fato de que compreende um domínio tendo atividade de liga- ção específica de sequência de ácido nucleico e dois ou mais domínios de editor de nucleobase selecionados do grupo que consiste em uma adenosina desaminase, uma citidina desaminase e um editor abásico.
2. Polipeptídeo, de acordo com a reivindicação 1, caracteri- zado pelo fato de que ainda compreende um ou mais Sinais de Locali- zação Nuclear (NLS).
3. Polipeptídeo, de acordo com a reivindicação 2, caracteri- zado pelo fato de que o NLS é uma NLS bipartida.
4. Polipeptídeo, de acordo com a reivindicação 3, caracteri- zado pelo fato de que o polipeptídeo compreende uma NLS N-terminal e uma NLS C-terminal.
5. Polipeptídeo, de acordo com a reivindicação 1, caracteri- zado pelo fato de que ainda compreende um ou mais inibidores de Uracil DNA glicosilase (UGIs).
6. Polipeptídeo, de acordo com a reivindicação 1, caracteri- zado pelo fato de que o editor de nucleobase compreende uma adeno- sina desaminase ou um fragmento cataliticamente ativo da mesma.
7. Polipeptídeo, de acordo com a reivindicação 6, caracteri- zado pelo fato de que a adenosina desaminase é uma TadA desami- nase.
8. Polipeptídeo, de acordo com a reivindicação 7, caracteri- zado pelo fato de que a TadA desaminase é uma adenosina desami- nase modificada que não ocorre na natureza.
9. Polipeptídeo, de acordo com a reivindicação 8, caracteri- zado pelo fato de que o polipeptídeo compreende duas adenosina de- saminases que são as mesmas ou diferentes.
10. Polipeptídeo, de acordo com a reivindicação 9, caracte- rizado pelo fato de que as duas adenosina desaminases são capazes de formar heterodímeros ou homodímeros.
11. Polipeptídeo, de acordo com a reivindicação 10, caracte- rizado pelo fato de que os dois domínios de adenosina desaminase são TadA7.10 e TadA de tipo selvagem.
12. Polipeptídeo, de acordo com a reivindicação 1, caracte- rizado pelo fato de que o domínio tendo atividade de ligação específica de sequência de ácido nucleico é uma proteína de ligação de DNA pro- gramável de ácido nucleico (napDNAbp).
13. Polipeptídeo, de acordo com a reivindicação 12, caracte- rizado pelo fato de que o domínio de napDNAbp compreende uma Cas9 de morte de nuclease (dCas9), uma Cas9 nickase (nCas9), ou uma Cas9 ativa de nuclease.
14. Polipeptídeo, de acordo com a reivindicação 13, caracte- rizado pelo fato de que a napDNAbp é selecionado do grupo que con- siste em Cas9, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i, ou fragmen- tos ativos dos mesmos.
15. Polipeptídeo, de acordo com a reivindicação 14, caracte- rizado pelo fato de que o domínio de napDNAbp compreende um domí- nio catalítico capaz de clivar o filamento de complemento reverso da sequência de ácido nucleico.
16. Polipeptídeo, de acordo com a reivindicação 14, caracte- rizado pelo fato de que o domínio de napDNAbp não compreende um domínio catalítico capaz de clivar a sequência de ácido nucleico.
17. Polipeptídeo, de acordo com a reivindicação 14, caracte- rizado pelo fato de que a Cas9 é dCas9 ou nCas9.
18. Polipeptídeo, de acordo com a reivindicação 14, caracte- rizado pelo fato de que a Cas9 é dCas9.
19. Polipeptídeo, de acordo com a reivindicação 14, caracte- rizado pelo fato de que a Cas9 é nCas9.
20. Polipeptídeo, de acordo com a reivindicação 1, caracte- rizado pelo fato de que a citidina desaminase é citosina desaminase de lampreia-marinha (Petromyzon marinus) 1 (pCDM), ou citidina desami- nase induzida por ativação (AICDA).
21. Polipeptídeo, de acordo com a reivindicação 1, caracte- rizado pelo fato de que o polipeptídeo compreende um editor de nucleo- base abásico.
22. Polipeptídeo, de acordo com a reivindicação 5, caracte- rizado pelo fato de que as uma ou mais UGIs são derivadas de Bacte- riófago Bacillus subtilis PBS1 e inibem a atividade de UDG humana.
23. Polipeptídeo editor de nucleobase multiefetor, caracteri- zado pelo fato de que compreende um ou mais Sinais de Localização Nuclear (NLS), um napDNAbp, um inibidor de Uracil DNA glicosilase, uma adenosina desaminase e uma citidina desaminase.
24. Polipeptídeo, de acordo com a reivindicação 23, caracte- rizado pelo fato de que o polipeptídeo compreende dois NLS.
25. Polipeptídeo, de acordo com a reivindicação 23, caracte- rizado pelo fato de que uma NLS é uma NLS bipartida.
26. Polipeptídeo, de acordo com a reivindicação 23, caracte- rizado pelo fato de que o polipeptídeo compreende dois inibidores de Uracil DNA glicosilase.
27. Polipeptídeo, de acordo com a reivindicação 23, caracte- rizado pelo fato de que o polipeptídeo compreende duas adenosina de- saminases e uma citidina desaminase, ou um editor de nucleobase abá- sico e uma citidina desaminase, ou um editor de nucleobase abásico e uma adenosina desaminase.
28. Polipeptídeo editor de nucleobase multiefetor, caracteri- zado pelo fato de que compreende os seguintes domínios A-C, A-D, ou
A-E: NH2-[A-B-C]-COOH, NH2-[A-B-C-D]-COOH, ou NH2-[A-B-C-D-E]-COOH em que A e C ou A, C, e E, cada um, compreende um ou mais dos seguintes: um domínio de adenosina desaminase ou um fragmento ativo do mesmo, um domínio de citidina desaminase ou um fragmento ativo do mesmo, um domínio de DNA glicosilase ou um fragmento ativo do mesmo; e em que B ou B e D, cada um, compreendem um ou mais domínios tendo atividade de ligação específica de sequência de ácido nucleico.
29. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 28, caracterizado pelo fato de que compreende: NH2-[An-Bo-Cn]-COOH, NH2-[An-Bo-Cn-Do]-COOH, ou NH2-[An-Bo-Cp-Do-Eq]-COOH; em que A e C ou A, C, e E, cada um, compreendem um ou mais dos seguintes: um domínio de adenosina desaminase ou um fragmento ativo do mesmo, um domínio de citidina desaminase ou um fragmento ativo do mesmo, e um domínio de DNA glicosilase ou um fragmento ativo do mesmo; e em que n é um número inteiro: 1, 2, 3, 4, ou 5, em que p é um número inteiro: 0, 1, 2, 3, 4, ou 5; em que q é um número inteiro 0,
1, 2, 3, 4, ou 5; e em que B ou B e D, cada um, compreendem um domínio tendo atividade de ligação específica de sequência de ácido nucleico; e em que o é um número inteiro: 1, 2, 3, 4, ou 5.
30. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 28 ou 29, caracterizado pelo fato de que compre- ende uma ou mais sequências de localização nuclear.
31. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 30, caracterizado pelo fato de que pelo menos uma das referidas sequências de localização nuclear está no terminal N ou terminal C.
32. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 31, caracterizado pelo fato de que o sinal de locali- zação nuclear é um sinal de localização nuclear bipartido.
33. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 28 ou 29, caracterizado pelo fato de que um ou mais domínios são ligados por um ligante.
34. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 28 ou 29, caracterizado pelo fato de que a adeno- sina desaminase é uma TadA desaminase.
35. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 34, caracterizado pelo fato de que a TadA é uma adenosina desaminase modificada que não ocorre na natureza.
36. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 35, caracterizado pelo fato de que o polipeptídeo compreende dois domínios de adenosina desaminase que são os mes- mos ou diferentes.
37. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 36, caracterizado pelo fato de que os dois domínios de adenosina desaminase são capazes de formar hetero ou homodíme- ros.
38. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 36, caracterizado pelo fato de que os domínios de adenosina desaminase são TadA7.10 e TadA de tipo selvagem.
39. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 28 ou 29, caracterizado pelo fato de que o domínio tendo atividade de ligação específica de sequência de ácido nucleico é uma proteína de ligação de DNA programável de ácido nucleico (napD- NAbp).
40. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 39, caracterizado pelo fato de que o domínio de napDNAbp compreende uma Cas9 de morte de nuclease (dCas9), uma Cas9 nickase (nCas9), ou uma Cas9 ativa de nuclease.
41. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 40, caracterizado pelo fato de que a napDNAbp é selecionado do grupo que consiste em Cas9, Cas12a/Cpfl, Cas12b/C2cl, Cas12c/C2c3, Cas12d/CasY, Cas12e/CasX, Cas12g, Cas12h, e Cas12i, ou fragmentos ativos dos mesmos.
42. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 41, caracterizado pelo fato de que o domínio de napDNAbp compreende um domínio catalítico capaz de clivar o fila- mento de complemento reverso da sequência de ácido nucleico.
43. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 41, caracterizado pelo fato de que o domínio de napDNAbp não compreende um domínio catalítico capaz de clivar a se- quência de ácido nucleico.
44. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 41, caracterizado pelo fato de que a Cas9 é dCas9 ou nCas9.
45. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 41, caracterizado pelo fato de que a napDNAbp compreende um editor de nucleobase.
46. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 45, caracterizado pelo fato de que o editor de nu- cleobase compreende uma citidina desaminase ou uma adenosina de- saminase.
47. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 46, caracterizado pelo fato de que a citidina desa- minase é citosina desaminase de lampreia-marinha (Petromyzon mari- nus) 1 (pCDM), ou citidina desaminase induzida por ativação (AICDA).
48. Polipeptídeo editor de nucleobase multiefetor, de acordo com a reivindicação 23, caracterizado pelo fato de que o polipeptídeo compreende dois inibidores de Uracil DNA glicosilase.
49. Molécula de polinucleotídeo, caracterizada pelo fato de que codifica o polipeptídeo editor de nucleobase multiefetor, como defi- nido em qualquer uma das reivindicações 1 a 48.
50. Molécula de polinucleotídeo, de acordo com a reivindica- ção 49, caracterizada pelo fato de que o polinucleotídeo é otimizado em códon.
51. Vetor de expressão, caracterizado pelo fato de que com- preende uma molécula de polinucleotídeo, como definida na reivindica- ção 49 ou 50.
52. Vetor de expressão, de acordo com a reivindicação 51, caracterizado pelo fato de que o vetor de expressão é um vetor de ex- pressão de mamífero.
53. Vetor de expressão, de acordo com a reivindicação 51, caracterizado pelo fato de que o vetor é um vetor viral selecionado do grupo que consiste em vírus adenoassociado (AAV), vetor retroviral, ve-
tor adenoviral, vetor lentiviral, vetor do vírus Sendai, e vetor de herpes- vírus.
54. Vetor de expressão, de acordo com qualquer uma das reivindicações 51 a 53, caracterizado pelo fato de que o vetor compre- ende um promotor.
55. Célula, caracterizada pelo fato de que compreende o po- linucleotídeo, como definido na reivindicação 49 ou 50, ou o vetor, como definido em qualquer uma das reivindicações 51 a 54.
56. Célula, de acordo com a reivindicação 55, caracterizada pelo fato de que a célula é uma célula bacteriana, célula vegetal, célula de inseto ou célula de mamífero.
57. Complexo molecular, caracterizado pelo fato de que compreende o polipeptídeo editor de nucleobase multiefetor, como de- finido em qualquer uma das reivindicações 1 a 48, e um ou mais de um RNA guia, tracrRNA ou molécula de DNA alvo.
58. Kit, caracterizado pelo fato de que compreende o poli- peptídeo editor de nucleobase multiefetor, como definido em qualquer uma das reivindicações 1 a 48, o polinucleotídeo, como definido na rei- vindicação 49 ou 50, o vetor de expressão, como definido em qualquer uma das reivindicações 51 a 54, ou o complexo molecular, como defi- nido na reivindicação 57.
59. Método de editar uma nucleobase de uma sequência de ácido nucleico, o método caracterizado pelo fato de que compreende contactar uma sequência de ácido nucleico com um editor de base com- preendendo: o polipeptídeo editor de nucleobase multiefetor, como de- finido em qualquer uma das reivindicações 1 a 48, e converter uma pri- meira nucleobase da sequência de ácido nucleico em uma segunda nu- cleobase.
60. Método, de acordo com a reivindicação 59, caracterizado pelo fato de que a primeira nucleobase é citosina e a segunda nucleo- base é timidina ou a primeira nucleobase é adenina e a segunda nu- cleobase é guanina.
61. Método, de acordo com a reivindicação 59, caracterizado pelo fato de que o método ainda compreende converter uma terceira nucleobase em uma quarta nucleobase.
62. Método, de acordo com a reivindicação 61, caracterizado pelo fato de que a terceira nucleobase é guanina e a quarta nucleobase é adenina ou a terceira nucleobase é timina e a quarta nucleobase é citosina.
63. Método, de acordo com a reivindicação 59, caracterizado pelo fato de que a sequência de ácido nucleico codifica uma região de determinação de complementaridade (CDR).
64. Método de editar uma sequência reguladora presente no genoma de uma célula, o método caracterizado pelo fato de que com- preende contactar uma sequência reguladora com um editor de base compreendendo: o polipeptídeo editor de nucleobase multiefetor, como definido em qualquer uma das reivindicações 1 a 48, e converter uma primeira e segunda nucleobase da sequência de DNA em uma terceira e quarta nucleobase.
65. Método de editar um genoma de uma célula, o método caracterizado pelo fato de que compreende contactar o genoma com um editor de base compreendendo: o polipeptídeo editor de nucleobase multiefetor, como definido em qualquer uma das reivindicações 1 a 48, e converter uma primeira e segunda nucleobase da sequência de DNA em uma terceira e quarta nucleobase.
66. Método, de acordo com a reivindicação 65, caracterizado pelo fato de que ainda compreende caracterizar o efeito da edição no genoma.
Editor de base duplo de CG para TA e AT para GC
Petição 870210010921, de 01/02/2021, pág. 6/972 nCas9 de S.pyogenes (D10A) 1/33
Petição 870210010921, de 01/02/2021, pág. 7/972 Editor de base duplo de CG para TA e AT para GC nCas9 de S.pyogenes (D10A) 2/33
Ligante longo nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A)
Testadas 3 versões de editor de nucleobase em sequências de polinucleotídeo exemplificativas
Petição 870210010921, de 01/02/2021, pág. 8/972 nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A) 3/33
Ligante longo nCas9 de S.pyogenes (D10A)
nCas9 de S.pyogenes (D10A)
Petição 870210010921, de 01/02/2021, pág. 10/972 nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A) 5/33
Ligante longo nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A)
Ligante longo nCas9 de S.pyogenes (D10A)
Editor de base duplo de CG para TA e AT para GC
Petição 870210010921, de 01/02/2021, pág. 13/972 Leituras totais 8/33
Leituras totais
Não tratado
Leituras totais nCas9 de S.pyogenes (D10A)
Número de leituras Janela
Editor de Nucleobase Multiefetor ABE7.10 apenas Sìtio de Hek 2 Sìtio de Hek 2
Editor de Nucleobase Multiefetor ABE7.10 apenas
Editor de Nucleobase Multiefetor ABE7.10 apenas
Editor de Nucleobase Multiefetor ABE7.10 apenas
Editor de Nucleobase Multiefetor ABE7.10 apenas
Leituras ignoradas
Petição 870210010921, de 01/02/2021, pág. 24/972 Inserções: 377
Exclusões: 732
Não-indels: 196218
Taxa de indel 19/33
Leituras ignoradas
Inserções: 1126
Exclusões: 4567
Não-indels: 206693
Taxa de indel
Não tratado
R Prom mp otor de A Intensidade de CMV de CMV o tor om Pr Promotor de Iac Si Reverso na lp Reverso oli (A )de bG
H
Palavras-chave Fonte: Constructo de DNA sintético Organismo: constructo de DNA sintético Referência 1 (bases 1 a 8811) Autores: Koblan LW, Doman JL, Wilson C, Levy JM, Tay T, Newby GA, Maianti JP, Raguram A, Liu DR Título: Melhoramento de editores de base de citidina e adenina por otimização de expressão e reconstrução ancestral.
JOURNAL Nat Biotechnol. 29 de maio de 2018. pii: nbt.4172. doi: 10.1038/nbt.4172.
Intensif icador de CM pR V m deA tor mo Pro Sinal p oli(A) d e bGH
Reverso Reverso
Definição: edição de base C:G-a-T:A.
Palavras-chave Font/Organismo: Constructo de DNA sintético Referência 1: (bases 1 a 8961) Autores: Koblan LW, Doman JL, Wilson C, Levy JM, Tay T, Newby GA, Maianti JP, Raguram A, Liu DR Título: Melhoramento de editores de base de citidina e adenina por otimização de expressão e reconstrução ancestral.
JOURNAL Nat Biotechnol. 29 de maio de 2018. pii: nbt.4172. doi: 10.1038/nbt.4172.
Promotor de CMV R Pro p mo Am tor T7 r de m oto o Pr Sinal p oli(A) d e bGH
Reverso Reverso
LOCUS Exportado: 8961 bp ds-DNA circular SYN 26-JUN-2018 Definição: edição de base C:G-a-T:A Palavras-chave: pCMV_BE4max Fonte: constructo de DNA sintético
BR112021001904-9A 2018-08-03 2019-08-02 editores de nucleobase multiefetores e métodos de usar os mesmos para modificar uma sequência alvo de ácido nucleico BR112021001904A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862714550P 2018-08-03 2018-08-03
US62/714,550 2018-08-03
PCT/US2019/044935 WO2020028823A1 (en) 2018-08-03 2019-08-02 Multi-effector nucleobase editors and methods of using same to modify a nucleic acid target sequence

Publications (1)

Publication Number Publication Date
BR112021001904A2 true BR112021001904A2 (pt) 2021-05-04

Family

ID=69232046

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021001904-9A BR112021001904A2 (pt) 2018-08-03 2019-08-02 editores de nucleobase multiefetores e métodos de usar os mesmos para modificar uma sequência alvo de ácido nucleico

Country Status (9)

Country Link
US (1) US20210277379A1 (pt)
EP (1) EP3830263A4 (pt)
JP (1) JP2021532794A (pt)
KR (1) KR20210041008A (pt)
CN (1) CN112805379A (pt)
AU (1) AU2019316094A1 (pt)
BR (1) BR112021001904A2 (pt)
CA (1) CA3108281A1 (pt)
WO (1) WO2020028823A1 (pt)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
CN111757937A (zh) 2017-10-16 2020-10-09 布罗德研究所股份有限公司 腺苷碱基编辑器的用途
DE202019005567U1 (de) 2018-03-14 2021-02-16 Arbor Biotechnologies, Inc. Neue CRISPR-DNA-Targeting-Enzyme und -Systeme
US20210198664A1 (en) 2018-05-16 2021-07-01 Arbor Biotechnologies, Inc. Novel crispr-associated systems and components
EP3921417A4 (en) 2019-02-04 2022-11-09 The General Hospital Corporation ADENINE DNA BASE EDITOR VARIANTS WITH REDUCED OFF-TARGET RNA EDITING
CA3236512A1 (en) 2019-02-13 2020-08-20 Beam Therapeutics Inc. Compositions and methods for treating hemoglobinopathies
US20230101597A1 (en) * 2019-02-13 2023-03-30 Beam Therapeutics Inc. Compositions and methods for treating alpha-1 antitrypsin deficiency
DE112020001342T5 (de) 2019-03-19 2022-01-13 President and Fellows of Harvard College Verfahren und Zusammensetzungen zum Editing von Nukleotidsequenzen
WO2020241869A1 (ja) * 2019-05-30 2020-12-03 国立大学法人東京大学 2種の核酸塩基変換酵素が融合されたCasタンパク質を利用したゲノム編集システム
EP4021945A4 (en) * 2019-08-30 2023-11-15 The General Hospital Corporation DNA-BASED COMBINATORIAL ADENINE AND CYTOSINE EDITORS
EP4097229A1 (en) * 2020-01-30 2022-12-07 Pairwise Plants Services, Inc. Compositions, systems, and methods for base diversification
WO2021163587A1 (en) * 2020-02-13 2021-08-19 Beam Therapeutics Inc. Compositions and methods for engraftment of base edited cells
EP4103705A4 (en) * 2020-02-14 2024-02-28 Ohio State Innovation Foundation NUCLEOBASE EDITORS AND METHODS OF USE THEREOF
EP4143315A1 (en) 2020-04-28 2023-03-08 The Broad Institute Inc. <smallcaps/>? ? ?ush2a? ? ? ? ?targeted base editing of thegene
EP4146804A1 (en) 2020-05-08 2023-03-15 The Broad Institute Inc. Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
US20230235305A1 (en) * 2020-06-16 2023-07-27 Arbor Biotechnologies, Inc. Cells modified by a cas12i polypeptide
WO2022242660A1 (en) * 2021-05-17 2022-11-24 Wuhan University System and methods for insertion and editing of large nucleic acid fragments
AU2022307018A1 (en) * 2021-07-05 2024-02-15 Genkore Inc. Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
CN115704015A (zh) * 2021-08-12 2023-02-17 清华大学 基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统
WO2023050169A1 (zh) * 2021-09-29 2023-04-06 深圳先进技术研究院 一种在基因组上高通量实现tag到taa转换的方法
WO2023102550A2 (en) 2021-12-03 2023-06-08 The Broad Institute, Inc. Compositions and methods for efficient in vivo delivery
CN114582419B (zh) * 2022-01-29 2023-02-10 苏州大学 一种基于滑动窗口的基因序列多聚腺苷酸尾巴提取方法
CN114606227B (zh) * 2022-02-22 2024-03-08 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN116836962B (zh) * 2023-06-28 2024-04-05 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1920064B1 (en) * 2005-07-07 2014-12-24 Quanta Biosciences, Inc. Compositions and methods for increasing amplification efficiency
JP6620018B2 (ja) * 2012-12-06 2019-12-11 シグマ−アルドリッチ・カンパニー・リミテッド・ライアビリティ・カンパニーSigma−Aldrich Co., LLC Crisprに基づくゲノム修飾および制御
CN111206032A (zh) * 2013-12-12 2020-05-29 布罗德研究所有限公司 用于基因组编辑的crispr-cas系统和组合物的递送、用途和治疗应用
CN111471674A (zh) * 2014-03-05 2020-07-31 国立大学法人神户大学 特异性转变靶向dna序列的核酸碱基的基因组序列的修饰方法、及其使用的分子复合体
US10920215B2 (en) * 2014-11-04 2021-02-16 National University Corporation Kobe University Method for modifying genome sequence to introduce specific mutation to targeted DNA sequence by base-removal reaction, and molecular complex used therein
ES2902338T3 (es) * 2015-09-09 2022-03-28 Univ Kobe Nat Univ Corp Método para modificar una secuencia genómica que convierte específicamente una nucleobase de una secuencia de ADN diana, y complejo molecular utilizado en dicho método
CN108513575A (zh) * 2015-10-23 2018-09-07 哈佛大学的校长及成员们 核碱基编辑器及其用途
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
US10745677B2 (en) * 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection

Also Published As

Publication number Publication date
US20210277379A1 (en) 2021-09-09
AU2019316094A1 (en) 2021-02-25
CN112805379A (zh) 2021-05-14
EP3830263A4 (en) 2022-05-04
EP3830263A1 (en) 2021-06-09
CA3108281A1 (en) 2020-02-06
WO2020028823A1 (en) 2020-02-06
KR20210041008A (ko) 2021-04-14
JP2021532794A (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
US20210277379A1 (en) Multi-effector nucleobase editors and methods of using same to modify a nucleic acid target sequence
US11155803B2 (en) Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence
US20210380955A1 (en) Methods of editing single nucleotide polymorphism using programmable base editor systems
US20210371858A1 (en) Methods of suppressing pathogenic mutations using programmable base editor systems
US20230140953A1 (en) Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20220136012A1 (en) Nucleobase editors having reduced off-target deamination and methods of using same to modify a nucleobase target sequence
US20220098593A1 (en) Splice acceptor site disruption of a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20230017979A1 (en) Compositions and methods for non-toxic conditioning
US20220313799A1 (en) Compositions and methods for editing a mutation to permit transcription or expression
US20230070861A1 (en) Compositions and methods for treating hepatitis b
JP2022533673A (ja) プログラム可能塩基エディターシステムを用いた一塩基多型編集法
JP2024095696A (ja) マルチエフェクター核酸塩基エディターおよびそれを用いて核酸標的配列を改変する方法