BR112021007229A2

BR112021007229A2 - métodos para inserção dirigida de dna em genes

Info

Publication number: BR112021007229A2
Application number: BR112021007229-2A
Authority: BR
Inventors: Nicholas Baltes
Original assignee: Blueallele, Llc
Priority date: 2018-10-16
Filing date: 2019-10-14
Publication date: 2021-08-10
Also published as: GB2611929B; US20230212553A1; GB202106906D0; CA3116553A1; CN113166754A; US20240141321A1; SG11202103917VA; US20200115700A1; US11993770B2; US12054706B2; JP7460643B2; US11254930B2; US20240141319A1; AU2023202878A1; GB202300487D0; US20210332347A1; GB2593353B; IL282290A; US20240141320A1; KR20210091167A

Abstract

MÉTODOS PARA INSERÇÃO DIRIGIDA DE DNA EM GENES. Métodos e composições para modificar a sequência de codificação de genes endógenos usando endonucleases de corte raro e transposases. Os métodos e composições descritos neste documento podem ser usados para modificar a sequência de codificação de genes endógenos.

Description

MÉTODOS PARA INSERÇÃO DIRIGIDA DE DNA EM GENES REFERÊNCIA A PEDIDOS RELACIONADOS

[001] Este pedido reivindica o benefício de pedidos previamente depositados e copendentes USSN 62/746.497 depositado em 16 de outubro de 2018, USSN 62/830.654 depositado em 8 de abril de 2019 e ETSSN 62/864.432 depositado em 20 de junho de 2019, cujos teores estão incorporados neste documento a título de referência em sua totalidade.

LISTAGEM DE SEQUÊNCIAS

[002] O presente pedido contém uma Listagem de Sequência que foi submetida em formato ASCII por meio de EFS-Web e está por meio disso incorporada por referência em sua totalidade. A dita cópia ASCII, criada em 14 de outubro de 2019, é denominada SEQUENCE_LISTING_BA2018- 4WO_Pl2987WOOO.txt e tem 517.036 bytes de tamanho.

CAMPO TÉCNICO

[003] O presente documento está no campo de edição de genoma. Mais especificamente, este documento se refere a modificação direcionada de genes endógenos usando endonucleases de corte raro ou transposases.

FUNDAMENTOS

[004] Distúrbios monogênicos são causados por uma ou mais mutações em um único gene, exemplos dos quais incluem doença da célula falciforme (gene beta-hemoglobina), fibrose cística (gene regulador de condutância transmembranar de fibrose cística), e doença de Tay-Sachs (gene beta- hexosaminidase A). Distúrbios monogênicos têm sido um interesse para terapia genética, já que substituição do gene defeituoso com uma cópia funcional poderia fornecer benefícios terapêuticos. Entretanto, um estrangulamento para gerar terapias eficazes inclui o tamanho da cópia funcional do gene. Muitos métodos de distribuição, incluindo aqueles que usam vírus, têm limitações tamanho que impedem a distribuição de grandes transgenes. Além disso, muitos genes têm padrões de splicing alternativos que resultam em um único gene que codifica para múltiplas proteínas. Métodos para corrigir regiões parciais de um gene defeituoso podem fornecer um meio alternativo para tratar distúrbios monogênicos.

SUMÁRIO

[005] Edição de gene constitui uma promessa para corrigir mutações observadas em distúrbios genéticos; entretanto, muitos desafios permanecem para criar terapias eficazes para distúrbios individuais, incluindo aqueles que são causados por mutações de ganho de função, ou onde reparo preciso é necessário. Esses desafios são vistos com distúrbios tais como ataxia espinocerebelar 3 e ataxia espinocerebelar 6, em que o distúrbio é causado por mutações de ganho de função (repetição de trinucleotídeo expandido) na extremidade 3’ dos genes.

[006] Os métodos descritos neste documento fornecem abordagens inéditas para corrigir mutações encontradas na extremidade 3’ dos genes. A divulgação neste documento é baseada pelo menos em parte no projeto de transgenes bimódulos compatíveis com integração através de múltiplas vias de reparo. Os transgenes descritos neste documento podem ser integrados nos genes pela via de recombinação homóloga, da via de junção de extremidade não homóloga, ou tanto da via de junção de recombinação homóloga quanto da extremidade não homóloga, ou através de transposição. Além disso, o resultado de integração em qualquer caso (HR, NHEJ direta, NHEJ reverso; transposição direta, ou transposição reversa) pode resultar em correção/alteração precisa do produto da proteína do gene alvo. Os transgenes descritos neste documento podem ser usados para fixar ou introduzir mutações na região 3’ dos genes de interesse. Métodos são particularmente úteis em casos onde edição precisa dos genes é necessária, ou onde o gene endógeno mutado sendo direcionado não pode ser ‘substituído’ por uma cópia sintética em virtude de exceder a capacidade de tamanho de vetores padrões ou vetores virais. Os métodos descritos neste documento podem ser usados para pesquisa aplicada (por exemplo, terapia genética) ou pesquisa básica (por exemplo, criação de modelos animais, ou compreensão da função genética).

[007] Os métodos descritos neste documento são compatíveis com veículos de distribuição in vivo atuais (por exemplo, vetor viral adenoassociado e nanopartículas de lipídio), e eles abordam diversos desafios com obtenção de alteração precisa de produtos genéticos.

[008] Em uma modalidade, este documento caracteriza um método para integrar um transgene dentro de um gene endógeno. O método pode incluir distribuição de um transgene, onde o transgene aloja uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação parcial, e um primeiro e segundo terminador. Em algumas modalidades, os primeiro e segundo terminadores podem ser substituídos com um único terminador bidirecional. O método adicional inclui administrar uma ou mais endonucleases de corte raro direcionadas para um sítio dentro do gene endógeno, onde o transgene é então integrado dentro do gene endógeno. O transgene pode ser direcionado para um sítio dentro de um íntron ou em uma junção do íntron-éxon. As primeira e segunda sequências de codificação parciais podem ser orientadas em uma orientação cauda-a-cauda, de maneira tal que integração do transgene em qualquer direção (isto é, direta ou reversa) por NHEJ pode resultar em alteração precisa do produto da proteína do gene. Em outras modalidades, o transgene pode incluir um braço de homologia esquerdo e direito para permitir integração por HR. Esses transgenes podem ser alojados em um vetor viral adenoassociado (AAV), em que o transgene pode ser integrado por meio de HR (através dos braços de homologia) ou por direção direta de NHEJ ou direção reversa de NHEJ (através de integração direta do vetor AAV em uma quebra de fita dupla direcionada). Em uma modalidade, vetores com uma primeira e segunda sequência de codificação e um braço de homologia esquerdo e direito pode incluir adicionalmente um primeiro e segundo sítios para clivagem por uma ou mais endonucleases de corte raro. Clivagem por uma ou mais endonucleases de corte raro pode resultar em liberação de um transgene linear com braços de homologia, capaz de integrar no genoma através de HR ou NHEJ. Em uma outra modalidade, vetores com uma primeira e segunda sequência de codificação podem ser flanqueados por um primeiro e segundo sítios para clivagem por uma ou mais endonucleases de corte raro. Clivagem por uma ou mais endonucleases de corte raro pode resultar em liberação de um transgene linear, capaz de integrar no genoma através de NHEJ. Em uma outra modalidade, vetores com uma primeira e segunda sequência de codificação podem ser flanqueados por uma extremidade de transposon esquerda e direita. Distribuição de uma transposase associado a CRISPR (por exemplo, Cas6/7/8 junto com TniQ, TnsA, TnsB, e TnsC) pode resultar em integração do transgene através de transposição.

[009] Os métodos podem ser usados para alterar o terminal C de proteínas produzidas por genes endógenos. Em algumas modalidades, o gene endógeno pode incluir o gene ATXN3 ou gene CACNA1A. ATXN3 é um gene que codifica a enzima ataxina-3. Ataxina-3 é um membro no sistema ubiquitina- proteassoma que facilita a destruição de proteínas em excesso ou danificadas. Ataxia espinocerebelar tipo 3 é um distúrbio genético causado por uma expansão da repetição de trinucleotídeo na extremidade 3’ do gene ATXN3. CACNA1A é um gene que codifica proteínas envolvidas na formação de canais de cálcio. Ataxia espinocerebelar tipo 6 é um distúrbio genético causado por mutações no gene CACNA1A. As mutações que causam SCA6 incluem uma expansão da repetição de trinucleotídeo na extremidade 3’ do gene CACNA1A. Em algumas modalidades, os métodos fornecidos neste documento podem ser usados para alterar a extremidade 3’ do gene ATXN3 ou gene CACNA1A endógeno. Em modalidades específicas, o alvo para integração dos transgenes descritos neste documento podem ser íntron 9 do gene ATXN3 ou íntron 46 do gene CACNA1A.

[0010] A menos que de outra forma definida, todos os termos técnicos e científicos usados neste documento têm o mesmo significado comumente entendido por um versado na técnica ao qual essa invenção pertence. Embora os métodos e materiais semelhantes ou equivalentes aos descritos neste documento possam ser usados para praticar a invenção, métodos e materiais adequados são descritos abaixo. Todas as publicações, pedidos de patente, patentes, e outras referências mencionadas neste documento estão incorporados por referência em sua totalidade para todos os propósitos. Em caso de conflito, o presente relatório descritivo, incluindo definições, prevalecerá. Além do mais os materiais, métodos, e exemplos são apenas ilustrativos e não destinados a ser limitativos.

[0011] Os detalhes de uma ou mais modalidades da invenção são apresentados na descrição abaixo. Outras características, objetivos, e vantagens da invenção ficarão aparentes a partir da descrição e das reivindicações.

DESCRIÇÃO DOS DESENHOS

[0012] A FIG. 1 é uma ilustração dos transgenes para a inserção direcionada em genes endógenos. TS1, sítio alvo 1; SA1, sítio aceptor de splice 1, CDS1, sequência de codificação 1; Tl, terminador 1, TS2, sítio alvo 2; SA2,

sítio aceptor de splice 2, CDS2, sequência de codificação 2; T2, terminador 2; HA1, braço de homologia 1; HA2, braço de homologia 2; BT1, terminador bidirecional 1; AS1, sequência adicional 1; AS2, sequência adicional 2.

[0013] FIG. 2 é uma ilustração mostrando integração de um transgene em um gene exemplificativo. O transgene compreende dois sítios alvos para uma ou mais endonucleases de corte raro, duas sequências aceptoras de splice, duas sequências de codificação (3.1 e 3.2) e dois terminadores (T). Integração se dá através de união de extremidade não homóloga (NHEJ).

[0014] A FIG. 3 é uma ilustração mostrando integração de um transgene em um gene exemplificativo. O transgene compreende dois braços de homologia, dois sítios alvos para uma ou mais endonucleases de corte raro, duas sequências aceptoras de splice, duas sequências de codificação (3.1 e 3.2) e dois terminadores. Integração se dá tanto através de recombinação homóloga (HR) quanto da união de extremidade não homóloga (NHEJ).

[0015] A FIG. 4 é uma ilustração de éxon 46, íntron 46 e íntron 47 do gene CACNA1A. É também mostrado o transgene pB101 1-D1 para integração no gene CACNA1A.

[0016] A FIG. 5 é uma ilustração dos resultados de integração para o transgene pB101 1-D1 no gene CACNA1A.

[0017] A FIG. 6 é uma ilustração de éxon 9, íntron 9, éxon 10, íntron 10 e éxon 11 do gene ATXN3. É também mostrado o transgene pBl0l2-D1 para integração no gene ATXN3.

[0018] A FIG. 7 é uma ilustração dos resultados de integração para o transgene pBl0l2-D1 no gene ATXN3.

[0019] A FIG. 8 são imagens de géis detectando integração de transgenes no gene ATXN3. 1, ladder 100 bp com faixa de cima correndo a 1.517 bp; 2, junção 5’ de pBAH35; 3, junção 5’ de pBAH36; 4, junção 5’ de pBAH37; 5,

junção 3’ de pBAH35; 6, junção 3’ de pBAH36; 7, junção 3’ de pBA1137; 8, ladder 1kb com faixas mais escuras correndo a 500 bp, 1.000 bp e 3.000 bp; 9, ladder 1kb com faixas mais escuras correndo a 500 bp, 1.000 bp e 3.000 bp; 10, junção 5’ invertida de pBA1135; 11, ladder 1kb com faixas mais escuras correndo a 500 bp, 1.000 bp e 3.000 bp; 12, junção 5’ invertida de pBA1136; 13, ladder 1kb com faixas mais escuras correndo a 500 bp, 1.000 bp e 3.000 bp; 14; par iniciador oNJB156+oNJB113; 15, par iniciador 114+162; 16, par iniciador oNJB1 I6+0NJBI 13; 17, par iniciador oNJB114+oNJB170; 18, par iniciador oNJB1 67+oNJB 170; 19, ladder 100 bp com a faixa escura correndo a 500 bp; 20, DNA genômico a partir de transfecção com pBA1135 e nuclease; 21, DNA genômico a partir de transfecção com pBA1136 e nuclease; 22, DNA genômico a partir de transfecção com pBA1137 e nuclease; 23, DNA genômico a partir de transfecção com água; 24, DNA sem controle.

DESCRIÇÃO DETALHADA

[0020] Métodos e composições para modificar a sequência de codificação dos genes endógenos são divulgados neste documento. Em algumas modalidades, os métodos incluem inserir um transgene em um gene endógeno, em que o transgene fornece uma sequência de codificação parcial que é usada em substituição a sequência de codificação do gene endógeno.

[0021] Em uma modalidade, este documento caracteriza um método de integrar um transgene em um gene endógeno, o método incluindo administrar um transgene, em que o transgene compreende uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação parcial, e um terminador bidirecional ou um primeiro e segundo terminador, e administrar uma ou mais endonuclease de corte raro direcionada para um sítio dentro do gene endógeno, em que o transgene é integrado dentro do gene endógeno. O método pode incluir projetar o transgene para ter o primeiro aceptor de splice operacionalmente ligado à primeira sequência de codificação parcial e o segundo aceptor de splice operacionalmente ligado à segunda sequência de codificação parcial.

O arranjo pode também incluir ter a primeira sequência de codificação parcial operacionalmente ligada ao primeiro terminador, e a segunda sequência de codificação parcial operacionalmente ligada ao segundo terminador.

Em uma modalidade, os dois terminadores podem ser substituídos com um único terminador bidirecional.

Em uma modalidade, transgenes com primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação parciais, e primeiro e segundo terminadores podem ser orientados em uma orientação cauda-a-cauda.

Os transgenes com uma orientação cauda-a-cauda de sequências podem compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice.

Em uma outra modalidade, os transgenes podem compreender um braço de homologia esquerdo e direito que flanqueia os primeiro e segundo aceptores de splice.

Nesta modalidade, o transgene pode ser alojado dentro de um vetor viral adenoassociado.

Em uma outra modalidade, o transgene pode compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice.

Os primeiro e segundo sítios alvos podem flanquear os primeiro e segundo braços de homologia.

Em modalidades, os transgenes descritos neste documento podem ser integrados dentro de um íntron do gene endógeno ou em uma junção do íntron-éxon.

Os transgenes podem ser integrados dentro de um íntron, ou na junção do íntron-éxon do gene ATXN3 ou gene CACNA1A.

O transgene pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 10 de um gene ATXN3 não patogênico e pode ser direcionado para o íntron 9, ou a junção do íntron 9 éxon 10, de um gene ATXN3 patogênico. O transgene pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 47 de um gene CACNA1A não patogênico e pode ser direcionado para o íntron 46, ou a junção do íntron 46 éxon 47, de um gene CACNA1A patogênico. Em certas modalidades, a endonuclease de corte raro pode ser uma nuclease CRISPR/Cas12a ou uma nuclease CRISPR/Cas9. As primeira e segunda sequências de codificação parciais codificam os mesmos aminoácidos. Em uma modalidade, as primeira e segunda sequências de codificação podem diferir em sequência de ácido nucleico, mas codificam os mesmos aminoácidos. O transgene pode ser abrigado em um vetor, em que o formato do vetor é selecionado a partir de DNA linear de fita dupla, DNA circular de fita dupla, ou um vetor viral. O vetor viral pode incluir um vetor de adenovírus, um vetor viral adenoassociado, ou um vetor de lentivírus. Os métodos descritos neste documento podem ser usados com um transgene igual ou menor que 4,7 kb. O transgene pode compreender uma primeira e segunda sequência de codificação parcial que codifica um peptídeo parcial de uma proteína funcional produzida pelo gene endógeno alvo. O gene endógeno alvo pode ser aberrante.

[0022] Em uma outra modalidade, este documento fornece polinucleotídeos de DNA com uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação parcial, um terminador bidirecional ou um primeiro e segundo terminador, opcionalmente, um primeiro e segundo braço de homologia, e, opcionalmente, um primeiro e segundo sítio alvo de endonuclease de corte raro. Os polinucleotídeos de DNA podem incluir um projeto tendo o primeiro aceptor de splice operacionalmente ligado à primeira sequência de codificação parcial e o segundo aceptor de splice operacionalmente ligado à segunda sequência de codificação.

Em uma modalidade, polinucleotídeos de DNA com primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação, e primeiro e segundo terminadores podem ser orientados em uma orientação cauda-a-cauda.

Os polinucleotídeos de DNA com uma orientação cauda-a-cauda de sequências podem compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice.

Em uma outra modalidade, os polinucleotídeos de DNA podem compreender um braço de homologia esquerdo e direito que flanqueia os primeiro e segundo aceptores de splice.

Nesta modalidade, o polinucleotídeo de DNA pode ser alojado dentro de um vetor viral adenoassociado.

Em uma outra modalidade, os polinucleotídeos de DNA podem compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice.

Em modalidades, os polinucleotídeos de DNA descritos neste documento podem ser integrados dentro de um íntron do gene endógeno ou em uma junção do íntron-éxon.

Os polinucleotídeos de DNA podem ser integrados dentro de um íntron, ou na junção do íntron-éxon do gene ATXN3 ou gene CACNA1A.

O polinucleotídeo de DNA pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 10 de um gene ATXN3 não patogênico.

O polinucleotídeo de DNA pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 47 de um gene CACNA1A não patogênico. As primeira e segunda sequências de codificação parciais codificam os mesmos aminoácidos. Em uma modalidade, as primeira e segunda sequências de codificação podem diferir em sequência de ácido nucleico, mas codificam os mesmos aminoácidos. Os polinucleotídeos de DNA podem ser abrigados em um vetor, em que o formato do vetor é selecionado a partir de DNA linear de fita dupla, DNA circular de fita dupla, ou um vetor viral. O vetor viral pode ser selecionado a partir de um vetor de adenovírus, um vetor viral adenoassociado, ou um vetor de lentivírus. Os polinucleotídeos de DNA descritos neste documento podem ser iguais ou menores que 4,7 kb.

[0023] Em uma modalidade, este documento caracteriza um método para integrar um transgene em um gene endógeno, o método incluindo administrar um transgene, em que o transgene compreende uma extremidade de transposon esquerda e direita, uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação parcial, e um terminador bidirecional ou um primeiro e segundo terminador, e administrar uma transposase direcionado para o gene endógeno, onde o transgene é integrado no gene endógeno. O método pode incluir projetar o transgene para ter o primeiro aceptor de splice operacionalmente ligado à primeira sequência de codificação parcial e o segundo aceptor de splice operacionalmente ligado à segunda sequência de codificação. O arranjo pode também incluir ter a primeira sequência de codificação parcial operacionalmente ligada ao primeiro terminador, e a segunda sequência de codificação parcial operacionalmente ligada ao segundo terminador. Em uma modalidade, os dois terminadores podem ser substituídos com um único terminador bidirecional. Em uma modalidade, transgenes com primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação, e primeiro e segundo terminadores podem ser orientados em uma orientação cauda-a-cauda.

Os transgenes com uma orientação cauda-a-cauda de sequências podem compreender ainda uma extremidade de transposon esquerda e direita flanqueado os primeiro e segundo aceptores de splice.

O transgene pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 10 de um gene ATXN3 não patogênico e pode ser direcionado para o íntron 9, ou a junção do íntron 9 éxon 10, de um gene ATXN3 patogênico.

O transgene pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 47 de um gene CACNA1A não patogênico e pode ser direcionado para o íntron 46, ou a junção do íntron 46 éxon 47, de um gene CACNA1A patogênico.

A transposase pode ser uma transposase CRISPR, onde a transposase CRISPR compreende a proteína Cas12k ou Cas6. As primeira e segunda sequências de codificação parciais codificam os mesmos aminoácidos.

Em uma modalidade, as primeira e segunda sequências de codificação podem diferir em sequência de ácido nucleico, mas codificam os mesmos aminoácidos.

O transgene pode ser abrigado em um vetor, em que o formato do vetor é selecionado a partir de DNA linear de fita dupla, DNA circular de fita dupla, ou um vetor viral.

O vetor viral iscan inclui um vetor de adenovírus, um vetor viral adenoassociado, ou um vetor de lentivírus.

Os métodos descritos neste documento podem ser usados com um transgene igual ou menor que 4,7 kb.

A extremidade esquerda pode compreender a sequência mostrada em SEQ ID NO:41, e a extremidade direita pode compreender a sequência mostrada em SEQ ID NO: 13.

[0024] Em uma outra modalidade, este documento fornece polinucleotídeos de DNA com uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação parcial, um terminador bidirecional ou um primeiro e segundo terminador, e uma extremidade de transposon esquerda e direita. Os polinucleotídeos de DNA podem incluir um projeto tendo o primeiro aceptor de splice operacionalmente ligado à primeira sequência de codificação parcial e o segundo aceptor de splice operacionalmente ligado à segunda sequência de codificação. O arranjo pode também incluir ter a primeira sequência de codificação parcial operacionalmente ligada ao primeiro terminador, e a segunda sequência de codificação parcial operacionalmente ligada ao segundo terminador. Em uma modalidade, os dois terminadores podem ser substituídos com um único terminador bidirecional. Em uma modalidade, polinucleotídeos de DNA com primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação, e primeiro e segundo terminadores podem ser orientados em uma orientação cauda-a-cauda. Os polinucleotídeos de DNA com uma orientação cauda-a-cauda de sequências podem compreender ainda uma extremidade de transposon esquerda e direita que flanqueia os primeiro e segundo aceptores de splice. Em modalidades, os polinucleotídeos de DNA descritos neste documento podem ser integrados dentro de um íntron do gene endógeno ou em uma junção do íntron-éxon. Os polinucleotídeos de DNA podem ser integrados dentro de um íntron, ou na junção do íntron-éxon do gene ATXN3 ou gene CACNA1A. O polinucleotídeo de DNA pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 10 de um gene ATXN3 não patogênico. O polinucleotídeo de DNA pode compreender uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 47 de um gene CACNA1A não patogênico. As primeira e segunda sequências de codificação parciais codificam os mesmos aminoácidos. Em uma modalidade, as primeira e segunda sequências de codificação podem diferir em sequência de ácido nucleico, mas codificam os mesmos aminoácidos. Os polinucleotídeos de DNA podem ser abrigados em um vetor, em que o formato do vetor é selecionado a partir de DNA linear de fita dupla, DNA circular de fita dupla, ou um vetor viral. O vetor viral pode ser selecionado dentre um vetor de adenovírus, um vetor viral adenoassociado, ou um vetor de lentivírus. Os polinucleotídeos de DNA descritos neste documento podem ser iguais ou menores que 4,7 kb. A extremidade esquerda pode compreender a sequência mostrada em SEQ ID NO:41, e a extremidade direita pode compreender a sequência mostrada em SEQ ID NO: 13.

[0025] Em uma modalidade, este documento caracteriza um método para integrar um transgene em um gene endógeno, o método incluindo administrar um transgene, em que o transgene compreende uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, um terminador bidirecional ou um primeiro e segundo terminador, e um primeiro e segundo braço de homologia, em que o transgene é integrado dentro do gene endógeno. O método pode incluir projetar o transgene para ter o primeiro aceptor de splice operacionalmente ligado à primeira sequência de codificação parcial e o segundo aceptor de splice operacionalmente ligado à segunda sequência de codificação. O arranjo pode também incluir ter a primeira sequência de codificação parcial operacionalmente ligada ao primeiro terminador, e a segunda sequência de codificação parcial operacionalmente ligada ao segundo terminador. Em uma modalidade, os dois terminadores podem ser substituídos com um único terminador bidirecional. Os braços de homologia podem flanquear as primeira e segunda sequências aceptoras de splice, as primeira e segunda sequências de codificação, o um terminador bidirecional ou os primeiro e segundo terminador. A sequência de codificação pode codificar uma sequência de codificação total ou uma sequência de codificação parcial. Em uma modalidade, transgenes com primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação, e primeiro e segundo terminadores podem ser orientados em uma orientação cauda-a- cauda. Os transgenes com uma orientação cauda-a-cauda de sequências podem compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice. Em uma outra modalidade, os transgenes podem compreender um braço de homologia esquerdo e direito que flanqueia os primeiro e segundo aceptores de splice. Nesta modalidade, o transgene pode ser alojado dentro de um vetor viral adenoassociado. Em uma outra modalidade, o transgene pode compreender ainda um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro, em que os sítios alvos flanqueiam os primeiro e segundo aceptores de splice. Os primeiro e segundo sítios alvos podem flanquear os primeiro e segundo braços de homologia. Em modalidades, os transgenes descritos neste documento podem ser integrados dentro de um íntron do gene endógeno ou em uma junção do íntron-éxon.

[0026] Prática dos métodos, bem como preparação e uso das composições divulgados neste documento empregam, a menos que de outra forma indicada, técnicas convencionais em biologia molecular, bioquímica, estrutura e análise de cromatina, química computatconal, cultura celular, DNA recombinante e campos relacionados como estão de acordo com os versados da técnica. Essas técnicas são totalmente explicadas na literatura. Ver, por exemplo, Sambrook et al. MOLECULAR CLONING: A LABORATORY MANUAL, Segunda edição, Cold Spring Harbor Laboratory Press, 1989 e Terceira edição, 2001; Ausubel et al., CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, John Wiley & Sons, New York, 1987 e atualizações periódicas; as séries METHODS IN ENZYMOLOGY, Academic Press, San Diego; Wolffe, CROMATIN STRUCTURE AND FUNCTION, Terceira edição, Academic Press, San Diego, 1998; METHODS IN ENZYMOLOGY, Vol. 304, “Cromatin” (P. M. Wassarman e A. P. Wolffe, eds.), Academic Press, San Diego, 1999; e METHDS IN BIOLOGIA MOLECULAR, Vol. 119, “Cromatin Protocols” (P. B. Becker, ed.) Humana Press, Totowa, 1999.

[0027] Conforme usadas neste documento, as expressões “ácido nucleico” e “polinucleotídeo”, podem ser usadas intercambiavelmente. Ácido nucleico e polinucleotídeo podem se referir a um polímero de desoxi-ribonucleotídeo ou ribonucleotídeo, em conformação linear ou circular, e em forma de fita tanto única ou quanto dupla. Essas expressões não devem ser consideradas limitativas com referência ao comprimento de um polímero. A expressões podem englobar análogos conhecidos de nucleotídeos naturais, bem como nucleotídeos que são modificados nas frações de base, açúcar e/ou fosfato.

[0028] Os termos “polipeptídeo”, “peptídeo” e “proteína” podem ser usados intercambiavelmente para se referir a resíduos de aminoácido covalentemente ligados entre si. Os termos também se aplicam a proteínas nos quais um ou mais aminoácidos são análogos químicos ou derivados modificados de aminoácidos de ocorrência natural correspondentes.

[0029] Os termos “operacionalmente ligado” ou “operacionalmente ligado” são usados intercambiavelmente e se referem a uma justaposição de dois ou mais componentes (tais como elementos de sequência), nos quais os componentes são arranjados de maneira tal que ambos os componentes funcionem normalmente e permitam a possibilidade de que pelo menos um dos componentes pode medie uma função que é exercida mediante pelo menos um dos outros componentes. A título de ilustração, uma sequência regulatória transcricional, tal como uma promotora, é operacionalmente ligada a uma sequência de codificação se a sequência regulatória transcricional controlar o nível de transcrição da sequência de codificação em resposta à presença ou ausência de um ou mais fatores regulatórios transcricionais. Uma sequência regulatória transcricional é no geral operacionalmente ligada em cis com uma sequência de codificação, mas não precisa ser diretamente adjacente a ela. Por exemplo, um intensificador é uma sequência regulatória transcricional que é operacionalmente ligada a uma sequência de codificação, ainda que eles não sejam contíguos. Além disso, a título de exemplo, um aceptor de splice pode ser operacionalmente ligado a uma sequência de codificação parcial se o aceptor de splice permitir delineação de um limite 3’ do íntron, e se a tradução do mRNA maduro resultante resultar em incorporação da sequência de peptídeos codificada pela sequência de codificação parcial no produto da proteína final.

[0030] Conforme usado neste documento, o termo “clivagem” se refere á quebra da espinha dorsal covalente de uma molécula de ácido nucleico. A clivagem pode ser iniciada por uma variedade de métodos incluindo, mas não limitados a, hidrólise enzimática ou química de uma ligação de fosfodiéster. A clivagem pode se referir tanto a um corte de fita única quanto a uma quebra de fita dupla. Uma quebra de fita dupla pode ocorrer em decorrência de dois cortes de de fita única distintos. Clivagem de ácido nucleico pode resultar na produção tanto de extremidades rombas quanto extremidades desencontradas. Em certas modalidades, endonucleases de corte raro são usados para direcionar de de fita dupla ou de fita única DNA clivagem.

[0031] Uma molécula “exógena” pode se referir a uma pequena molécula

(por exemplo, açúcares, lipídios, aminoácidos, ácidos graxos, compostos fenólicos, alcalóides), ou uma macromolécula (por exemplo, proteína, ácido nucleico, carboidrato, lipídio, glicoproteína, lipoproteína, polissacarídeo), ou qualquer derivado modificado das moléculas acima, ou qualquer complexo compreendendo uma ou mais das moléculas acima, geradas ou presentes fora de uma célula, ou não normalmente presentes em uma célula. Moléculas exógenas podem ser introduzidas em células. Métodos para a introdução ou “administração” de moléculas exógenas em células pode incluir transferência mediada por lipídio, eletroporação, injeção direta, fusão celular, bombardeio de partícula, coprecipitação de cálcio e fosfato, Transferência mediada por dextrano-DEAE e transferência mediada por de vetor viral. Conforme definido neste documento, “administração” pode se referir à distribuição, ao fornecimento, ou à introdução de moléculas exógenas em uma célula. Se um transgene ou uma endonuclease de corte raro for administrada a uma célula, então o transgene ou endonuclease de corte raro é distribuída, fornecida, ou introduzida na célula. A endonuclease de corte raro pode ser administrada como proteína, ácido nucleico purificado, ou uma mistura de proteína e ácido nucleico purificado. O ácido nucleico (isto é, RNA ou DNA), pode codificar para o endonuclease de corte raro, ou uma parte de uma endonuclease de corte raro (por exemplo, um gRNA). A administração pode ser obtida por métodos tais como transferência mediada por lipídio, eletroporação, injeção direta, fusão celular, bombardeio de partícula, coprecipitação de cálcio e fosfato, transferência mediada por dextrano-DEAE, transferência mediada por de vetor viral, ou qualquer meio adequado de distribuir a proteína ou ácidos nucleicos purificados, ou uma mistura de proteína purificada e ácidos nucleicos, a uma célula.

[0032] Uma molécula “endógena” é uma molécula que está presente em uma célula particular em um estágio desenvolvimental particular em condições ambientais particulares. Uma molécula endógena pode ser um ácido nucleico, um cromossomo, o genoma de uma mitocôndria, cloroplasto ou outra organela, ou um ácido nucleico epissomal de ocorrência natural. Moléculas endógenas adicionais podem incluir proteínas, por exemplo, fatores de transcrição e enzimas.

[0033] Conforme usado neste documento, um “gene”, se refere a uma região de DNA codificante que codifica um produto genético, incluindo todas as regiões de DNA que regulam a produção do produto genético. Consequentemente, um gene inclui, mas não é necessariamente limitado a, sequências promotoras, terminadores, sequência regulatórias translacionais tais como sítios de ligação de ribossomo e sítios de entrada de ribossomo internos, intensificadores, silenciadores, isoladores, elementos limites, origens de replicação, matriz sítios de fixação e regiões de controle locus. Conforme usado neste documento, um “gene tipo selvagem” se refere a uma forma do gene que está presente na frequência mais alta em uma população particular.

[0034] Um "gene endógeno" se refere a uma região de DNA normalmente presente em uma célula particular que codifica um produto genético bem como todas as regiões de DNA que regulam a produção do produto genético.

[0035] “Expressão de gene” se refere a conversão da informação, contida em um gene, em um produto genético. Um produto genético pode ser o produto transcricional direto de um gene. Por exemplo, o produto genético pode ser, mas não limitado a, mRNA, tRNA, rRNA, RNA antissentido, ribozima, RNA estrutural, ou uma proteína produzida por tradução de um mRNA. Produtos genéticos também incluem RNAs que são modificados, por processos tais como capeamento, poliadenilação, metilação, e edição, e proteínas modificados, por exemplo, por metilação, acetilação, fosforilação,

ubiquitinação, ADP-ribosilação, miristilação e glicosilação.

[0036] “Codificação” se refere a conversão da informação contida em um ácido nucleico, em um produto, em que o produto pode resultar do produto transcricional direto de uma sequência de ácido nucleico. Por exemplo, o produto pode ser, mas não limitado a, mRNA, tRNA, rRNA, RNA antissentido, ribozima, RNA estrutural, ou uma proteína produzida por tradução de um mRNA. Produtos genéticos também incluem RNAs que são modificados, por processos tais como capeamento, poliadenilação, metilação, e edição, e proteínas modificados, por exemplo, por metilação, acetilação, fosforilação, ubiquitinação, ADP-ribosilação, miristilação e glicosilação.

[0037] Um “sítio alvo” ou “sequência alvo” define uma porção de um ácido nucleico na qual uma endonuclease de corte raro ou transposase associada a CRISPR se ligará, desde que exista condições suficientes para ligação.

[0038] Conforme usado neste documento, o termo “recombinação” se refere a um processo de troca de informação genética entre dois polinucleotídeos. A expressão “recombinação homóloga (HR)” se refere a uma forma especializada de recombinação que pode ocorrer, por exemplo, durante o reparo de quebras de fita dupla. Recombinação homóloga exige homologia de sequência de nucleotídeos presente em uma molécula “doadora”. A molécula doadora pode ser usada pela célula como um molde para reparo de uma quebra de fita dupla. Informação dentro da molécula doadora que difere da sequência genômica em ou próxima da quebra de fita dupla pode ser estavelmente incorporada dentro do DNA genômico da célula.

[0039] O termo “integração” conforme usado neste documento se refere ao processo de adicionar DNA a uma região alvo de DNA. Conforme descrito neste documento, integração pode ser facilitada por diversos meios diferentes,

incluindo união de extremidade não homóloga, recombinação homóloga, ou transposição direcionada. A título de exemplo, integração de uma molécula de DNA suprida pelo usuário em um gene alvo pode ser facilitada por união de extremidade não homóloga. Neste documento, uma quebra de fita dupla direcionada é feita dentro do gene alvo e uma molécula de DNA suprida pelo usuário é administrada. A molécula de DNA suprida pelo usuário pode compreender extremidades de DNA expostas para facilitar captura durante reparo do gene alvo por união de extremidade não homóloga. As extremidades expostas podem estar presentes na molécula de DNA mediante administração (isto é, administração de uma molécula de DNA linear) ou criada mediante administração para a célula (isto é, uma endonuclease de corte raro cliva a molécula de DNA suprida pelo usuário dentro da célula para expor as extremidades). Adicionalmente, a molécula de DNA suprida pelo usuário pode ser alojada em um vetor viral, incluindo um vetor viral adenoassociado. Em um outro exemplo, integração ocorre para recombinação homóloga. Neste documento, o DNA suprido pelo usuário pode alojar um braço de homologia esquerdo e direito. Em um outro exemplo, integração ocorre através de transposição. Neste documento, o DNA suprido pelo usuário aloja um transposon esquerdo e extremidade direita.

[0040] O termo “transgene” conforme usado neste documento se refere a uma sequência de ácidos nucleicos que pode ser transferida para um organismo ou célula. O transgene pode compreender um gene ou sequência de ácidos nucleicos normalmente não presentes no organismo ou célula alvo. Adicionalmente, o transgene pode compreender uma cópia de um gene ou sequência de ácidos nucleicos que normalmente está presente no organismo ou célula alvo. Um transgene pode ser uma sequência de DNA exógena introduzida no citoplasma ou núcleo de uma célula alvo. Em uma modalidade,

os transgenes descritos neste documento contêm sequências de codificação parciais, em que as sequências de codificação parciais codificam uma porção de uma proteína produzida por um gene na célula hospedeira.

[0041] Conforme usado neste documento, o termo “patogênico” se refere a qualquer coisa que possa causar doença. Uma mutação patogênica pode se referir a uma modificação em um gene que causa doença. Um gene patogênico se refere a um gene compreendendo uma modificação que causa doença. A título de exemplo, um gene ATXN3 patogênico em pacientes com ataxia espinocerebelar 3 se refere a um gene ATXN3 com uma repetição de trinucleotídeo CAG expandida, em que a repetição de trinucleotídeo CAG expandida causa a doença.

[0042] Conforme usado neste documento, a expressão “cauda-a-cauda” se refere a uma orientação de duas unidades em direções oposta e reversa. As duas unidades podem ser duas sequências em uma única molécula de ácido nucleico, onde as extremidades 3’ de cada sequência são colocadas adjacentes uma à outra. Por exemplo, um primeiro ácido nucleico tendo os elementos, em uma direção 5’ para 3’, [aceptor de splice 1] - [sequência de codificação parcial 1] - [terminador 1] e um segundo ácido nucleico tendo o elementos [aceptor de splice 2] - [sequência de codificação parcial 2] - [terminador 2] pode ser colocado em orientação cauda-a-cauda, resultando em [aceptor de splice 1] - [sequência de codificação parcial 1] -[terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC], onde RC se refere à colocação reversa.

[0043] A expressão “junção íntron-éxon” se refere a uma localização específica em um gene. A localização específica é entre o último nucleotídeo em um íntron e o primeiro nucleotídeo do éxon seguinte. Durante integração de um transgene descrito neste documento, o transgene pode ser integrado na

“junção do íntron-éxon”. Se o transgene compreender cargo, o cargo será integrado imediatamente após o último nucleotídeo no íntron. Em alguns casos, a integração de um transgene na junção do íntron-éxon pode resultar na remoção da sequência no éxon (por exemplo, integração por meio de HR e substituição de sequência no éxon com o cargo no transgene).

[0044] O termo “homóloga” conforme usado neste documento se refere a uma sequência de ácidos nucleicos ou aminoácidos tendo similaridade com uma segunda sequência de ácidos nucleicos ou aminoácidos. Em algumas modalidades, as sequências homólogas podem ter pelo menos 80% de identidade de sequência (por exemplo, 81%, 85%, 90%, 95%, 96%, 97%, 98%, ou 99% de identidade de sequência) uma com a outra.

[0045] O termo “sequência de codificação parcial” conforme usado neste documento se refere a uma sequência de ácidos nucleicos que codifica uma proteína parcial. A sequência de codificação parcial pode codificar uma proteína que compreende um ou menos aminoácido comparada à proteína tipo selvagem ou proteína funcional. A sequência de codificação parcial pode codificar uma proteína parcial com homologia com a proteína tipo selvagem ou proteína funcional. A expressão “sequência de codificação parcial” quando se refere a ATXN3 se refere a uma sequência de ácidos nucleicos que codifica uma proteína ATXN3 parcial. A proteína ATXN3 parcial tem um ou menos aminoácido comparada a uma proteína ATXN3 tipo selvagem. Se modificar a extremidade 3’ do gene, um ou menos aminoácido pode ser da extremidade N- terminal da proteína. Se o gene ATXN3 tiver 11 éxons, então a sequência de codificação parcial pode compreender sequência que codifica o peptídeo produzida pelo éxons 2-11, ou 3-11 ou 4-11, ou 5-11, ou 6-11, ou 7-11, ou 8-11, ou 9-11, ou 10-11, ou 11.

[0046] Os métodos e composições descritos neste documento podem usar transgenes tendo uma sequência cargo. O termo “cargo” pode se referir a elementos tais como a sequência de codificação completa ou parcial de um gene, uma sequência parcial de um gene alojando polimorfismos de nucleotídeo simples relativo a WT ou alvo alterado, um aceptor de splice, um terminador, um elemento regulatório transcricional, tags de purificação (por exemplo, glutationa-S-transferase, poli(His), proteína de ligação a maltose, Strep-tag, Myc-tag, AviTag, HA-tag, ou proteína de ligação a quitina) ou genes repórteres (por exemplo, GFP, RFP, lacZ, cat, luciferase, puro, neomicina). Conforme definido neste documento, “cargo” pode se referir à sequência em uma transgene que é integrada em um sítio alvo. Por exemplo, “cargo” pode se referir à sequência em um transgene entre dois braços de homologia, dois sítios alvos endonuclease de corte raro, ou uma extremidade de transposon esquerda e direita.

[0047] A expressão “sequência de homologia” se refere a uma sequência de ácidos nucleicos que compreende homologia com um segundo ácido nucleico. A sequência de homologia, por exemplo, pode estar presente em uma molécula doadora como um “braço da homologia” ou “braço de homologia”. Um braço de homologia pode ser uma sequência de ácidos nucleicos em uma molécula doadora que facilita a recombinação homóloga com o segundo ácido nucleico. Conforme definido neste documento, um braço de homologia pode também ser referido como um “braço”. Em uma molécula doadora com dois braços de homologia, os braços de homologia podem ser referidos como “braço 1” e “braço 2”. Em um aspecto, uma sequência cargo pode ser flanqueada com primeiro e segundo braços de homologia.

[0048] O termo “terminador bidirecional” se refere a um terminador que pode terminar a transcrição de RNA polimerase em tanto na direção sentido quanto antissentido. Ao contrário de dois terminadores unidirecionais em orientação cauda-a-cauda, um terminador bidirecional pode compreender uma sequência de DNA não quimérica. Exemplos de terminadores bidirecionais incluem o terminador ARO4, TRP1, TRP4, ADH1, CYC1, GAL1, GAL7 e GAL10.

[0049] Uma extremidade 5’ ou 3’ de uma molécula de ácido nucleico se referencia à direcionalidade e orientação química do ácido nucleico. Conforme definido neste documento, a “extremidade 5’ de um gene” pode compreender o éxon com o códon de início, mas não o éxon com o códon de parada. Conforme definido neste documento, a “extremidade 3’ de um gene” pode compreender o éxon com o códon de parada, mas não o éxon com o códon de início.

[0050] O termo “ATXN3” gene se refere a um gene que codifica a enzima ataxina-3. Uma sequência representativa do gene ATXN3 pode ser encontrada com Sequência de Referência NCBI: NG 008198.2 e SEQ ID NO:42 correspondente. Os limites de éxon e íntron pode ser definido com a sequência fornecida em SEQ ID NO:42. Especificamente, o éxon 1 inclui a sequência de 1 a

54. O éxon 2 inclui a sequência de 9745 a 9909. O éxon 3 inclui a sequência de 10446 a 10490. O éxon 4 inclui a sequência de 12752 a 12837. O éxon 5 inclui a sequência de 13265 a 13331. O éxon 6 inclui a sequência de 17766 a 17853. O O éxon 7 inclui a sequência de 23325 a 23457. O éxon 8 inclui a sequência de 24117 a 24283. O éxon 9 inclui a sequência de 25522 a 25618. O éxon 10 inclui a sequência de 35530 a 35648. O éxon 11 inclui a sequência de 42169 a 48031. O íntron 1 inclui a sequência de 55 a 9744. O íntron 2 inclui a sequência de 9910 a 10445. O íntron 3 inclui a sequência de 10491 a 12751. O íntron 4 inclui a sequência de 12838 a 13264. O íntron 5 inclui a sequência de 13332 a 17765. O íntron 6 inclui a sequência de 17854 a 23324. O íntron 7 inclui a sequência de 23458 a 24116. O íntron 8 inclui a sequência de 24284 a 25521. O íntron 9 inclui a sequência de 25619 a 35529. O íntron 10 inclui a sequência de 35649 a

42168.

[0051] O termo gene “CACNA1A” se refere a um gene que codifica o canal de cálcio controlado por tensão subunidade proteína alfa1A. Uma sequência representativa do gene CACNA1A pode ser encontrada com Sequência de Referência NCBI: NG 011569.1 e SEQ ID NO:43 correspondente. Os limites de éxon e íntron podem ser definidos com a sequência fornecida em SEQ ID NO:43. Especificamente, o éxon 1 inclui a sequência de 1 a 529. O éxon 2 inclui a sequência de 51249 a 51354. O éxon 3 inclui a sequência de 53446 a 53585. O éxon 4 inclui a sequência de 134682 a 134773. O éxon 5 inclui a sequência de 140992 a 141144. O éxon 6 inclui a sequência de 146662 a 146855. O éxon 7 inclui a sequência de 170552 a 170655. O éxon 8 inclui a sequência de 171968 a

172083. O éxon 9 inclui a sequência de 173536 a 173592. O éxon 10 inclui a sequência de 176125 a 176217. O éxon 11 inclui a sequência de 189140 a

189349. O éxon 12 inclui a sequência de 193680 a 193792. O éxon 13 inclui a sequência de 197933 a 198045. O éxon 14 inclui a sequência de 198210 a

198341. O éxon 15 inclui a sequência de 198607 a 198679. O éxon 16 inclui a sequência de 202577 a 202694. O éxon 17 inclui a sequência de 202848 a

202915. O éxon 18 inclui a sequência de 205805 a 205911. O éxon 19 inclui a sequência de 207108 a 207917. O éxon 20 inclui a sequência de 219495 a

219958. O éxon 21 inclui a sequência de 221255 a 221393. O éxon 22 inclui a sequência de 223065 a 223194. O éxon 23 inclui a sequência de 229333 a

229392. O éxon 24 inclui a sequência de 230505 a 230611. O éxon 25 inclui a sequência de 243628 a 243727. O éxon 26 inclui a sequência de 244851 a

245011. O éxon 27 inclui a sequência de 246760 a 246897. O éxon 28 inclui a sequência de 248910 a 249111. O éxon 29 inclui a sequência de 251202 a

251366. O éxon 30 inclui a sequência de 253360 a 253470. O éxon 31 inclui a sequência de 261196 a 261279. O éxon 32 inclui a sequência de 270731 a

270847. O éxon 33 inclui a sequência de 271187 a 271252. O éxon 34 inclui a sequência de 271425 a 271540. O éxon 35 inclui a sequência de 274601 a

274751. O éxon 36 inclui a sequência de 276252 a 276379. O éxon 37 inclui a sequência de 277666 a 277762. O éxon 38 inclui a sequência de 281689 a

281794. O éxon 39 inclui a sequência de 291853 a 291960. O éxon 40 inclui a sequência de 292128 a 292228. O éxon 41 inclui a sequência de 293721 a

293830. O éxon 42 inclui a sequência de 293939 a 294077. O éxon 43 inclui a sequência de 294245 a 294358. O éxon 44 inclui a sequência de 295809 a

295844. O éxon 45 inclui a sequência de 296963 a 297149. O éxon 46 inclui a sequência de 297452 a 297705. O éxon 47 inclui a sequência de 298413 a

300019. O íntron 1 inclui a sequência de 530 a 51248. O íntron 2 inclui a sequência de 51355 a 53445. O íntron 3 inclui a sequência de 53586 a 134681. O íntron 4 inclui a sequência de 134774 a 140991. O íntron 5 inclui a sequência de 141145 a 146661. O íntron 6 inclui a sequência de 146856 a 170551. O íntron 7 inclui a sequência de 170656 a 171967. O íntron 8 inclui a sequência de 172084 a 173535. O íntron 9 inclui a sequência de 173593 a 176124. O íntron 10 inclui a sequência de 176218 a 189139. O íntron 11 inclui a sequência de 189350 a 193679. O íntron 12 inclui a sequência de 193793 a 197932. O íntron 13 inclui a sequência de 198046 a 198209. O íntron 14 inclui a sequência de 198342 a 198606. O íntron 15 inclui a sequência de 198680 a 202576. O íntron 16 inclui a sequência de 202695 a 202847. O íntron 17 inclui a sequência de 202916 a 205804. O íntron 18 inclui a sequência de 205912 a 207107. O íntron 19 inclui a sequência de 207918 a 219494. O íntron 20 inclui a sequência de 219959 a 221254. O íntron 21 inclui a sequência de 221394 a 223064. O íntron 22 inclui a sequência de 223195 a 229332. O íntron 23 inclui a sequência de 229393 a 230504. O íntron 24 inclui a sequência de 230612 a 243627. O íntron 25 inclui a sequência de 243728 a 244850. O íntron 26 inclui a sequência de

245012 a 246759. O íntron 27 inclui a sequência de 246898 a 248909. O íntron 28 inclui a sequência de 249112 a 251201. O íntron 29 inclui a sequência de 251367 a 253359. O íntron 30 inclui a sequência de 253471 a 261195. O íntron 31 inclui a sequência de 261280 a 270730. O íntron 32 inclui a sequência de 270848 a 271186. O íntron 33 inclui a sequência de 271253 a 271424. O íntron 34 inclui a sequência de 271541 a 274600. O íntron 35 inclui a sequência de 274752 a 276251. O íntron 36 inclui a sequência de 276380 a 277665. O íntron 37 inclui a sequência de 277763 a 281688. O íntron 38 inclui a sequência de 281795 a 291852. O íntron 39 inclui a sequência de 291961 a 292127. O íntron 40 inclui a sequência de 292229 a 293720. O íntron 41 inclui a sequência de 293831 a 293938. O íntron 42 inclui a sequência de 294078 a 294244. O íntron 43 inclui a sequência de 294359 a 295808. O íntron 44 inclui a sequência de 295845 a 296962. O íntron 45 inclui a sequência de 297150 a 297451. O íntron 46 inclui a sequência de 297706 a 298412.

[0052] A porcentagem de identidade de sequência entre uma sequência de ácidos nucleicos ou aminoácidos particulares e uma sequência referenciada por um número de identificação de sequência particular é determinado como se segue. Primeiro, uma sequência de ácidos nucleicos ou aminoácidos é comparada à sequência apresentada em um número de identificação de sequência particular usando o programa BLAST 2 Sequences (Bl2seq) da versão independente de BLASTZ contendo BLASTN versão 2.0.14 e BLASTP versão

2.0.14. Essa versão independente de BLASTZ pode ser obtida online em fir.com/blast ou at ncbi.nlm.nih.gov. Instruções explicando como usar o programa Bl2seq podem ser encontradas no arquivo readme que acompanha o BLASTZ. Bl2seq realiza uma comparação entre duas sequências usando tanto o BLASTN quanto o algoritmo BLASTP. BLASTN é usado para comparar sequência de ácidos nucleicos, enquanto BLASTP é usado para comparar sequências de aminoácidos. Para comparar duas sequências de ácidos nucleicos, as opções são apresentadas a seguir: -i é definido em um arquivo contendo a primeira sequência de ácidos nucleicos a ser comparada (por exemplo, C:\seql.txt); -j é definido em um arquivo contendo a segunda sequência de ácidos nucleicos a ser comparada (por exemplo, C:\seq2.txt); -p é definido em blastn; -o é definido em qualquer nome de arquivo desejado (por exemplo, C:\output.txt); - q é definido em -1; -r é definido em 2; e todas as outras opções são deixadas em suas definições padrões. Por exemplo, o comando seguinte pode ser usado para gerar um arquivo de saída contendo uma comparação entre duas sequências: C:\Bl2seq -i c:\seql.txt -j c:\seq2.txt -p blastn -o c:\output.txt -q -1 - r 2. Para comparar duas sequências de aminoácidos, as opções de Bl2seq são definidas como se segue: -i é definido em um arquivo contendo o primeiro aminoácido sequência a ser comparada (por exemplo, C:\seql.txt); -j é definido em um arquivo contendo a segunda sequência de aminoácidos a ser comparada (por exemplo, C:\seq2.txt); -p é definido em blastp; -o é definido em qualquer nome de arquivo desejado (por exemplo, C:\output.txt); e todas as outras opções são deixadas em suas definições padrões. Por exemplo, o comando seguinte pode ser usado para gerar um arquivo de saída contendo uma comparação entre duas sequências de aminoácidos: C:\Bl2seq -i c:\seql.txt -j c:\seq2.txt -p blastp -o c:\output.txt. Se as duas sequências comparadas compartilharem homologia, então o arquivo de saída designado apresentará essas regiões de homologia como sequências alinhadas. Se as duas sequências comparadas não compartilharem homologia, então o arquivo de saída designado não apresentará sequências alinhadas.

[0053] Uma vez alinhadas, o número de correspondências é determinado por contagem do número de posições onde um resíduo de nucleotídeo ou aminoácido idêntico é apresentado em ambas as sequências. A porcentagem de identidade de sequência é determinada dividindo o número de correspondências tanto pelo comprimento das sequências apresentadas na sequência identificada, quanto por um comprimento articulado (por exemplo, 100 resíduos de nucleotídeos ou aminoácidos consecutivos de uma sequência apresentada em uma sequência identificada), seguida pela multiplicação do valor resultante por 100. O valor da porcentagem de identidade de sequência é arredondado para a dezena mais próxima.

[0054] Em uma modalidade, este documento caracteriza métodos para modificar a extremidade 3’ dos genes endógenos, onde genes endógenos têm pelo menos um íntron entre dois éxons de codificação. O íntron pode ser qualquer íntron que é removido do RNA mensageiro precursor por maquinário de processamento de RNA mensageiro normal. O íntron pode ser entre 20 bp e >500 kb e compreender elementos incluindo um sítio doador de splice, sequência de ramificação, e sítio aceitador. Os transgenes divulgados neste documento para a modificação da extremidade 3’ dos genes endógenos podem compreender múltiplos elementos funcionais, incluindo sítios alvos para endonucleases de corte raro, braços de homologia, sequências aceptoras de splice, sequências de codificação e terminadores de transcrição (FIG. 1).

[0055] Em uma modalidade, o transgene compreende dois sítios alvos para uma ou mais endonucleases de corte raro. Os sítios alvos podem ser uma sequência adequada e comprimento para clivagem por um endonuclease de corte raro. O sítio alvo pode ser acessível a clivagem por sistemas CRISPR, nucleases com efetor TAL, nucleases dedo de zinco ou meganucleases, ou uma combinação de sistemas CRISPR, nucleases TALE, nucleases dedo de zinco ou meganucleases, ou qualquer outra nuclease específica do sítio. Os sítios alvos podem ser posicionados de maneira tal que a clivagem pela endonuclease de corte raro resulte em liberação de um transgene de um vetor. O vetor pode incluir vetores virais (por exemplo, vetores adenoassociados) ou vetores não virais (por exemplo, plasmídeos, vetores minicírculo). Se o transgene compreender dois sítios alvos, os sítios alvos podem ser a mesma sequência (isto é, direcionados pela mesma endonuclease de corte raro) ou eles podem ser diferentes sequências (isto é, direcionados por duas ou mais diferentes endonucleases de corte raro).

[0056] Em uma modalidade, o transgene compreende um primeiro e segundo sítios alvos para uma ou mais endonucleases de corte raro junto com um primeiro e segundo braço de homologia. Os primeiro e segundo braços de homologia podem incluir sequência que é homóloga a uma sequência genômica em ou próxima ao sítio de integração desejado. Os braços de homologia podem ser um comprimento adequado para participar em recombinação homóloga com sequência em ou próxima ao sítio de integração desejado. O comprimento de cada braço de homologia pode ser entre 20 nt e

10.000 nt (por exemplo, 20 nt, 30 nt, 40 nt, 50 nt, 100 nt, 200 nt, 300 nt, 400 nt, 500 nt, 600 nt, 700 nt, 800 nt, 900 nt, 1.000 nt, 2.000 nt, 3.000 nt, 4.000 nt,

5.000 nt, 6.000 nt, 7.000 nt, 8.000 nt, 9.000 nt, 10.000 nt). Em uma modalidade, braços de homologia podem compreender elementos funcionais, incluindo um sítio alvo para uma endonuclease de corte raro e/ou uma sequência aceptora de splice. Em uma modalidade, um primeiro braço de homologia (por exemplo, um braço de homologia esquerdo) pode compreender sequência homóloga ao íntron sendo direcionado, que inclui o sítio aceptor de splice do íntron sendo direcionado. Em uma outra modalidade, um segundo braço de homologia pode compreender sequência homóloga à sequência genômica á jusante do íntron sendo direcionado (por exemplo, sequência éxon, sequência UTR 3’). Entretanto, o segundo braço de homologia não deve possuir funções aceptoras de splice na direção de complemento inversa. Para determinar se uma sequência compreende funções aceptoras de splice, diversas etapas podem ser adotadas, incluindo em análise em silico e testes experimentais. Para determinar se existe potencial para funções aceptoras de splice, a sequência desejada para segundo braço de homologia pode ser pesquisada quanto as sequências de ramificação de consenso (por exemplo, YTRAC) e sítio aceptor de splices (por exemplo, NCAGG rico em Y). Se ramificação ou sequências aceptoras de splice estiverem presentes, polimorfismos de único nucleotídeo podem ser introduzidos para destruir a função, ou uma sequência diferente, mas adjacente não compreendendo tais sequências podem ser selecionada. Preferivelmente, a janela de sequência que pode ser usada para um segundo braço de homologia se estende de 1 bp a 10kb á jusante do íntron sendo direcionado para integração. Para determinar experimentalmente se a segunda homologia possui função aceptora de splice, um construto sintético compreendendo o segundo braço de homologia dentro de um íntron dentro de um gene repórter pode ser construído. O construto pode então ser administrado a um tipo de célula apropriado e monitorado quanto a função de splicing.

[0057] Em uma modalidade, o transgene compreende duas sequências aceptoras de splice, referidas neste documento como as primeira e segunda sequências aceptoras de splice. As primeira e segunda sequências aceptoras de splice são posicionados no transgene em direções opostas (isto é, em orientações cauda-a-cauda) e sequências internas flanqueadas (isto é, sequências de codificação e terminadores). Quando o transgene é integrado dentro de um íntron em direções direta ou reversas, as sequências aceptoras de splice facilitam a remoção da sequência de íntron adjacente/à montante durante processamento de mRNA. As primeira e segunda sequências aceptoras de splice podem ser as mesmas sequências ou sequências diferentes. Uma ou ambas as sequências aceptoras de splice podem ser a sequência aceptora de splice do íntron onde o transgene deve ser integrado. Uma ou ambas as sequências aceptoras de splice pode ser uma sequência aceptora de splice sintética ou uma sequência aceptora de splice de um íntron de um gene diferente.

[0058] Em uma modalidade, o transgene compreende uma primeira e segunda sequência de codificação operacionalmente ligadas à primeira e segunda sequências aceptoras de splice. As primeira e segunda sequências de codificação são posicionadas no transgene em direções opostas (isto é, em orientações cauda-a-cauda). Quando o transgene é integrado em um gene endógeno em direções direta ou reversas, as primeira ou segunda sequências de codificação são transcritas em mRNA pelo promotor do gene endógeno. As sequências de codificação podem ser projetadas para corrigir sequências de codificação defeituosas, introduzir mutações, ou introduzir sequências de peptídeos inéditas. As primeira e segunda sequências de codificação podem ser a mesma sequência de ácidos nucleicos e codificar para a mesma proteína. Alternativamente, as primeira e segunda sequências de codificação podem ser diferentes sequências de ácidos nucleicos e codificar para a mesma proteína (isto é, usando a degeneração de códons). A sequência de codificação pode codificar tags de purificação (por exemplo, glutationa-S-transferase, poli(His), proteína de ligação a maltose, Strep-tag, Myc-tag, AviTag, HA-tag, ou proteína de ligação a quitina) ou proteínas repórteres (por exemplo, GFP, RFP, lacZ, cat, luciferase, puro, neomicina). Em uma modalidade, o transgene compreende uma primeira e segunda sequência de codificação parcial operáveis ligadas a uma primeira e segunda sequência aceptora de splice, e o transgene não compreende um promotor.

[0059] Em uma modalidade, o transgene pode compreender um terminador bidirecional, ou um primeiro e segundo terminador, operacionalmente ligado a uma primeira e segunda sequência de codificação. O terminador bidirecional, ou os primeiro e segundo terminadores são posicionados no transgene em direções opostas (isto é, em orientações cauda- a-cauda). Quando o transgene é integrado em um gene endógeno em direções direta ou reversas, o terminador bidirecional, ou primeiro e segundo terminadores, terminam a transcrição do promotor do gene endógeno. Os primeiro e segundo terminadores podem ser os mesmos terminadores ou terminadores diferentes.

[0060] Em uma modalidade, este documento fornece um transgene compreendendo um primeiro e segundo sítio alvo de endonuclease de corte raro, uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, e um terminador bidirecional ou um primeiro e segundo terminador. O transgene pode ser integrado em genes endógenos por meio de métodos dependentes de não homologia, incluindo união de extremidade não homóloga e união de extremidade não homóloga alternativa ou por união de extremidade mediada por micro-homologia. Em um aspecto, o transgene é integrado dentro de um íntron no gene endógeno (FIG. 2).

[0061] Em uma outra modalidade, este documento fornece um transgene compreendendo um primeiro e segundo braço de homologia, um primeiro e segundo sítio alvo de endonuclease de corte raro, uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, e um terminador bidirecional ou um primeiro e segundo terminador. O transgene pode ser integrado em genes endógenos por meio tanto de métodos dependentes de homologia (por exemplo, anelamento de fita dependente de síntese e união de extremidade mediada por micro-

homologia) e métodos dependentes de não homologia (por exemplo, união de extremidade não homóloga e união de extremidade não homóloga alternativa). Em um aspecto, o transgene é integrado dentro de um íntron no gene endógeno (FIG. 3). Em um outro aspecto, o transgene é integrado na extremidade do íntron ou o começando do éxon á jusante (FIG. 3).

[0062] Em uma outra modalidade, este documento fornece um transgene compreendendo um primeiro e segundo braço de homologia, uma primeira e segunda sequência de codificação, uma primeira e segunda sequência aceptora de splice, e um terminador bidirecional ou um primeiro e segundo terminador (FIG. 1). Em uma outra modalidade, este documento fornece um transgene compreendendo, uma primeira e segunda sequência de codificação, uma primeira e segunda sequência aceptora de splice, e um terminador bidirecional ou um primeiro e segundo terminador.

[0063] Em uma outra modalidade, este documento fornece um transgene compreendendo um primeiro e segundo braço de homologia, uma primeira e segunda sequência de codificação, uma primeira e segunda sequência aceptora de splice, um terminador bidirecional ou um primeiro e segundo terminador, e uma primeira e segunda sequência adicional (FIG. 1). Em certas modalidades, a sequência adicional pode ser qualquer sequência adicional que está presente no transgene nas extremidades 5’ e 3’, entretanto, a sequência adicional não deve compreender nenhum elemento que funcione como um aceptor de splice. A sequência adicional pode ser, por exemplo, repetições de terminal invertidas de um genoma do vírus. A sequência adicional pode estar presente em um transgene tendo um formato linear. O formato linear permite integração por NHEJ. Por exemplo, um transgene alojado em um vetor viral adenoassociado, em que a sequência adicional é as repetições de terminal invertidas, pode ser diretamente integrado por NHEJ em um sítio alvo após clivagem por uma endonuclease de corte raro (isto é, não é necessário processamento do transgene). Em um outro exemplo, a sequência adicional é uma extremidade de transposon esquerda e direita.

[0064] Em uma outra modalidade, este documento fornece transgenes nos vetores virais, incluindo vírus e adenovírus adenoassociados, onde o transgene compreende uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, e um terminador bidirecional ou um primeiro e segundo terminador. Devido às repetições de terminal invertidas dos vetores virais, os transgenes também compreendem uma primeira e segunda sequência adicional.

[0065] Em uma outra modalidade, este documento fornece transgenes nos vetores virais, incluindo vírus e adenovírus adenoassociados, onde o transgene compreende um primeiro e segundo braço de homologia, uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, e um terminador bidirecional ou um primeiro e segundo terminador. Devido às repetições de terminal invertidas dos vetores virais, os transgenes também compreendem uma primeira e segunda sequência adicional.

[0066] Em algumas modalidades, os transgenes fornecidos neste documento podem ser integrados com transposases. As transposases podem incluir transposases CRISPR (Strecker et al., Science 10.1126/science.aax9l81, 2019; Klompe et al., Nature, 10.1038/s41586-019-1323-z, 2019). As transposases podem ser usadas em combinação com um transgene compreendendo, uma primeira e segunda sequência aceptora de splice, uma primeira e segunda sequência de codificação, um terminador bidirecional ou um primeiro e segundo terminador (FIG. 1), e uma extremidade esquerda e extremidade direita de transposon. AS transposases CRISPR podem incluir a proteína CRISPR TypeV-U5, C2C5, Cas12k, junto com proteínas tnsB, tnsC, e tniQ. Em algumas modalidades, o Cas12k pode ser de Scytonema hofinanni (SEQ ID NO:30) ou Anabaena cylindrica (SEQ ID NO:3 l). Em uma modalidade, os transgenes descritos neste documento compreendendo uma extremidade esquerda (SEQ ID NO:32) e direita (SEQ ID NO:33) de transposon podem ser administradas nas células junto com ShCas12k, tnsB, tnsC, TniQ e um gRNA (SEQ ID NO: 14). Alternativamente, a transposase CRISPR pode incluir a proteína Cas6, junto com proteínas auxiliares incluindo Cas7, Cas8 e TniQ. Em uma modalidade, os transgenes descritos neste documento compreendendo uma extremidade esquerda (SEQ ID NO:41) e direita (SEQ ID NO: 13) de transposon podem ser administradas nas células eucarióticas junto com Cas6 (SEQ ID NO: 37), Cas7 (SEQ ID NO: 37), Cas8 (SEQ ID NO: 37), TniQ (SEQ ID NO: 37), TnsA (SEQ ID NO: 37), TnsB (SEQ ID NO: 37), TnsC (SEQ ID NO:37) e um gRNA (SEQ ID NO: 12). As proteínas podem ser administradas nas células diretamente como proteína purificada ou codificada em RNA ou DNA. Se codificada em RNA ou DNA, a sequência pode ser códon otimizada para expressão em células eucarióticas. O gRNA (SEQ ID NO: 12) pode ser colocado á jusante de um promotor polIII de RNA e terminado com um terminador poli(T).

[0067] Em algumas modalidades, os transgenes descritos neste documento podem ter uma combinação de elementos incluindo aceptores de splice, sequências de codificação parciais, terminadores, braços de homologia, extremidades de transposase esquerda e direita e sítios para clivagem por endonucleases de corte raro. Em uma modalidade, a combinação pode ser, de 5’ a 3’, [aceptor de splice 1] - [sequência de codificação parcial 1] - [terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC], onde RC quer dizer complemento reverso. Essa combinação pode ser alojada em uma molécula de DNA linear ou molécula AAV e pode ser integrada por NHEJ através de uma quebra direcionada no gene alvo.

Em uma outra modalidade, a combinação pode ser, de 5’ a 3’, [sítio de clivagem 1 de endonuclease de corte raro] - [aceptor de splice 1] - [sequência de codificação parcial 1] - [terminador 1] -[terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] - [sítio de clivagem 1 de endonuclease de corte raro]. Em uma outra modalidade, a combinação pode ser, de 5’ a 3’, [sítio de clivagem 1 de endonuclease de corte raro] - [braço de homologia 1] - [aceptor de splice 1] - [sequência de codificação parcial 1] - [terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] - [braço de homologia 2] - [sítio de clivagem 2 de endonuclease de corte raro]. Nessa combinação uma ou mais endonucleases de corte raro podem ser usadas para facilitar HR e NHEJ.

Por exemplo, uma única nuclease de corte raro pode clivar o gene alvo (isto é, um íntron desejado) e os sítios de clivagem que flanqueiam os braços de homologia podem ser projetados para ser a mesma sequência alvo dentro do íntron.

Em uma outra modalidade, a combinação pode ser, de 5’ a 3’, [braço de homologia 1 + sítio de clivagem 1 de endonuclease de corte raro] - [aceptor de splice 1] - [sequência de codificação parcial 1] -[terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] - [braço de homologia 2] - [sítio de clivagem 1 de endonuclease de corte raro]. Nessa combinação, uma ou mais endonucleases de corte raro pode facilitar HR e NHEJ.

Por exemplo, uma única nuclease de corte raro pode clivar no braço de homologia 1, á jusante de braço de homologia 2, e no sítio alvo genômico (isto é, no sítio com homologia para a sequência no braço de homologia 1). Em uma outra modalidade, a combinação pode ser de 5’ a 3’, [extremidade esquerda para uma transposase] - [aceptor de splice 1] - [sequência de codificação parcial 1] -[terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] -

[extremidade direita para uma transposase]. Em todas as modalidades, o aceptor de splice 1 e aceptor de splice 2 podem ser as mesmas ou diferentes sequências; a sequência de codificação parcial 1 e sequência de codificação parcial 2 podem ser as mesmas ou diferentes sequências; o terminador 1 e terminador 2 pode ser as mesmas ou diferentes sequências.

[0068] Em modalidades, um transgene compreendendo a estrutura [sítio de clivagem 1 de endonuclease de corte raro] - [braço de homologia 1] - [aceptor de splice 1] - [sequência de codificação parcial 1] -[terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] - [braço de homologia 2] - [sítio de clivagem 2 de endonuclease de corte raro] pode ser integrado no DNA através de administração de uma ou mais endonucleases de corte raro. Se uma endonuclease de corte raro for administrada, a endonuclease de corte raro pode liberar o transgene por clivagem no sítio de clivagem 1 e 2 de endonuclease de corte raro. Além disso, a mesma endonuclease de corte raro pode criar uma quebra no gene alvo, simulando inserção através de HR ou NHEJ.

[0069] Em outras modalidades, um transgene compreendendo a estrutura [braço de homologia 1 + sítio de clivagem 1 de endonuclease de corte raro] - [aceptor de splice 1] - [sequência de codificação parcial 1] - [terminador 1] - [terminador 2 RC] - [sequência de codificação parcial 2 RC] - [aceptor de splice 2 RC] - [braço de homologia 2] - [sítio de clivagem 1 de endonuclease de corte raro] pode ser integrado no DNA através de distribuição de uma ou mais endonucleases de corte raro. Se uma endonuclease de corte raro for administrada, a endonuclease de corte raro pode liberar o transgene por clivagem no sítio de clivagem 1 e 2 de endonuclease de corte raro. Além disso, a mesma endonuclease de corte raro pode criar uma quebra no gene alvo, simulando inserção através de HR ou NHEJ. Integração por HR pode ocorrer quando clivagem é à montante do sítio de integração (isto é, em um braço de homologia).

[0070] Em modalidades, a localização para integração de transgenes pode ser um íntron ou uma junção do íntron-éxon. Quando alveja um íntron, a sequência de codificação parcial pode compreender sequência que codifica o peptídeo produzido pelos éxons seguintes no gene endógeno. Por exemplo, se o transgene for projetado para ser integrado em íntron 9 de um gene endógeno com 11 éxons, então a sequência de codificação parcial pode compreender sequência que codifica o peptídeo produzido pelo éxons 10 e 11 do gene endógeno. Quando alveja uma junção do íntron-éxon, o transgene pode ser projetado para compreender braços de homologia com sequência homóloga ao 3’ do dito íntron.

[0071] Em algumas modalidades, as sequências de codificação parciais podem ser sequências de codificação total. A sequência de codificação total pode codificar um gene endógeno (por exemplo, Fator VIII, Fator IX, ou INS), ou genes repórteres (por exemplo, RFP, GFP, cat, lacZ, luciferase). As sequências de codificação total podem ser operacionalmente ligadas aos aceptores de splice e terminadores e colocadas em um transgene em uma orientação cauda- a-cauda.

[0072] Os métodos e composições fornecidos neste documento podem ser usados para modificar genes endógenos em células. Os genes endógenos podem incluir, fibrinogênio, protrombina, fator de tecido, Fator V, Fator VII, Fator VIII, Fator IX, Fator X, Fator XI, Fator XII (fator Hageman), Fator XIII (fator de estabilização de fibrina), fator de von Willebrand, pré-calicreína, cininógeno de alto peso molecular de (fator de Fitzgerald), fibronectina, antitrombina III, cofator II de heparina, proteína C, proteína S, proteína Z, inibidor de protease relacionada a proteína Z, plasminogênio, alfa 2-antiplasmina, ativador de plasminogênio de tecido, uroquinase, inibidor-1 do ativador de plasminogênio, inibidor-2 do ativador de plasminogênio, glucocerebrosidase (GBA), ɑ- galactosidase A (GLA), iduronato sulfatase (IDS), iduronidase (IDUA), ácido esfingomielinase (SMPD1), MMAA, MMAB, MMACHC, MMADHC (C2orf25), MTRR, LMBRD1, MTR, propionil-CoA carboxilase (PCC) (subunidades de PCCA e/ou PCCB), uma proteína transportadora de glicose-6-fosfato (G6PT) ou glicose-6-fosfatase (G6Pase), um receptor de LDL (LDLR), ApoB, LDLRAP-1, um PCSK9, uma proteína mitocondrial tais como NAGS (N-acetilglutamata sintetase), CPS1 (carbamoil fosfato sintetase I), e OTC (ornitina transcarbamilase), ASS (ácido argininosuccínico sintetase), ASL (ácido argininosuccinase liase) e/ou ARG1 (arginase), e/ou uma família de carreador de soluto 25 (SLC25A13, uma proteína carreadoar de aspartato/glutamato), um UGTlAl ou polipeptídeo A1 UDP glucuronsiltransferase, um fumarilacetoacetato hidroliase (FAH), uma proteína alanina-glioxilato aminotransferase (AGXT), uma proteína glioxilato redutase/hidroxipiruvato redutase (GRHPR), uma proteína do gene transtrietina (TTR), uma proteína ATP7B, uma proteína fenilalanina hidroxilase (PAH), uma proteína USH2A, uma proteína ATXN, e uma proteína lipoproteína liase (LPL).

[0073] O transgene pode incluir sequência para modificar a sequência que codifica um polipeptídeo que está faltando não funcional ou tendo uma mutação de ganho de função no sujeito tendo um doença genética, incluindo mas não limitados ás seguintes doenças genéticas: acondroplasia, acromatopsia, deficiência de ácido maltase, deficiência de adenosina deaminase, adrenoleucodistrofia, síndrome de Aicardi, deficiência de alfa-1 antitripsina, alfa-talassemia, síndrome da insensibilidade androgênica, síndrome de Pert, displasia ventricular direito arritmogênica, ataxia telangictasia, síndrome de Barth, beta-talassemia, síndrome de Blue Rubber

Bleb Nevus, doença de Canavan, doenças granulomatosas crônicas (CGD), síndrome de Cri-Du-Chat, fibrose cística, doença de Dercum, displasia ectodérmica, anemia de Fanconi, fibrodisplasia ossificante progressiva, síndrome do X frágil, galactosemia, doença Gaucher, gangliosidoses generalizadas (por exemplo, GM1), hemocromatose, a mutação de hemoglobina C no 6o códon de beta-globina (HbC), hemofilia, doença de Huntington, Síndrome de Hurler, hipofosfatasia, síndrome de Klinefleter, Doença de Krabbes, Síndrome de Langer-Giedion, deficiência de adesão de leucócito, lleucodistrofia, síndrome do QT longo, síndrome de Marfan, síndrome de Moebius, mucopolissacaridose (MPS), síndrome de Nail-Patella, diabetes insipdius nefrogênico, neurofibromatose, doença de Neimann-Pick, osteogênese imperfeita, porfiria, síndrome de Prader-Willi, progeria, síndrome de Proteus, retinoblastoma, síndrome de Rett, síndrome de Rubinstein-Taybi, síndrome de Sanfilippo, imunodeficiência combinada grave (SCID), síndrome de Shwachman, doença da célula falciforme (anemia da célula falciforme), síndrome de Smith-Magenis, síndrome de Stickler, doença de Tay-Sachs, síndrome da Trombocitopenia e Ausência de Rádio (TAR), síndrome de Treacher Collins, trissomia, esclerose tuberosa, síndrome de Turner, distúrbio do ciclo de ureia, doença de von Hippel-Landau, síndrome de Waardenburg, síndrome de Williams, doença de Wilson, síndrome de Wiskott-Aldrich, síndrome linfoproliferativa ligada a X, doenças de armazenamento lisossomal (por exemplo, doença de Gaucher, GM1, doença de Fabry e doença de Tay- Sachs), mucopolissacaridose (por exemplo doença d Hunter, doença de Hurler), hemoglobinopatias (por exemplo, doenças da célula falciforme, HbC, ɑ- talassemia, β-thalassemia) e hemofilias.

[0074] Doenças adicionais que podem ser tratadas por integração direcionada incluem doença de von Willebrand, síndrome de Usher, doença do rim policístico, ataxia espinocerebelar tipo 3 e ataxia espinocerebelar tipo 6.

[0075] Em uma modalidade, a modificação genômica é a inserção de um transgene na sequência genômica CACNA1A endógena. O transgene pode incluir uma sequência de codificação sintética e parcial para a proteína CACNA1A. A sequência de codificação parcial pode ser homóloga à sequência de codificação em um gene CACNA1A tipo selvagem, ou uma variante funcional do gene CACNA1A tipo selvagem, ou um mutante do gene CACNA1A tipo selvagem. Em uma modalidade, o transgene que codifica a proteína CACNA1A parcial é inserido no íntron 46 ou no início do éxon 47.

[0076] Em uma outra modalidade, a modificação genômica é a inserção de um transgene na sequência genômica ATXN3 endógena. O transgene pode incluir uma sequência de codificação sintética e parcial para a proteína ATXN3. A sequência de codificação parcial pode ser homóloga à sequência de codificação dentro de um gene tipo selvagem ATXN3, ou uma variante funcional do gene tipo selvagem ATXN3, ou um mutante do gene tipo selvagem ATXN3. Em uma modalidade, o transgene que codifica a proteína ATXN3 parcial é inserido no íntron 9 ou no início do éxon 10.

[0077] Em uma modalidade, os métodos e composições descritos neste documento podem ser usados para modificar a extremidade 3’ de um gene endógeno, por meio disso resultando em modificação do terminal C da proteína codificada pelo gene endógeno. A modificação da extremidade 3’ da sequência de codificação do gene endógeno pode incluir a substituição do éxon de codificação final (isto é, o éxon compreendendo o códon de parada), até um éxon que é entre o éxon com a codificação de início e o éxon final. Conforme definido neste documento “substituição” se refere a inserção de DNA em um gene, em que o DNA inserido fornece a informação para produzir o mRNA e proteína de 1 ou mais éxons. Substituição pode ocorrer integrando um transgene dentro do gene endógeno, em que o transgene compreende uma ou mais sequências de codificação operacionalmente ligado a um aceptor de splice.

A inserção pode ou não resultar na deleção de sequência no gene endógeno (por exemplo, deleção de introns e éxons). Por exemplo, se um gene compreender 72 éxons, e o códon de início estiver dentro do éxon 1, a modificação pode incluir substituição de éxons 2-72, 3-72, 4-72, 5-72, 6-72, 7- 72, 8-72, 9-72, 10-72, 11-72, 12-72, 13-72, 14-72, 15-72, 16-72, 17-72, 18-72, 19-72, 20-72, 21-72, 22-72, ou 23-72, ou 24-72, ou 25-72, ou 26-72, ou 27-72, ou 28-72, ou 29-72, ou 30-72, ou 31-72, ou 32-72, ou 33-72, ou 34-72, ou 35- 72, ou 36-72, ou 37-72, ou 38-72, ou 39-72, ou 40-72, ou 41-72, ou 42-72, ou 43-72, ou 44-72, ou 45-72, ou 46-72, ou 47-72, ou 48-72, ou 49-72, ou 50-72, ou 51-72, ou 52-72, ou 53-72, ou 54-72, ou 55-72, ou 56-72, ou 57-72, ou 58- 72, ou 59-72, ou 60-72, ou 61-72, ou 62-72, ou 63-72, ou 64-72, ou 65-72, ou 66-72, ou 67-72, ou 68-72, ou 69-72, ou 70-72, ou 71-72 ou 72. Em uma modalidade, os éxons do gene endógeno podem ser substituídos integrando um transgene dentro do gene endógeno, em que o transgene compreende uma primeira e segunda sequência de codificação parcial, em que as primeira e segunda sequências de codificação parcial codificam um peptídeo produzido pelos genes endógenos éxons.

Por exemplo, as primeira e segunda sequências de codificação do transgene podem codificar um peptídeo que é produzido pelos éxons do gene endógeno 2-72, 3-72, 4-72, 5-72, 6-72, 7-72, 8-72, 9-72, 10-72, 11-72, 12-72, 13-72, 14-72, 15-72, 16-72, 17-72, 18-72, 19-72, 20-72, 21- 72, 22-72, ou 23-72, ou 24-72, ou 25-72, ou 26-72, ou 27-72, ou 28-72, ou 29- 72, ou 30-72, ou 31-72, ou 32-72, ou 33-72, ou 34-72, ou 35-72, ou 36-72, ou 37-72, ou 38-72, ou 39-72, ou 40-72, ou 41-72, ou 42-72, ou 43-72, ou 44-72, ou 45-72, ou 46-72, ou 47-72, ou 48-72, ou 49-72, ou 50-72, ou 51-72, ou 52- 72, ou 53-72, ou 54-72, ou 55-72, ou 56-72, ou 57-72, ou 58-72, ou 59-72, ou

60-72, ou 61-72, ou 62-72, ou 63-72, ou 64-72, ou 65-72, ou 66-72, ou 67-72, ou 68-72, ou 69-72, ou 70-72, ou 71-72 ou 72. O transgene pode ser integrado dentro do gene endógeno no íntron à montante ou no início do éxon correspondente ao primeiro éxon na sequência de codificação parcial de transgene (FIG. 2). O transgene pode ser projetado para ser 4,7kb ou menor, e incorporado em um vetor AAV e partícula, e administrado in vivo nas células alvos.

[0078] Em uma modalidade, o transgene é uma sequência de DNA que aloja uma primeira e segunda sequência de codificação parcial, em que as sequências de codificação parciais codificam uma proteína parcial, em que a proteína parcial é homóloga a uma região correspondente em uma proteína funcional produzida a partir de um gene tipo selvagem. O gene hospedeiro ou gene endógeno é um nos quais expressão da proteína é aberrante, em outras palavras, não é expressa, é expressa a níveis baixos ou é expressa, mas o mRNA ou produto da proteína ou porção do mesmo não é funcional, tem função reduzida, ou tem um ganho de função, resultando em um distúrbio no hospedeiro.

[0079] Conforme descrito neste documento, a molécula doadora pode ser em um vetor viral ou não viral. Os vetores podem ser na forma de DNA de fita dupla ou fita única circular ou linear. A molécula doadora pode ser conjugada ou associada com um reagente que facilita estabilidade ou atualização celular. O reagente pode ser lipídios, cálcio fosfato, polímeros catiônicos, DEAE- dextrano, dendrímeros, polietileno glicol (PEG) peptídeos de penetração de célula, microbolhas encapsuladas a gás ou grânulos magnéticos. A molécula doadora pode ser incorporada em uma partícula viral. O vírus pode ser retroviral, adenoviral, vetores adenoassociados (AAV), herpes simplex, pox vírus, vetor adenoviral híbrido, vírus epstein-bar, lentivírus, ou vírus da herpes simplex.

[0080] Em certas modalidades, os vetores AAV conforme descrito neste documento podem ser derivados de qualquer AAV. Em certas modalidades, o vetor AAV é derivado do vírus tipo 2 adenoassociado parvovírus defeituoso e não patogênico. Todos tais vetores são derivados de um plasmídeo que retém apenas as repetições de terminal invertidas 145 bp AAV flanqueando o cassete de expressão de transgene. Transferência genética eficiente e administração de transgene estável devido a integração nos genomas da célula transduzida são características chaves para esse sistema de vetor. (Wagner et al., Lancet 351 :9117 1702-3, 1998; Kearns et al., Gene Ther. 9:748-55, 1996). Outros serotipos de AAV, incluindo AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9 e AAVrh.10 e qualquer serotipo de AAV inédito podem também ser usados de acordo com a presente invenção. Em algumas modalidades, AAV quimérico é usado onde as origens virais das sequências de repetição de terminal longo (LTR) do ácido nucleico viral são heterólogas à origem viral das sequências de capsídeo. Exemplos não limitativos incluem vírus quimérico com LTRs derivados de AAV2 e capsídeos derivados de AAV5, AAV6, AAV8 ou AAV9 (isto é, AAV2/5, AAV2/6, AAV2/8 e AAV2/9, respectivamente).

[0081] Os construtos descritos neste documento podem também ser incorporados em um sistema de vetor adenoviral. Vetores com base adenoviral são capazes de eficiência de transdução muito alta em muitos tipos de célula e não exigem divisão celular. Com tais vetores, alto titulador e altos níveis de expressão podem ser obtidos.

[0082] Os métodos e composições descritos neste documento são aplicáveis a qualquer organismo eucariótico no qual é desejado alterar o organismo através de modificação genômica. Os organismos eucarióticos incluem plantas, algas, animais, fungos e protistas. Os organismos eucarióticos podem também incluir células de planta, células de algas, células de animal, células fúngicas e células protistas.

[0083] Células de mamífero exemplificativas incluem, mas são não limitadas a, oócitos, células K562, células CHO (ovário de hamster chinês), células HEP-G2, células BaF-3, células de Schneider, células COS (células de rim de macaco que expressam antígeno T SV40), células CV-1, células HuTu80, células NTERA2, células NB4, células HL-60 e células HeLa, células 293 (ver, por exemplo, Graham et al. (1977) J. Gen. Virol. 36:59), e células de mieloma tipo SP2 ou NSO (ver, por exemplo, Galfre and Milstein (1981) Meth. Enzymol. 73(B):3 46). Mononucleócitos do sangue periférico (PBMCs) ou células T podem também ser usados, como pode células-tronco embriônicas e adultas. Por exemplo, células-tronco que podem ser usadas incluem células-tronco embriônicas (ES), células-tronco pluripotentes induzidas (iPSC), células-tronco mesenquimais, células-tronco hematopoiéticas, células-tronco do fígado, células-tronco da pele e células-tronco neuronais.

[0084] Os métodos e composições da invenção podem ser usados na produção de organismos modificados. Os organismos modificados podem ser pequenos mamíferos, animais domésticos, animais de fazenda, e primatas. Exemplos não limitativos de roedores podem incluir camundongos, ratos, hamsters, gerbos e porquinhos-da-índia. Exemplos não limitativos de animais domésticos podem incluir gatos, cães, coelhos, ouriços e furões. Exemplos não limitativos de animais de fazenda podem incluir cavalos, cabras, ovelha, porco, lhamas, alpacas e gado. Exemplos não limitativos de primatas podem incluir macacos-prego, chimpanzés, lêmures, símio, micos, saguins, macacos-aranha, e macacos de cara preta. Métodos e composições da invenção podem ser usados em humanos.

[0085] Plantas e células de planta exemplificativas que podem ser modificadas usando os métodos descritos neste documento incluem, mas não são limitados a, plantas monocotiledôneas (por exemplo, trigo, milho, arroz, painço, cevada, cana de açúcar), plantas dicotiledôneas (por exemplo, soja, batata, tomate, alfalfa), culturas de fruta (por exemplo, tomate, maçã, pera, morango, laranja), culturas de forragem (por exemplo, alfafa), culturas de vegetais de raiz (por exemplo, cenoura, batata, beterrabas, inhame), culturas vegetais folhosos (por exemplo, alface, espinafre); culturas vegetativas para consumo (por exemplo soja e outros legumes, abóbora, pimentas, berinjela, aipo etc.), plantas floríferas (por exemplo, petúnia, rosa, crisântemo), árvores coníferas e pinho (por exemplo, pinheiro, abeto); álamos (por exemplo P. tremulaxP.

Alba); culturas de fibra (algodão, juta, linho, bambu) plantas usadas em fito-remediação (por exemplo, plantas que acumulam metal pesado); culturas de óleo (por exemplo, girassol, semente de colza) e plantas usadas para propósitos experimentais (por exemplo, Arabidopsis). Métodos divulgados neste documento pode ser usado nos gêneros Asparagus, Avena, Brassica, Citrus, Citrullus, Capsicum, Cucurbita, Daucus, Erigeron, Glycine, Gossypium, Hordeum, Lactuca, Lolium, Lycopersicon, Malus, Manihot, Nicotiana, orychophragmus, oryza, Persea, Phaseolus, Pisum, Pyrus, Prunus, Raphanus, Secale, Solanum, Sorghum, Triticum, Vitis, Vigna, e Zea.

A expressão células de planta inclui células de planta isoladas bem como plantas totais ou porções de plantas totais tais como sementes, caules, folhas e raízes.

A presente divulgação também engloba sementes das plantas descritas acima em que a semente foi modificada usando as composições e/ou os métodos descritos neste documento.

A presente divulgação engloba ainda a progênie, clones, linhagens celulares ou células das plantas transgênicas descritas acima em que a dita progênie, clone, linhagem celular ou célula tem o transgene ou construto genético.

Espécies exemplificativas de algas incluem microalgas, diátomos,

Botryococcus braunii, Chlorella, Dunaliella tertiolecta, Gracileria, Pleurochrysis carterae, Sorgassum e Ulva.

[0086] Os métodos descritos neste documento podem incluir o uso de endonucleases de corte raro para estimular recombinação homóloga ou integração não homóloga de uma molécula de transgene em um gene endógeno. A endonuclease de corte raro pode incluir CRISPR, TALENs, ou nucleases dedo de zinco (ZFNs). O sistema CRISPR pode incluir CRISPR/Cas9 ou CRISPR/Cas12a (Cpfl). O sistema CRISPR pode incluir variantes que exibem ampla capacidade PAM (Hu et al., Nature 556, 57-63, 2018; Nishimasu et al., Science DOI: 10.1126, 2018) ou maior ligação ao alvo ou atividade de clivagem (Kleinstiver et al., Nature 529:490-495, 2016). O reagente de edição de gene pode ser no formato de uma nuclease (Mali et al., Science 339:823-826, 2013; Christian et al., Genetics 186:757-761, 2010), nickase (Cong et al., Science 339:819-823, 2013; Wu et al., Biochemical and Biophysical Research Communications 1:261-266, 2014), dímeros CRISPR-FokI (Tsai et al., Nature Biotechnology 32:569-576, 2014), ou nickases CRISPR pareados (Ran et al., Cell 154:1380-1389, 2013).

[0087] Os métodos e composições descritos neste documento podem ser usados em uma circunstância onde é desejado modificar a extremidade 3’ da sequência de codificação de um gene endógeno. Por exemplo, pacientes com SCA3 ou SCA6 expandiram repetições CAG em éxons 10 (segundo até o último éxon) e éxon 47 (último éxon), respectivamente. Pacientes com SCA3 ou SCA6 podem se beneficiar de substituição de éxons 10-11 e éxon 47, respectivamente. Em outros exemplos, pacientes com distúrbios genéticos devido a perda de mutações de função na extremidade 3’ de um gene endógeno se beneficiaria de substituição dos éxons finais do dito gene.

[0088] A invenção será ainda descrita nos seguintes exemplos, que não limitam o escopo da invenção descritos nas reivindicações.

EXEMPLOS Exemplo 1: Integração direcionada de DNA no gene ATXN3

[0089] Três plasmídeos foram construídos com transgenes projetados para integrar no gene ATXN3 em células humanas. Todos os transgenes foram projetados para ser inseridos no íntron 9 ou na junção de íntron 9 e éxon 10 do gene ATXN3 e todos os transgenes foram projetados para inserir pelo menos um aceptor de splice e pelo menos uma sequência de codificação funcional para éxons 10 e 11 do gene ATXN3. O primeiro plasmídeo, designado pBA1135, compreendeu um braço de homologia esquerdo e direito com sequência homóloga à extremidade 3’ de íntron 9 e extremidade 5’ de íntron 10 (isto é, alvejamento de gene bem sucedido resultará em remoção de éxon 10 e substituição com a sequência cargo em pBA1135). Entre os braços de homologia, de 5’ a 3’, foi um aceptor de splice (aceptor de splice de ATXN3 íntron 9), sequência de codificação para éxons 10 e 11 de ATXN3, SV40 terminador, terminador BGH reverso, sequência de codificação reversa para éxons 10 e 11 (ajustado por códon), e aceptor de splice reverso. A sequência para o transgene pBA1135 é mostrada em SEQ ID NO: 17. Uma nuclease Cas9 correspondente foi projetada para clivar i) dentro do íntron 9 do gene ATXN3, ii) no braço de homologia esquerdo de pBA1135, e iii) na extremidade 3’ do braço de homologia direito de pBA1135. Esperou-se que a clivagem bem- sucedida do plasmídeo liberasse o transgene, por meio disso permitindo que a sequência fosse usada como um molde para HR ou para integração por meio de NHEJ. O sítio alvo de gRNA Cas9 é mostrado em SEQ ID NO: 18. Os elementos individuais em pBA1135 são mostrados em SEQ ID NOS:44-5l. SEQ ID NO:44 compreende o braço de homologia esquerdo, sítio alvo de nuclease, e aceptor de splice. SEQ ID NO:45 compreende a sequência de codificação parcial

(éxon 10 e 11) de um gene ATXN3 não patogênico. SEQ ID NO:46 compreende a sequência terminadora SV40 p(A). SEQ ID NO:47 compreende o terminador BGH em complemento reverso. SEQ ID NO:48 compreende o complemento reverso, sequência de codificação parcial ajustada por códon (éxon 10 e 11) de um gene ATXN3 não patogênico. SEQ ID NO:49 compreende a sequência para o aceptor de splice. SEQ ID NO:50 compreende a sequência para o braço de homologia direito. SEQ ID NO:5l compreende a sequência de sítio alvo para a nuclease. O segundo plasmídeo, designado pBA1136, compreendeu o mesmo cargo de pBA1135, entretanto, os braços de homologia foram removidos. Sítios alvos de nuclease foram mantidos para facilitar a liberação do transgene do plasmídeo. Esperou-se que a clivagem bem-sucedida do plasmídeo liberasse o transgene, por meio disso permitindo que a sequência fosse usada para integração por NHEJ dentro do gene ATXN3. A sequência de pBA1136 é mostrada em SEQ ID NO: 19. O terceiro plasmídeo, designado pBA1137, compreendeu a mesma sequência de pBA1135, exceto para o sequências reversas e sítio alvo de nuclease (isto é, terminador reverso, sequência de codificação reversa e aceptor de splice reverso). Plasmídeo pBA1137 foi usado como um controle para métodos baseados em HR convencionais. A sequência de pBA1137 é mostrada em SEQ ID NO:20.

[0090] A transfecção foi realizada usando células HEK293T. As células HEK293T foram mantidas a 37°C e 5% de CO2 em DMEM alto suplementado com 10% de soro bovino fetal (FBS). As células HEK293T foram transfectadas com 2 ug de doador, 2 ug de RNA guia (formato de RNA) e 2 ug de Cas9 (formato de RNA). As transfecções foram realizadas usando eletroporação. DNA genômico foi isolado 72 horas pós-transfecção e avaliado quanto a eventos de integração. Uma lista de iniciadores usados para detectar integração ou DNA genômico é mostrada na Tabela 1.

Tabela 1: Iniciadores para detectar integração de transgenes em ATXN3. Nome do iniciador Sequência (5’ a 3’) SEQ ID NO: oNJB043 CAAAGGTGCCCTTGAGGTT 21 oNJB044 AGGAGAAGTCTGCCGTTACT 22 oNJB113 GGACAAACCACAACTAGAATGC 23 oNJB114 TAGGAAAGGACAGTGGGAGT 24 oNJB116 CCATTATGTCTCAGTTGTTCAGTG 25 oNJB156 CCAGACCATCTCAGACACC 26 oNJB162 GGCTGGGCTTCCACTTAC 27 oNJB167 GTGGTTTGTCCAAACTCATCAA 28 oNJB170 AGTAACTCTGCACTTCCCATTG 29

[0091] Para detectar a integração de pBA1135, pBA1136 e pBA1137, PCRs foram realizadas no DNA genômico. Com referência a pBA1137, o transgene foi projetado para ser integrado precisamente por HR. Consequentemente, faixas foram detectadas nas PCRs de junção 5’ e 3’, que indicam inserção precisa dentro do éxon 10 (FIG. 8 pistas 4 e 7). Os tamanhos de faixa esperados foram

1.520 bp para a junção 5’ e 786 bp para a junção 3’. Iniciadores oNJB113 e oNJB116 foram usados para a PCR de junção 5’. Iniciadores oNJB167 e oNJB170 foram usados para a PCR de junção 3’. Com referência a pBA1136, uma vez que nenhum braço de homologia estava presente, foi predito que o transgene inserisse por meio de inserção de NHEJ. Faixas de tamanho apropriadas foram observadas para a integração de transgene nas direções direta e reversa. Integração na direção direta pode ser vista na FIG. 8 pistas 3 (tamanho esperado aproximadamente 1.520 bp) e 6 (tamanho esperado aproximadamente 1.519 bp). Integração na direção reversa pode ser vista na FIG. 8 pista 12 (tamanho esperado aproximadamente 1.520 bp). Iniciadores oNJB113 e oNJB116 foram usados para a PCR de junção 5’. Iniciadores oNJB114 e oNJB170 foram usados para a PCR de junção 3’. Iniciadores oNJB116 e oNJB114 foram usados para a PCR de junção 5’ inversa. Com referência a ppBA1135, tanto braços de homologia quanto sítios de clivagem de nuclease estavam presentes no transgene. Integração por HR foi observada detectando faixas nas PCRs de junção 5’ e 3’ (FIG. 8 pistas 2 e 5). Além disso, integração por NHEJ foi observada detectando faixas em uma PCR de junção 5’ inversa (FIG. 8 pista 10). Tamanho esperado para a PCR de junção 5’ foi 1.520 bp. Tamanho esperado para a PCR de junção 3’ foi 1.157 bp. Tamanho esperado para a PCR de junção 5’ inversa foi aproximadamente 1.520 bp. Iniciadores oNJB113 e oNJB116 foram usados para a PCR de junção 5’. Iniciadores oNJB114 e oNJB170 foram usados para a PCR de junção 3’. Iniciadores oNJB116 e oNJB114 foram usados para a PCR de junção 5’ inversa.

[0092] Os resultados mostram que os transgenes descritos compreendendo sequências de codificação parciais bidirecionais podem ser integrados no DNA genômico através de múltiplas diferentes vias de reparo. Exemplo 2: Integração direcionada de DNA no gene CACNA1A

[0093] Um transgene direcionado para CACNA1A é projetado para substituir a extremidade 3’ da sequência de codificação CACNA1A. Um plasmídeo é construído com um transgene projetado para integrar sequência de codificação WT dentro do íntron 46 ou no início de éxon 47 (FIG. 4). O transgene compreende um primeiro braço de homologia que é homólogo à sequência imediatamente após o sítio doador de splice em íntron 46. O primeiro braço de homologia também compreende o sítio alvo para uma nuclease (SEQ ID NO: 9) e uma sequência aceptora de splice. O primeiro braço de homologia é seguido por uma primeira sequência de codificação compreendendo o éxon 47 CACNA1A e uma sequência de repetição CAG não expandida (SEQ ID NO:3). Após a primeira sequência de codificação é uma sequência de terminação SV40 poli(A) (SEQ ID NO:4). Em uma orientação cauda-a-cauda, um segundo conjunto de elementos funcionais está presente. O início do segundo conjunto de elementos compreende um sítio alvo para a nuclease (SEQ ID NO:9) seguido por um segundo braço de homologia. O segundo braço de homologia aloja 446 bp que é homólogo à sequência imediatamente após a codificação de parada (SEQ ID NO:8). Essa sequência foi determinada como sem ramificação de consenso ou sequências aceptoras de splice por meio de análise em silico. Após o segundo braço de homologia está um segundo aceptor de splice de íntron 1 de beta-actina de carpa (SEQ ID NO:7). Após o aceptor de splice está uma versão códon otimizada do éxon 47 CACNA1A (SEQ ID NO:6) e um terminador bGH poli(A) (SEQ ID NO:5).

[0094] Uma nuclease Cas12a correspondente é projetada para criar três quebras de fita dupla após-transfecção de o plasmídeo: i) dentro do íntron 46 do gene endógeno CACNA1A, 2) dentro do primeiro braço de homologia no transgene pBA1011-D1, e 3) após o segundo braço de homologia em o transgene pBA1011-D1. A sequência alvo para a nuclease Cas12a é mostrada em SEQ ID NO:9.

[0095] Confirmação da função do transgene e vetores CRISPR é obtida por transfecção de células HEK293. As células HEK293 são mantidas a 37°C e 5% de CO2 em DMEM alta glicose sem L-glutamina sem meio de piruvato de sódio suplementado com 10% de soro bovino fetal (FBS) e 1% de solução de penicilina-estreptomicina (PS) 100X. As células HEK293 são transfectadas com cada um dos construtos de plasmídeo e combinações dos mesmos usando Lipofectamina 3000. Dois dias pós-transfecção, DNA é extraído e avaliado quanto a mutações e inserções direcionadas no gene CACNA1A. Atividade de nuclease é analisada usando o ensaio Cel-I ou por sequenciamento de profundidade de amplicons compreendendo a sequência alvo CRISPR/Cas12a.

Integração bem-sucedida do transgene é analisada usando PCR (FIG. 5). Exemplo 3: Integração direcionada de DNA no gene ATXN3

[0096] Um transgene direcionando ATXN3 é projetado para substituir a extremidade 3’ da sequência de codificação ATXN (éxons 10 e 11). Um plasmídeo é construído com um transgene projetado para integrar sequência de codificação WT dentro do íntron 9 ou no início de éxon 10 (FIG. 5). O transgene compreende um primeiro braço de homologia que é homólogo à sequência íntron 9 (SEQ ID NO: 10). O primeiro braço de homologia também compreende o sítio alvo para uma nuclease Cas12a e uma sequência aceptora de splice. O primeiro braço de homologia é seguido por uma primeira sequência de codificação compreendendo o éxon 10 e 11 ATXN3 e uma sequência de repetição CAG não expandida. Após a primeira sequência de codificação está uma sequência de terminação SV40 poli(A). Em uma orientação cauda-a-cauda, um segundo conjunto de elementos funcionais está presente. O início do segundo conjunto de elementos compreende um sítio alvo para o nuclease Cas12a seguido por um segundo braço de homologia. O segundo braço de homologia aloja 379 bp que é homólogo à sequência imediatamente após a extremidade de éxon 10 (isto é, o início de íntron 10). Essa sequência foi determinada por meio de análise em silico ter um número limitado de ramificação potencial ou sequências aceptoras de splice. Após o segundo braço de homologia é um segundo aceptor de splice de íntron 1 de beta-actina de carpa. Após o aceptor de splice está uma versão códon otimizada dos éxons 10 e 11 ATXN3 e um terminador bGH poli(A).

[0097] Uma nuclease Cas12a correspondente é projetada para criar três quebras de fita dupla após-transfecção do plasmídeo: i) dentro do íntron 9 do gene endógeno ATXN3, 2) dentro do primeiro braço de homologia no transgene pBA1012-D1, e 3) após o segundo braço de homologia no transgene pBA1012-D1. A sequência alvo para a nuclease Cas12a é mostrada em SEQ ID NO: 11.

[0098] A confirmação da função do transgene e vetores CRISPR é obtida por transfecção de células HEK293. As células HEK293 são mantidas a 37°C e 5% de CO2 em DMEM alta glicose sem L-glutamina sem meio de piruvato de sódio suplementado com 10% de soro bovino fetal (FBS) e 1% de solução de penicilina-estreptomicina (PS) 100X. As células HEK293 são transfectadas com cada um dos construtos de plasmídeo e combinações dos mesmos usando Lipofectamina 3000. Dois dias pós-transfecção, DNA é extraído e avaliado quanto a mutações e inserções direcionadas no gene ATXN3. Atividade de nuclease é analisada usando o ensaio Cel-I ou por sequenciamento de profundidade de amplicons compreendendo a sequência alvo CRISPR/. Integração bem-sucedida do transgene é analisada usando PCR (FIG. 7). Exemplo 4: Integração direcionada de DNA no gene ATXN3 usando transposases Cas12k

[0099] Um transgene direcionando ATXN3 é projetado para substituir a extremidade 3’ da sequência de codificação ATXN (éxons 10 e 11). Um plasmídeo é construído com um transgene projetado para integrar sequência de codificação WT dentro do íntron 9 ou no início de éxon 10. O transgene compreende uma extremidade direita e extremidade esquerda de transposon, um primeiro e segundo aceptor de splice, uma primeira e segunda sequência de codificação (que codifica aminoácidos de éxons 10 e 11), e um primeiro e segundo terminador. A sequência entre as extremidades direita e esquerda de transposon é mostrada em SEQ ID NO: 17.

[00100] Plasmídeos são modificados para expressar o Scytonema hoftnanni tnsB, tnsC, tniQ e Cas12k (SEQ ID NO:30) usando promotores eucarióticos. Um segundo plasmídeo é modificado para expressar o RNA guia

Cas12k correspondente (SEQ ID NO: 14). O RNA guia direcionou a sequência CCGCCCGACCTTTCACTTTC (SEQ ID NO: 15). Os plasmídeos transposon Cas12k são cotransformados em células HEK293 com um plasmídeo alojando o transgene direcionando ATXN3. As células HEK293 são mantidas a 37°C e 5% de CO2 em DMEM alta glicose sem L-glutamina sem meio de piruvato de sódio suplementado com 10% de soro bovino fetal (FBS) e solução de penicilina- estreptomicina 1% (PS) 100X. As células HEK293 são transfectadas com cada um dos construtos de plasmídeo e combinações dos mesmos usando Lipofectamina 3000. Dois dias pós-transfecção, DNA é extraído e avaliado quanto a inserções direcionadas no gene ATXN3. Integração do transgene é analisada usando PCR. Exemplo 5: Integração direcionada de DNA no gene CACNA1A

[00101] Um transgene direcionado para CACNA1A é projetado para substituir a extremidade 3’ da sequência de codificação CACNA1A. Um plasmídeo é construído com um transgene projetado para integrar a sequência de codificação WT dentro do íntron 46 ou no início de éxon 47. O transgene compreende uma extremidade direita e extremidade esquerda de transposon, um primeiro e segundo aceptor de splice, uma primeira e segunda sequência de codificação (que codifica aminoácidos do éxon 47), e um primeiro e segundo terminador.

[00102] Plasmídeos são modificados para expressar o Scytonema hofmanni tnsB, tnsC, tniQ e Cas12k (SEQ ID NO:30) usando promotores eucarióticos. Um segundo plasmídeo é modificado para expressar o RNA guia Cas12k correspondente (SEQ ID NO: 14). O RNA guia é projetado para direcionar a sequência CCCGGATCCCGGCTGTGACC (SEQ ID NO: 16). Os plasmídeos transposon Cas12k são cotransformados em células HEK293 com um plasmídeo alojando o transgene direcionando ATXN3. As células HEK293 são mantidas a 37°C e 5% de CO2 em DMEM alta glicose sem L-glutamina sem meio de piruvato de sódio suplementado com 10% de soro bovino fetal (FBS) e 1% de solução de penicilina-estreptomicina (PS) 100X. As células HEK293 são transfectadas com cada um dos construtos de plasmídeo e combinações dos mesmos usando Lipofectamina 3000. Dois dias pós-transfecção, DNA é extraído e avaliado quanto a inserções direcionadas no gene ATXN3. Integração do transgene é analisada usando PCR.

OUTRAS MODALIDADES

[00103] Deve-se entender que, embora a invenção tenha sido descrita em combinação com a descrição da mesma, a descrição anterior é destinada a ilustrar e não limitar o escopo da invenção, que é definida pelo escopo das reivindicações anexas. Outros aspectos, vantagens e modificações estão dentro do escopo das reivindicações seguintes.

Claims

REIVINDICAÇÕES

1. Método de integrar um transgene em um gene endógeno, o método caracterizado pelo fato de que compreende: a. administrar um transgene, em que o transgene compreende: i. uma primeira e segunda sequência aceptora de splice, ii. uma primeira e segunda sequência de codificação parcial, e iii. um terminador bidirecional ou um primeiro e segundo terminador; b. administrar pelo menos uma endonuclease de corte raro direcionada para um sítio dentro do gene endógeno, em que o transgene é integrado no gene endógeno.

2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o primeiro aceptor de splice é ligado de forma operacional à primeira sequência de codificação parcial e o segundo aceptor de splice é ligado de forma operacional à segunda sequência de codificação parcial.

3. Método de acordo com a reivindicação 2, caracterizado pelo fato de que a primeira sequência de codificação parcial é ligada de forma operacional ao primeiro terminador, e a segunda sequência de codificação parcial é ligada de forma operacional ao segundo terminador.

4. Método de acordo com a reivindicação 2, caracterizado pelo fato de que as primeira e segunda sequências de codificação parcial são ligadas de forma operacional ao terminador bidirecional.

5. Método de acordo com a reivindicação 3, caracterizado pelo fato de que os primeiro e segundo aceptores de splice, primeira e segunda sequências de codificação, e primeiro e segundo terminadores são orientados em uma orientação cauda-a-cauda.

6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que o transgene compreende ainda um primeiro e segundo sítio alvo para uma ou mais endonucleases de corte raro em que os sítios alvo flanqueiam o primeiro e segundo aceptores de splice.

7. Método de acordo com a reivindicação 5, caracterizado pelo fato de que o transgene compreende ainda um braço de homologia esquerdo e direito que flanqueia o primeiro e segundo aceptores de splice.

8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que o transgene é abrigado dentro de um vetor viral adenoassociado.

9. Método de acordo com a reivindicação 7, caracterizado pelo fato de que o transgene compreende ainda um primeiro e segundo sítio alvo para as uma ou mais endonucleases de corte raro, em que os sítios alvo flanqueiam o primeiro e segundo aceptores de splice.

10. Método de acordo com a reivindicação 9, caracterizado pelo fato de que os primeiro e segundo sítios alvo flanqueiam os primeiro e segundo braços de homologia.

11. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o transgene é integrado dentro de um íntron do gene endógeno ou em uma junção íntron-éxon.

12. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o transgene é integrado dentro de um íntron, ou na junção íntron-éxon do gene ATXN3 ou gene CACNA1A.

13. Método de acordo com a reivindicação 12, caracterizado pelo fato de que o transgene compreende uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 10 de um gene ATXN3 não patogênico e é direcionado para o íntron 9, ou a junção do íntron 9 éxon 10, de um gene ATXN3 patogênico.

14. Método de acordo com a reivindicação 12, caracterizado pelo fato de que o transgene compreende uma primeira e segunda sequência de codificação parcial que codifica o peptídeo produzido pelo éxon 47 de um gene CACNA1A não patogênico e é direcionado para o íntron 46, ou a junção de íntron 46 éxon 47, de um gene CACNA1A patogênico.

15. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a nuclease é uma nuclease CRISPR/Cas12a ou uma nuclease CRISPR/Cas9.

16. Método de acordo com a reivindicação 1, caracterizado pelo fato de que as primeira e segunda sequências de codificação parciais codificam os mesmos aminoácidos.

17. Método de acordo com a reivindicação 1, caracterizado pelo fato de que as primeira e segunda sequências de codificação diferem na sequência de ácido nucleico, mas codificam os mesmos aminoácidos.

18. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o transgene é abrigado em um vetor, em que o formato do vetor é selecionado a partir de DNA linear de fita dupla, DNA circular de fita dupla, ou um vetor viral.

19. Método de acordo com a reivindicação 18, caracterizado pelo fato de que o vetor viral é selecionado a partir de um vetor de adenovírus, um vetor de vírus adenoassociado, ou um vetor de lentivírus.

20. Método de acordo com a reivindicação 19, caracterizado pelo fato de que o transgene é igual ou menor que 4,7 kb.

21. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o dito gene endógeno é o gene tipo selvagem das ditas sequências de codificação parciais.

22. Método de acordo com a reivindicação 21, caracterizado pelo fato de que o dito gene endógeno é aberrante e as sequências de codificação parciais codificam uma proteína parcial de uma versão funcional do dito gene endógeno.

23. Polinucleotídeo de DNA, caracterizado pelo fato de que compreende:

a. uma primeira e segunda sequência aceptora de splice, b. uma primeira e segunda sequência de codificação parcial, c. um terminador bidirecional ou um primeiro e segundo terminador, d. opcionalmente, um primeiro e segundo braço de homologia, e e. opcionalmente, um primeiro e segundo sítio alvo de endonuclease de corte raro.

24. Método de integrar um transgene em um gene endógeno, o método caracterizado pelo fato de que compreende: a. administrar um transgene, em que o transgene compreende i. uma extremidade de transposon esquerda e direita, ii. uma primeira e segunda sequência aceptora de splice, iii. uma primeira e segunda sequência de codificação parcial, e iv. um terminador bidirecional ou um primeiro e segundo terminador; b. administrar uma transposase em que o transgene é integrado no gene endógeno.

25. Método de integrar um transgene em um gene endógeno, o método caracterizado pelo fato de que compreende: a. administrar um transgene, em que o transgene compreende i. uma primeira e segunda sequência aceptora de splice, ii. uma primeira e segunda sequência de codificação, e iii. um terminador bidirecional ou um primeiro e segundo terminador; b. administrar pelo menos uma endonuclease de corte raro direcionada para um sítio dentro do gene endógeno, em que o transgene é integrado no gene endógeno.

26. Método de integrar um transgene em um gene endógeno, o método caracterizado pelo fato de que compreende: a. administrar um transgene, em que o transgene compreende i. uma primeira e segunda sequência aceptora de splice, ii. uma primeira e segunda sequência de codificação, iii. um terminador bidirecional ou um primeiro e segundo terminador, e iv. um primeiro e segundo braço de homologia em que o transgene é integrado no gene endógeno.