BR112021007994A2

BR112021007994A2 - Sistema e enzima crispr/cas12f

Info

Publication number: BR112021007994A2
Application number: BR112021007994-7A
Authority: BR
Inventors: Jinsheng Lai; Yingsi ZHOU; Jinjie ZHU; Fei Yi; Xiangbo ZHANG; Haiming Zhao; Weibin SONG
Original assignee: China Agricultural University
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2021-10-26
Also published as: EP3875469A4; JP7216877B2; AU2019372642A1; CN111757889B; AU2019372642B2; WO2020088450A1; MX2021004898A; IL282746A; SG11202104347UA; JP2022512982A; CN111757889A; US20210395784A1; KR20210129033A; CN113136375B; PH12021550904A1; CA3118251A1; CN113106081A; CN113136375A; EP3875469A1

Abstract

sistema e enzima crispr/cas12f. a presente invenção pertence ao campo da edição de ácidos nucleicos, em particular ao campo da tecnologia de repetições palindrômicas pequenas regularmente interespaçadas e agrupadas (crispr). em particular, a presente invenção fornece uma proteína efetora cas, uma proteína de fusão compreendendo a proteína efetora cas, e uma molécula de ácido nucleico que codifica a mesma. também são fornecidos um composto e uma composição para edição de ácidos nucleicos (por exemplo, edição de genes ou de genoma) compreendendo a proteína ou a molécula de ácido nucleico, e um método para a edição de ácidos nucleicos (por exemplo, edição de genes ou de genoma) usando a proteína.

Description

“SISTEMA E ENZIMA CRISPR/CAS12F” Campo Técnico

[0001] A presente invenção se refere ao campo da edição de ácidos nucleicos, em particular ao campo técnico das repetições palindrômicas pequenas regularmente interespaçadas e agrupadas (CRISPR). Especificamente, a presente invenção se refere a proteínas efetoras Cas, proteínas de fusão contendo estas proteínas e moléculas de ácido nucleico que as codificam. A presente invenção também se refere a complexos e composições para a edição de ácidos nucleicos (por exemplo, edição de genes ou de genoma), que compreendem as proteínas ou proteínas de fusão da presente invenção, ou moléculas de ácido nucleico que as codificam. A presente invenção também se refere a um método de edição de ácidos nucleicos (por exemplo, edição de genes ou de genoma), cujo uso compreende as proteínas ou proteínas de fusão da presente invenção. Fundamentos da Invenção

[0002] A tecnologia CRISPR/Cas é uma tecnologia de edição de genes amplamente utilizada. Ela usa orientação de RNA para se ligar especificamente a sequências alvo no genoma e cortar o DNA para produzir quebras de duplo filamento, e usa a junção de extremidades não homólogas biológicas ou a recombinação homóloga para a edição de genes direcionada a sítio.

[0003] O sistema CRISPR/Cas9 é o sistema CRISPR do tipo II mais comumente usado. Ele reconhece o motif PAM de 3’-NGG e corta a sequência alvo com extremidades cegas. O sistema CRISPR/Cas do tipo V é um tipo de sistema CRISPR descoberto recentemente nos últimos dois anos. Ele tem um motif 5’-TTN e corta a sequência alvo com extremidades coesivas, como Cpf1, C2c1, CasX e Casy. Entretanto, os diferentes CRISPR/Cas existentes atualmente têm vantagens e desvantagens diferentes. Por exemplo, Cas9, C2c1 e CasX requerem dois RNAs para o RNA-guia, enquanto o Cpf1 requer apenas um RNA-guia e pode ser usado para a edição de vários genes. CasX tem um tamanho de 980 aminoácidos, enquanto os Cas9, C2c1, CasY e Cpf1 comuns tem usualmente cerca de 1300 aminoácidos de tamanho. Além disso, as sequências PAM de Cas9,

Cpf1, CasX e CasY são mais complexas e diversas, e C2c1 reconhece o rigoroso 5’-TTN, de modo que seu sítio alvo é mais fácil de ser previsto do que outros sistemas, assim reduzindo os potenciais efeitos fora do alvo.

[0004] Resumindo, dado que os sistemas CRISPR/Cas atualmente disponíveis são limitados por algumas deficiências, o desenvolvimento de um novo sistema CRISPR/Cas mais robusto, com um bom desempenho em muitos aspectos é de grande importância para o desenvolvimento da biotecnologia. Sumário da Invenção

[0005] Após muitas experiências e explorações repetidas, o inventor da presente invenção verificou inesperadamente um novo tipo de endonuclease guiada por RNA. Com base nesta verificação, o presente inventor desenvolveu um novo sistema CRISPR/Cas e um método de edição de genes com base no sistema. Proteína Efetora Cas

[0006] Por conseguinte, no primeiro aspecto, a presente invenção fornece uma proteína tendo uma sequência de aminoácidos conforme mostrada na SEQ ID: 1, ou tendo uma sequência de aminoácidos com pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência em comparação com a SEQ ID NO: 1, a sequência de aminoácidos mantém substancialmente a função biológica da SEQ ID NO: 1.

[0007] Em algumas formas de realização, a presente invenção fornece uma proteína tendo uma sequência de aminoácidos conforme mostrada na SEQ ID NO: 1 ou uma ortóloga, homóloga ou variante da mesma; em que a ortóloga, homóloga ou variante tem pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência em comparação com a SEQ ID NO: 1, e mantém substancialmente a função biológica da SEQ ID NO: 1.

[0008] Na presente invenção, a função biológica da sequência acima inclui, mas não se limita a, a atividade de ligação ao RNA-guia, a atividade de endonuclease e a atividade de ligação a e clivagem de um sítio específico da sequência alvo guiada pelo RNA-guia.

[0009] Em algumas formas de realização, a proteína é uma proteína efetora no sistema CRISPR/Cas.

[0010] Em algumas formas de realização, a proteína da presente invenção tem uma sequência de aminoácidos conforme mostrada na SEQ ID NO: 1. Proteína Derivada

[0011] A proteína da presente invenção pode ser submetida à derivação, por exemplo, ligada a outra molécula (por exemplo, outro polipeptídeo ou proteína). Geralmente, a derivação da proteína (por exemplo, a marcação) não afetará negativamente a atividade desejada da proteína (por exemplo, a atividade de ligação ao RNA-guia, a atividade de endonuclease, a atividade de ligação a e clivagem de um sítio específico da sequência alvo guiada pelo RNA-guia). Portanto, a proteína da presente invenção também deve incluir essas formas derivadas. Por exemplo, a proteína da presente invenção pode ser ligada de forma funcional (através de acoplamento químico, fusão genética, ligação não covalente ou outros meios) a um ou mais outros grupos moleculares, como outra proteína ou polipeptídeo, reagente de detecção, reagente farmacêutico e afins.

[0012] Em particular, a proteína da presente invenção pode ser ligada a outras unidades funcionais. Por exemplo, ela pode ser ligada a uma sequência sinal de localização nuclear (NLS) para melhorar a capacidade da proteína da presente invenção de entrar no núcleo da célula. Por exemplo, ela pode ser ligada a uma parte de direcionamento para fazer com que a proteína da presente invenção apresente direcionamento. Por exemplo, ela pode ser ligada a um marcador detectável para facilitar a detecção da proteína da presente invenção. Por exemplo, ela pode ser ligada a uma etiqueta de epítopo para facilitar a expressão, a detecção, o rastreio e/ou a purificação da proteína da presente invenção. Conjugado

[0013] Portanto, em um segundo aspecto, a presente invenção fornece um conjugado composto pela proteína acima mencionada e uma porção modificada.

[0014] Em algumas formas de realização, a porção modificada é selecionada a partir de uma proteína ou polipeptídeo adicional, um marcador detectável e quaisquer combinações destes.

[0015] Em algumas formas de realização, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência sinal de localização nuclear (NLS), uma parte de direcionamento, um domínio de ativação de transcrição (por exemplo, VP64), um domínio de repressão de transcrição (por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: atividade de metilase, nucleotídeo desaminase, demetilase, atividade de ativação de transcrição, atividade de inibição de transcrição, atividade do fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico e quaisquer combinações destes.

[0016] Em algumas formas de realização, o conjugado da presente invenção compreende uma ou mais sequências NLS, como a NLS do grande antígeno T grande do vírus SV40. Em algumas formas de realização exemplificativas, a sequência NLS é conforme mostrada na SEQ ID NO: 19. Em algumas formas de realização, a sequência NLS está localizada em, perto ou próximo ao terminal (como o N-terminal ou C- terminal) da proteína da presente invenção. Em algumas formas de realização exemplificativas, a sequência NLS está localizada em, perto ou próximo ao C-terminal da proteína da presente invenção.

[0017] Em algumas formas de realização, o conjugado da presente invenção compreende uma etiqueta de epítopo. Essas etiquetas de epítopo são bem conhecidas para aqueles com qualificação na arte, cujos exemplos incluem, mas não se limitam a, His, V5, FLAG, HA, Myc, VSV-G, Trx, etc., e aqueles com qualificação na arte sabem como selecionar uma etiqueta de epítopo adequada de acordo com o objetivo pretendido (por exemplo, purificação, detecção ou rastreio).

[0018] Em algumas formas de realização, o conjugado da presente invenção compreende uma sequência de genes repórteres. Esses genes repórteres são bem conhecidos por aqueles com qualificação na arte, e exemplos deles incluem, mas não se limitam a, GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP e similares.

[0019] Em algumas formas de realização, o conjugado da presente invenção compreende um domínio capaz de se ligar a moléculas de DNA ou moléculas intracelulares, como a proteína de ligação à maltose (MBP), o domínio de ligação de DNA (DBD) de Lex A, DBD de GAL4, etc.

[0020] Em algumas formas de realização, o conjugado da presente invenção compreende um marcador detectável, como um corante fluorescente, por exemplo, FITC ou DAPI.

[0021] Em algumas formas de realização, a proteína da presente invenção é opcionalmente acoplada, conjugada ou fundida à porção modificada por meio de um ligante.

[0022] Em algumas formas de realização, a porção modificada é diretamente ligada ao N-terminal ou ao C-terminal da proteína da presente invenção.

[0023] Em algumas formas de realização, a porção modificada é ligada ao N-terminal ou ao C-terminal da proteína da presente invenção por meio de um ligante. Esses ligantes são bem conhecidos na arte, exemplos dos quais incluem, mas não se limitam a, um ligante contendo um ou mais (por exemplo, 1, 2, 3, 4 ou 5) aminoácidos (como Glu ou Ser) ou derivados de aminoácidos (como Ahx, β-Ala, GABA ou Ava) ou PEG e similares. Proteína de Fusão

[0024] Em um terceiro aspecto, a presente invenção fornece uma proteína de fusão compreendendo a proteína da presente invenção e uma proteína ou polipeptídeo adicional.

[0025] Em algumas formas de realização, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência sinal de localização nuclear (NLS), uma parte de direcionamento, um domínio de ativação de transcrição (por exemplo, VP64), um domínio de repressão de transcrição (por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: uma atividade de metilase, nucleotídeo desaminase, uma demetilase,

atividade de ativação de transcrição, atividade de inibição de transcrição, atividade do fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico e quaisquer combinações destes.

[0026] Em algumas formas de realização, a proteína de fusão da presente invenção compreende uma ou mais sequências NLS, como a NLS do antígeno T grande do vírus SV40. Em algumas formas de realização, a sequência NLS está localizada em, perto ou próximo ao terminal (como o N- terminal ou o C-terminal) da proteína da presente invenção. Em algumas formas de realização exemplificativas, a sequência NLS está localizada em, perto ou próximo ao C-terminal da proteína da presente invenção.

[0027] Em algumas formas de realização, a proteína de fusão da presente invenção compreende uma etiqueta de epítopo.

[0028] Em algumas formas de realização, a proteína de fusão da presente invenção compreende uma sequência de genes repórteres.

[0029] Em algumas formas de realização, a proteína de fusão da presente invenção contém um domínio capaz de se ligar a moléculas de DNA ou moléculas intracelulares.

[0030] Em algumas formas de realização, a proteína da presente invenção é opcionalmente fundida à proteína ou polipeptídeo adicional por meio de um ligante.

[0031] Em algumas formas de realização, a proteína ou polipeptídeo adicional é diretamente ligada ao N-terminal ou ao C-terminal da proteína da presente invenção.

[0032] Em algumas formas de realização, a proteína ou polipeptídeo adicional é ligada ao N-terminal ou ao C-terminal da proteína da presente invenção por meio de um ligante.

[0033] Em algumas formas de realização exemplificativas, a proteína de fusão da presente invenção tem uma sequência de aminoácidos conforme mostrada na SEQ ID NO: 20.

[0034] A proteína da presente invenção, o conjugado da presente invenção ou a proteína de fusão da presente invenção não é limitada pela forma como é produzida. Por exemplo, ela pode ser produzida por métodos de engenharia genética (tecnologia recombinante), ou pode ser produzida por métodos de síntese química. Repetição Direta

[0035] Em um quarto aspecto, a presente invenção fornece uma molécula de ácido nucleico isolada compreendendo uma sequência selecionada a partir das seguintes ou constituída por uma sequência selecionada a partir das seguintes: (i) uma sequência conforme mostrada na SEQ ID NO: 7 ou 13; (ii) em comparação com a sequência conforme mostrada na SEQ ID NO: 7 ou 13, uma sequência tendo uma ou mais substituições, eliminações ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, eliminações ou adições de bases); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência conforme mostrada na SEQ ID NO: 7 ou 13; (iv) uma sequência que hibridiza com sequência como descrita em qualquer um de (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer um de (i) a (iii).

[0036] Além disso, a sequência como descrita em qualquer um de (ii) a (v) mantém substancialmente a função biológica da sequência a partir da qual é derivada, e a função biológica da sequência se refere à sua atividade como uma sequência de repetição direta no sistema CRISPR-Cas.

[0037] Em algumas formas de realização, a molécula isolada de ácido nucleico é uma sequência de repetição direta no sistema CRISPR-Cas.

[0038] Em algumas formas de realização, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos conforme mostrada na SEQ ID NO: 7 ou 13; (b) uma sequência que hibridiza com a sequência descrita em (i)

sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos conforme mostrada na SEQ ID NO: 7 ou 13.

[0039] Em algumas formas de realização, a molécula de ácido nucleico isolada é o RNA. Complexo CRISPR/Cas

[0040] Em um quinto aspecto, a presente invenção fornece um complexo que compreende: (i) um componente de proteína, que é selecionado a partir de: a proteína, o conjugado ou a proteína de fusão da presente invenção, e quaisquer combinações destes; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada tal como descrita no quarto aspecto e uma sequência de direcionamento capaz de hibridização com sequência alvo sentido 5’ a 3’, em que o componente de proteína e o componente de ácido nucleico se combinam para formar um complexo.

[0041] Em algumas formas de realização, a sequência de direcionamento é ligada à extremidade de 3’ da molécula de ácido nucleico.

[0042] Em algumas formas de realização, a sequência de direcionamento compreende a sequência complementar da sequência alvo.

[0043] Em algumas formas de realização, o componente de ácido nucleico é um RNA-guia no sistema CRISPR-Cas.

[0044] Em algumas formas de realização, a molécula de ácido nucleico é o RNA.

[0045] Em algumas formas de realização, o complexo não compreende crRNA de transativação (tracrRNA).

[0046] Em algumas formas de realização, a sequência de direcionamento tem pelo menos 5, pelo menos 10 de comprimento. Em algumas formas de realização, a sequência de direcionamento tem de 10 a 30 ou de 15 a 25 ou de 15 a 22 ou de 19 a 25 ou de 19 a 22 nucleotídeos de comprimento.

[0047] Em algumas formas de realização, a molécula de ácido nucleico isolada tem de 55 a 70 nucleotídeos de comprimento, tal como de

55 a 65 nucleotídeos, tal como de 60 a 65 nucleotídeos, tal como de 62 a 65 nucleotídeos, tal como de 63 a 64 nucleotídeos. Em algumas formas de realização, a molécula de ácido nucleico isolada tem de 15 a 30 nucleotídeos de comprimento, tal como de 15 a 25 nucleotídeos, tal como de 20 a 25 nucleotídeos, tal como de 22 a 24 nucleotídeos, tal como 23 nucleotídeos.

[0048] Em uma forma de realização específica, a presente invenção fornece um sistema CRISPR-Cas, que compreende: a) um RNA-guia, que contém uma sequência de repetição direta e uma sequência-guia capazes de hibridizar com a sequência alvo sentido 5’ a 3’, e b) uma proteína efetora Cas12f; o RNA-guia forma um complexo com a proteína efetora Cas12f; em que a proteína Cas12f tem um tamanho de 900 a 1200 aminoácidos, e há um domínio RuvC perto de seu C-terminal, que é composto de motifs RuvC-I, RuvC-II e RuvC-III; em que o Cas12f está localizado a 500 pb do lócus do CRISPR no genoma bacteriano; de preferência, o comprimento da sequência de repetição direta é de 21nt a 36nt, o comprimento da sequência de direcionamento é de 1 a 80 nt e as últimas 16 ou 17 bases da sequência de repetição direta podem formar uma estrutura em grampo (stem loop), o tamanho da estrutura é de 8 ou 9 nt, e o grampo é composto por cinco pares de bases complementares. Codificação de Ácidos Nucleicos, Vetores e Células Hospedeiras

[0049] Em um sexto aspecto, a presente invenção fornece uma molécula de ácido nucleico isolada compreendendo: (i) uma sequência de nucleotídeos que codifica a proteína ou a proteína de fusão da presente invenção; (ii) a codificação da molécula de ácido nucleico isolada, tal como descrito no quarto aspecto, ou iii) uma sequência de nucleotídeos contendo (i) e (ii).

[0050] Em algumas formas de realização, a sequência de nucleotídeos descrita em qualquer um de (i) a (iii) é códon-otimizada para expressão em células procarióticas. Em algumas formas de realização, a sequência de nucleotídeos descrita em qualquer um de (i) a (iii) é códon- otimizada para expressão em células eucarióticas.

[0051] Em um sétimo aspecto, a presente invenção também fornece um vetor compreendendo a molécula de ácido nucleico isolada, conforme descrito no sexto aspecto. O vetor da presente invenção pode ser um vetor de clonagem ou um vetor de expressão. Em algumas formas de realização, o vetor da presente invenção é, por exemplo, um plasmídeo, um cosmídeo, um bacteriófago, um cosmídeo e similares. Em algumas formas de realização preferidas, o vetor é capaz de expressar a proteína, a proteína de fusão da presente invenção, a molécula de ácido nucleico isolada de acordo com o quarto aspecto ou o complexo de acordo com o quinto aspecto em um indivíduo (por exemplo, um mamífero, como um ser humano).

[0052] Em um oitavo aspecto, a presente invenção também fornece uma célula hospedeira contendo a molécula de ácido nucleico isolada ou vetor, conforme descrito acima. Essas células hospedeiras incluem, mas não se limitam a, células procarióticas, como as células de E. coli, e células eucarióticas, como células de levedura, células de insetos, células vegetais e células animais (como células de mamíferos, por exemplo, células de camundongo, células de seres humanos, etc.). As células da presente invenção também podem ser linhagens de células, como as células 293T. Composição e Composição Vetorial

[0053] Em um nono aspecto, a presente invenção também fornece uma composição, que compreende: (i) um primeiro componente, que é selecionado a partir de: a proteína, o conjugado, a proteína de fusão da presente invenção, a sequência de nucleotídeos que codifica a proteína ou a proteína de fusão e quaisquer combinações destes; e (ii) um segundo componente, que é uma sequência de nucleotídeos contendo um RNA-guia, ou uma sequência de nucleotídeos que codifica a sequência de nucleotídeos contendo um RNA-guia; em que o RNA-guia inclui uma sequência de repetição direta e uma sequência de direcionamento de 5’ a 3’, e a sequência de direcionamento pode hibridizar com a sequência alvo;

o RNA alvo pode formar um complexo com a proteína, o conjugado ou a proteína de fusão, conforme descrito em (i).

[0054] Em algumas formas de realização, a sequência de repetição direta é uma molécula de ácido nucleico isolada, tal como definido no quarto aspecto.

[0055] Em algumas formas de realização, a sequência de direcionamento é ligada à extremidade 3’ da sequência de repetição direta. Em algumas formas de realização, a sequência de direcionamento compreende a sequência complementar da sequência alvo.

[0056] Em algumas formas de realização, a composição não inclui o tracrRNA.

[0057] Em algumas formas de realização, a composição não ocorre naturalmente ou é modificada. Em algumas formas de realização, pelo menos um componente da composição não ocorre naturalmente ou é modificado. Em algumas formas de realização, o primeiro componente não ocorre naturalmente ou é modificado; e/ou, o segundo componente não ocorre naturalmente ou é modificado.

[0058] Em algumas formas de realização, quando a sequência alvo é DNA, a sequência alvo está localizada na extremidade 3’ do motif adjacente ao protoespaçador (PAM), e o PAM tem uma sequência mostrada por 5’-TTN, em que N é selecionado a partir de A, G, T, e C. Em algumas formas de realização, N é selecionado a partir de A, T e C.

[0059] Em algumas formas de realização, quando a sequência alvo é RNA, a sequência alvo não tem restrições do domínio PAM.

[0060] Em algumas formas de realização, a sequência alvo é uma sequência de DNA ou RNA derivada de uma célula procariótica ou de uma célula eucariótica. Em algumas formas de realização, a sequência alvo é uma sequência de DNA ou RNA de ocorrência natural.

[0061] Em algumas formas de realização, a sequência alvo está presente na célula. Em algumas formas de realização, a sequência alvo está presente no núcleo ou no citoplasma da célula (como organelas). Em algumas formas de realização, a célula é uma célula eucariótica. Em algumas formas de realização, a célula é uma célula procariótica.

[0062] Em algumas formas de realização, a proteína é ligada a uma ou mais sequências NLS. Em algumas formas de realização, o conjugado ou a proteína de fusão compreende uma ou mais sequências NLS. Em algumas formas de realização, a sequência NLS é ligada ao N-terminal ou ao C-terminal da proteína. Em algumas formas de realização, a sequência NLS é fundida ao N-terminal ou ao C-terminal da proteína.

[0063] Em um décimo aspecto, a presente invenção também fornece uma composição compreendendo um ou mais vetores, que inclui: (i) um primeiro ácido nucleico, que é uma sequência de nucleotídeos que codifica uma proteína ou proteína de fusão da presente invenção; opcionalmente, o primeiro ácido nucleico é operativamente ligado a um primeiro elemento regulador; e (ii) um segundo ácido nucleico, que codifica uma sequência de nucleotídeos compreendendo um RNA-guia; opcionalmente, o segundo ácido nucleico é operativamente ligado a um segundo elemento regulador; em que: o primeiro ácido nucleico e o segundo ácido nucleico estão presentes nos mesmos vetores ou em vetores diferentes; o RNA-guia inclui uma sequência de repetição direta e uma sequência de direcionamento de 5’ a 3’ e a sequência de direcionamento pode hibridizar com a sequência alvo;

[0064] O RNA-guia pode formar um complexo com a proteína efetora ou a proteína de fusão, conforme descrito em (i).

[0065] Em algumas formas de realização, a sequência de repetição direta é uma molécula de ácido nucleico isolada, tal como definido no quarto aspecto.

[0066] Em algumas formas de realização, a sequência de direcionamento é ligada à extremidade 3’ da sequência de repetição direta. Em algumas formas de realização, a sequência de direcionamento compreende a sequência complementar da sequência alvo.

[0067] Em algumas formas de realização, a composição não inclui o tracrRNA.

[0068] Em algumas formas de realização, a composição não ocorre naturalmente ou é modificada. Em algumas formas de realização, pelo menos um componente da composição não ocorre naturalmente ou é modificado.

[0069] Em algumas formas de realização, o primeiro elemento regulador é um promotor, como um promotor induzível.

[0070] Em algumas formas de realização, o segundo elemento regulador é um promotor, como um promotor induzível.

[0071] Em algumas formas de realização, quando a sequência alvo é o DNA, a sequência alvo está localizada na extremidade 3’ do motif adjacente ao protoespaçador (PAM), e o PAM tem uma sequência mostrada por 5’-TTN, em que N é selecionado a partir de A, G, T, C. Em algumas formas de realização, N é selecionado a partir de A, T, e C.

[0072] Em algumas formas de realização, quando a sequência alvo é RNA, a sequência alvo não tem restrições do domínio PAM.

[0073] Em algumas formas de realização, a sequência alvo é uma sequência de DNA ou RNA derivada de uma célula procariótica ou de uma célula eucariótica. Em algumas formas de realização, a sequência alvo é uma sequência de DNA ou RNA de ocorrência natural.

[0074] Em algumas formas de realização, a sequência alvo está presente na célula. Em algumas formas de realização, a sequência alvo está presente no núcleo ou no citoplasma da célula (como organelas). Em algumas formas de realização, a célula é uma célula eucariótica. Em algumas formas de realização, a célula é uma célula procariótica.

[0075] Em algumas formas de realização, a proteína é ligada a uma ou mais sequências NLS. Em algumas formas de realização, o conjugado ou a proteína de fusão compreende uma ou mais sequências NLS. Em algumas formas de realização, a sequência NLS é ligada ao N-terminal ou ao C-terminal da proteína. Em algumas formas de realização, a sequência NLS é fundida ao N-terminal ou ao C-terminal da proteína.

[0076] Em algumas formas de realização, um tipo de vetor é um plasmídeo, que se refere a uma alça de DNA de duplo filamento circular, à qual fragmentos adicionais de DNA podem ser inseridos, por exemplo, por técnicas de clonagem molecular convencionais. Outro tipo de vetor é um vetor viral, no qual sequências de DNA ou RNA derivadas de vírus estão presentes no vetor usado para empacotar o vírus (por exemplo, retrovírus, retrovírus com defeito de replicação, adenovírus, adenovírus com defeito de replicação e vírus adenoassociado). Os vetores virais também contêm polinucleotídeos transportados pelo vírus usado para transfecção em uma célula hospedeira. Alguns vetores (por exemplo, vetores bacterianos com uma origem bacteriana de replicação e vetores de mamíferos epissomais) são capazes de replicação autônoma na célula hospedeira em que são introduzidos. Outros vetores (por exemplo, vetores de mamíferos não epissomais) são integrados ao genoma da célula hospedeira após serem introduzidos na célula hospedeira e, por conseguinte, replicados com o genoma do hospedeiro. Além disso, alguns vetores podem direcionar a expressão dos genes aos quais estão operativamente ligados. Esses vetores são aqui referidos como “vetores de expressão”. Os vetores de expressão comuns usados na tecnologia de DNA recombinante geralmente estão na forma de plasmídeos.

[0077] Os vetores de expressão recombinantes podem conter a molécula de ácido nucleico da presente invenção em uma forma adequada para expressão do ácido nucleico em uma célula hospedeira, isto significa que estes vetores de expressão recombinantes contêm um ou mais elementos reguladores selecionados com base na célula hospedeira a ser usada para expressão. O elemento regulador está operativamente ligado à sequência de ácidos nucleicos a ser expressa. Entrega e Composição de Entrega

[0078] A proteína, conjugado, proteína de fusão da presente invenção, a molécula de ácido nucleico isolada como descrita no quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico isolada como descrita no sexto aspecto, o vetor como descrito no sétimo aspecto, a composição como descrita nos nono e décimo aspectos podem ser entregues por qualquer método conhecido na arte. Esses métodos incluem, mas não se limitam a, eletroporação, lipofeção, transfecção nuclear, microinjeção, sonoforação, pistola gênica, transfecção mediada por fosfato de cálcio, transfecção catiônica, transfecção com lipossomas, transfecção dendrítica, transfecção por choque térmico, transfecção nuclear, transfecção magnética, lipofecção, transfecção por punção, transfecção óptica, absorção de ácido nucleico aumentada por reagentes e entrega via lipossomas, imunolipossomas, partícula viral, virossomas artificiais, etc.

[0079] Por conseguinte, em outro aspecto, a presente invenção fornece uma composição de entrega composta por um veículo de entrega e um ou mais selecionados a partir dos seguintes: a proteína, conjugado, proteína de fusão da presente invenção, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição de acordo com os nono e décimo aspectos.

[0080] Em algumas formas de realização, o veículo de entrega é uma partícula.

[0081] Em algumas formas de realização, o veículo de entrega é selecionado a partir de uma partícula de lipídio, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, microvesícula, pistola gênica ou vetor viral (por exemplo, retrovírus com defeito de replicação, lentivírus, adenovírus ou vírus adenoassociado). Kit

[0082] Em outro aspecto, a presente invenção fornece um kit compreendendo um ou mais dos componentes como descritos acima. Em algumas formas de realização, o kit inclui um ou mais componentes selecionados a partir dos seguintes: a proteína, conjugado, proteína de fusão da presente invenção, a molécula de ácido nucleico isolada como descrita no quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico isolada como descrito no sexto aspecto, o vetor como descrito no sétimo aspecto e a composição como descrita nos nono e décimo aspectos.

[0083] Em algumas formas de realização, o kit da presente invenção compreende a composição como descrita no nono aspecto. Em algumas formas de realização, o kit compreende ainda instruções para uso da composição.

[0084] Em algumas formas de realização, o kit da presente invenção compreende uma composição como descrita no décimo aspecto. Em algumas formas de realização, o kit compreende ainda instruções para uso da composição.

[0085] Em algumas formas de realização, o componente contido no kit da presente invenção pode ser fornecido em qualquer recipiente adequado.

[0086] Em algumas formas de realização, o kit inclui ainda um ou mais tampões. O tampão pode ser qualquer tampão, incluindo, mas não se limitando a tampão de carbonato de sódio, tampão de bicarbonato de sódio, tampão de borato, tampão Tris, tampão MOPS, Tampão HEPES e suas combinações. Em algumas formas de realização, o tampão é alcalino. Em algumas formas de realização, o tampão tem um pH de cerca de 7 a cerca de 10.

[0087] Em algumas formas de realização, o kit inclui ainda um ou mais oligonucleotídeos correspondentes a uma sequência de direcionamento para inserção ao vetor de modo a ligar operativamente a sequência de direcionamento e o elemento regulador. Em algumas formas de realização, o kit inclui um modelo de polinucleotídeo de recombinação homóloga. Método e Uso

[0088] Em outro aspecto, a presente invenção fornece um método para modificar um gene alvo, que compreende: colocar o complexo de acordo com o quinto aspecto, a composição de acordo com o nono aspecto ou a composição de acordo com o décimo aspecto em contato com o gene alvo, ou entregando-o a uma célula contendo o gene alvo; a sequência alvo está presente no gene alvo.

[0089] Em algumas formas de realização, o gene alvo está presente na célula. Em algumas formas de realização, a célula é uma célula procariótica. Em algumas formas de realização, a célula é uma célula eucariótica. Em algumas formas de realização, a célula é uma célula de mamífero. Em algumas formas de realização, a célula é uma célula de ser humano. Em algumas formas de realização, a célula é selecionada a partir de uma célula de primata não humano, bovina, suína ou de roedor. Em algumas formas de realização, a célula é uma célula eucariótica não mamífera, como aves de capoeira ou peixes e similares. Em algumas formas de realização, a célula é uma célula vegetal, como uma célula de uma planta cultivada (como mandioca, milho, sorgo, trigo ou arroz), algas, árvores ou vegetais.

[0090] Em algumas formas de realização, o gene alvo está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro. Em algumas formas de realização, o gene alvo está presente em um plasmídeo.

[0091] Em algumas formas de realização, a modificação se refere a um rompimento na sequência alvo, como um rompimento de duplo filamento no DNA ou um rompimento de filamento único no RNA.

[0092] Em algumas formas de realização, o rompimento resulta na diminuição da transcrição do gene alvo.

[0093] Em algumas formas de realização, o método compreende ainda: colocar o modelo de edição em contato com o gene alvo, ou entregá- lo à célula que contém o gene alvo. Nessas formas de realização, o método repara o gene alvo rompido por recombinação homóloga com um modelo de polinucleotídeo exógeno, em que a reparação resulta em uma mutação, incluindo inserção, eliminação ou substituição de um ou mais nucleotídeos do gene alvo. Em algumas formas de realização, a mutação resulta em uma ou mais alterações de aminoácidos na proteína expressa a partir do gene que contém a sequência alvo.

[0094] Por conseguinte, em algumas formas de realização, a modificação inclui ainda a inserção de um modelo de edição (por exemplo, um ácido nucleico exógeno) no rompimento.

[0095] Em algumas formas de realização, a proteína, conjugado, proteína de fusão, molécula de ácido nucleico isolado, complexo, vetor ou composição está contida em um veículo de entrega.

[0096] Em algumas formas de realização, o veículo de entrega é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, vetor viral (como retrovírus com defeito de replicação, lentivírus, adenovírus ou vírus adenoassociado).

[0097] Em algumas formas de realização, o método é usado para alterar uma ou mais sequências alvo em um gene alvo ou uma molécula de ácido nucleico que codifica um produto de gene alvo para modificar uma célula, uma linhagem de células ou um organismo.

[0098] Em outro aspecto, a presente invenção fornece um método para alterar a expressão de um produto gênico, que compreende: colocar o complexo de acordo com o quinto aspecto, a composição de acordo com o nono aspecto ou a composição de acordo com o décimo aspecto em contato com uma molécula de ácido nucleico que codifica o produto gênico, ou entregando-a a uma célula que contém a molécula de ácido nucleico na qual a sequência alvo está presente.

[0099] Em algumas formas de realização, a molécula de ácido nucleico está presente em uma célula. Em algumas formas de realização, a célula é uma célula procariótica. Em algumas formas de realização, a célula é uma célula eucariótica. Em algumas formas de realização, a célula é uma célula de mamífero. Em algumas formas de realização, a célula é uma célula de ser humano. Em algumas formas de realização, a célula é selecionada a partir de uma célula de primata não humano, bovina, suína ou de roedor. Em algumas formas de realização, a célula é uma célula eucariótica não mamífera, como aves de capoeira ou peixes e similares. Em algumas formas de realização, a célula é uma célula vegetal, como uma célula de uma planta cultivada (como mandioca, milho, sorgo, trigo ou arroz), algas, árvores ou vegetais.

[0100] Em algumas formas de realização, a molécula de ácido nucleico está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro. Em algumas formas de realização, a molécula de ácido nucleico está presente em um plasmídeo.

[0101] Em algumas formas de realização, a expressão do produto gênico é alterada (por exemplo, aumentada ou diminuída). Em algumas formas de realização, a expressão do produto gênico é aumentada. Em algumas formas de realização, a expressão do produto gênico é reduzida.

[0102] Em algumas formas de realização, o produto gênico é uma proteína.

[0103] Em algumas formas de realização, a proteína, conjugado, proteína de fusão, molécula de ácido nucleico isolado, complexo, vetor ou composição está contida em um veículo de entrega.

[0104] Em algumas formas de realização, o veículo de entrega é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, vetor viral (como retrovírus com defeito de replicação, lentivírus, adenovírus ou vírus adenoassociado).

[0105] Em algumas formas de realização, o método é usado para alterar uma ou mais sequências alvo em um gene alvo ou uma molécula de ácido nucleico que codifica um produto de gene alvo para modificar uma célula, uma linhagem de células ou um organismo.

[0106] Em outro aspecto, a presente invenção se refere a um uso da proteína de acordo com o primeiro aspecto, o conjugado de acordo com o segundo aspecto, a proteína de fusão de acordo com o terceiro aspecto, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo de acordo com o quinto aspecto, a molécula de ácido nucleico isolada de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição de acordo com o nono aspecto, a composição de acordo com o décimo aspecto da presente invenção, o kit ou a composição de entrega da presente invenção para edição do ácido nucleico.

[0107] Em algumas formas de realização, a edição do ácido nucleico inclui a edição de genes ou do genoma, como a modificação de genes, a inativação de genes, a alteração da expressão de produtos gênicos, a reparação de mutações e/ou a inserção de polinucleotídeos.

[0108] Em outro aspecto, a presente invenção se refere ao uso da proteína de acordo com o primeiro aspecto, o conjugado de acordo com o segundo aspecto, a proteína de fusão de acordo com o terceiro aspecto, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo de acordo com o quinto aspecto, a molécula de ácido nucleico isolada de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição de acordo com o nono aspecto, a composição de acordo com o décimo aspecto da presente invenção, o kit ou a composição de entrega da presente invenção na preparação de uma formulação, que é usada para: (i) edição do gene ou genoma isolado; (ii) a detecção de um DNA de filamento único isolado; (iii) edição da sequência alvo no lócus alvo para modificar um organismo ou organismo não humano; (iv) tratar a doença causada por defeitos na sequência alvo no lócus alvo.

Células e Progênie de Células

[0109] Em alguns casos, as modificações introduzidas na célula pelo método da presente invenção podem fazer com que a célula e sua progênie sejam alteradas para melhorar a produção de seus produtos biológicos (como anticorpos, amido, etanol ou outra produção de células desejadas). Em alguns casos, as modificações introduzidas na célula pelos métodos da presente invenção podem fazer com que a célula e sua progênie incluam mudanças que alterem o produto biológico produzido.

[0110] Portanto, em outro aspecto, a presente invenção também se refere com uma célula ou sua progênie obtida pelo método descrito acima, em que a célula contém uma modificação que não está presente em seu tipo selvagem.

[0111] A presente invenção também se refere ao produto de célula ou à sua progênie, tal como acima descrito.

[0112] A presente invenção também se refere a uma célula ou linhagem de célula in vitro, isolada ou in vivo ou à sua progênie, a célula ou linhagem de célula ou sua progênie compreende: a proteína de acordo com o primeiro aspecto, o conjugado de acordo com o segundo aspecto, a proteína de fusão de acordo com o terceiro aspecto, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo de acordo com o quinto aspecto, a molécula de ácido nucleico isolada de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição de acordo com o nono aspecto, a composição de acordo com o décimo aspecto da presente invenção, o kit ou a composição de entrega da presente invenção.

[0113] Em algumas formas de realização, a célula é uma célula procariótica.

[0114] Em algumas formas de realização, a célula é uma célula eucariótica. Em algumas formas de realização, a célula é uma célula de mamífero. Em algumas formas de realização, a célula é uma célula de ser humano. Em algumas formas de realização, a célula é uma célula de mamífero não humana, como uma célula de um primata não humano, vaca, ovelha, porco, cão, macaco, coelho, roedor (por exemplo, rato ou camundongo). Em algumas formas de realização, a célula é uma célula eucariótica não mamífera, como uma célula de ave de capoeira (por exemplo, frango), peixe ou crustáceos (por exemplo, mexilhão, camarão). Em algumas formas de realização, a célula é uma célula vegetal, como uma célula de uma monocotiledônea ou dicotiledônea, ou uma célula de uma planta cultivada ou uma cultura alimentar, como mandioca, milho, sorgo, soja, trigo, aveia ou arroz, como algas, árvores ou plantas produtoras, frutas ou legumes (por exemplo, árvores como citrinos, nogueiras, nightshades, algodão, tabaco, tomates, uvas, café, cacau, etc.).

[0115] Em algumas formas de realização, a célula é uma célula- tronco ou linhagem de células-tronco. Definição dos Termos

[0116] Na presente invenção, salvo especificação em contrário, os termos científicos e técnicos aqui utilizados têm os significados comumente entendidos por aqueles com qualificação na arte Além disso, a genética molecular, química de ácidos nucleicos, química, biologia molecular, bioquímica, cultura de células, microbiologia, biologia de células, genômica e DNA recombinante e outros procedimentos usados neste documento são procedimentos de rotina amplamente usados nos campos correspondentes. Ao mesmo tempo, a fim de melhor compreender a presente invenção, definições e explicações dos termos relacionados são fornecidas a seguir.

[0117] Na presente invenção, a expressão “Cas12f” se refere a uma proteína efetora Cas descoberta e identificada pela primeira vez pelos presentes inventores, que tem uma sequência de aminoácidos selecionada a partir de os seguintes: (i) uma sequência mostrada em qualquer uma das SEQ ID NOs: 1, 2, 3; (ii) comparada à sequência mostrada em qualquer uma das SEQ ID NOs: 1, 2, 3, uma sequência tendo uma ou mais substituições, eliminações ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, eliminações ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência mostrada em qualquer uma das SEQ ID NOs: 1, 2, 3.

[0118] A Cas12f da presente invenção é uma endonuclease que se liga a e cliva um sítio específico de uma sequência alvo sob a orientação de um RNA-guia, e tem atividades de endonuclease de DNA e RNA ao mesmo tempo.

[0119] Conforme aqui utilizados, os termos “sistema associados a repetições palindrômicas pequenas regularmente interespaçadas e agrupadas (CRISPR) (Cas) (CRISPR-Cas) ou “sistema CRISPR” são usados de forma alternada e têm o significado comumente entendido por aqueles com qualificação na arte, ele geralmente contém produtos de transcrição ou outros elementos relacionados à expressão de genes associados ao CRISPR (“Cas”), ou produtos de transcrição ou outros elementos capazes de orientar a atividade do gene Cas. Esses produtos de transcrição ou outros elementos podem incluir sequências que codificam proteínas efetoras Cas e RNAs-guia, incluindo RNA CRISPR (crRNA), bem como sequências crRNA de transativação (tracrRNA) contidas no sistema CRISPR-Cas9, ou outras sequências ou produtos de transcrição do lócus CRISPR. No sistema CRISPR baseado em Cas12f da presente invenção, a sequência tracrRNA não é necessária.

[0120] Conforme aqui utilizados, os termos “proteína efetora Cas” e “enzima efetora Cas” são utilizados de forma alternada e se referem a qualquer proteína presente no sistema CRISPR-Cas que tenha mais de 900 aminoácidos de comprimento. Em alguns casos, este tipo de proteína se refere a uma proteína identificada a partir do lócus Cas.

[0121] Conforme aqui usados, os termos “RNA-guia” e “crRNA maduro” podem ser usados de forma alternada e têm significados comumente entendidos por aqueles com qualificação na arte De um modo geral, um RNA-guia pode conter uma repetição direta e uma sequência-guia, ou consiste essencialmente ou consiste em uma sequência de repetição direta e uma sequência de direcionamento (também designada por espaçador no contexto de um sistema CRISPR endógeno). Em alguns casos, a sequência de direcionamento é qualquer sequência de polinucleotídeos que tenha complementaridade suficiente com a sequência alvo para hibridização com a sequência alvo e orientação da ligação específica do complexo CRISPR/Cas à sequência alvo. Em algumas formas de realização, quando perfeitamente alinhadas, o grau de complementaridade entre a sequência de direcionamento e sua sequência alvo correspondente é de pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% ou pelo menos 99%. Determinar o melhor alinhamento está dentro da habilidade de uma pessoa com qualificação na arte. Por exemplo, existem algoritmos e programas de alinhamento publicados e disponíveis comercialmente, tais como, mas não limitados a algoritmo ClustalW, Smith-Waterman em matlab, Bowtie, Geneious, Biopython e SeqMan.

[0122] Em alguns casos, a sequência de direcionamento tem pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 16, pelo menos 17, pelo menos 18, pelo menos 19, pelo menos 20, pelo menos 21, pelo menos 22, pelo menos 23, pelo menos 24, pelo menos 25, pelo menos 26, pelo menos 27, pelo menos 28, pelo menos 29, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45 ou pelo menos 50 nucleotídeos de comprimento. Em alguns casos, a sequência de direcionamento não tem mais de 50, 45, 40, 35, 30, 25, 24, 23, 22, 21, 20, 15, 10 ou menos nucleotídeos de comprimento. Em algumas formas de realização, a sequência de direcionamento tem de 10 a 30 ou de 15 a 25 ou de 15 a 22 ou de 19 a 25 ou de 19 a 22 nucleotídeos de comprimento.

[0123] Em alguns casos, a sequência de repetição direta tem pelo menos 10, pelo menos 15, pelo menos 16, pelo menos 17, pelo menos 18, pelo menos 19, pelo menos 20, pelo menos 21, pelo menos 22, pelo menos 23, pelo menos 24, pelo menos 25, pelo menos 26, pelo menos 27, pelo menos 28, pelo menos 29, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 55, pelo menos 56, pelo menos 57, pelo menos 58, pelo menos 59, pelo menos 60, pelo menos 61, pelo menos 62, pelo menos 63, pelo menos 64, pelo menos 65 ou pelo menos 70 nucleotídeos de comprimento. Em alguns casos, a sequência de repetição direta não tem mais de 70, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 50, 45, 40, 35, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 15, 10 ou menos nucleotídeos de comprimento. Em algumas formas de realização, a sequência de repetição direta tem de 55 a 70 nucleotídeos de comprimento, tal como de 55 a 65 nucleotídeos, tal como de 60 a 65 nucleotídeos, tal como de 62 a 65 nucleotídeos, tal como de 63 a 64 nucleotídeos. Em algumas formas de realização, a sequência de repetição direta tem de 15 a 30 nucleotídeos de comprimento, tal como de 15 a 25 nucleotídeos, tal como de 20 a 25 nucleotídeos, tal como de 22 a 24 nucleotídeos, tal como 23 nucleotídeos.

[0124] Conforme aqui utilizado, o termo “complexo CRISPR/CAS” se refere a um complexo ribonucleoproteico formado pela combinação de RNA-guia ou CrRNA madura e proteína Cas, que contém uma sequência de direcionamento que hibriza com a sequência alvo e se liga à proteína Cas. O complexo ribonucleoproteico pode reconhecer e clivar polinucleotídeos que podem hibridizar com o RNA-guia ou crRNA maduro.

[0125] Por conseguinte, no caso da formação de um complexo CRISPR/Cas, a “sequência alvo” se refere a um polinucleotídeo que é almejado por uma sequência de direcionamento concebida para ter como alvo, por exemplo, uma sequência que é complementar à sequência de direcionamento, em que a hibridização entre a sequência alvo e a sequência de direcionamento irá promover a formação do complexo CRISPR/Cas. Não é necessária uma complementaridade completa, desde que exista complementaridade suficiente para provocar a hibridização e promover a formação de um complexo CRISPR/Cas. A sequência alvo pode compreender qualquer polinucleotídeo, como DNA ou RNA. Em alguns casos, a sequência alvo está localizada no núcleo ou citoplasma da célula. Em alguns casos, a sequência alvo pode estar localizada em uma organela de uma célula eucariótica, como mitocôndrias ou cloroplastos. A sequência ou modelo que pode ser utilizado para ser recombinado no lócus alvo que contém a sequência alvo é referido como “modelo de edição” ou “polinucleotídeo de edição” ou “sequência de edição”. Em algumas formas de realização, o modelo de edição é um ácido nucleico exógeno. Em algumas formas de realização, a recombinação é uma recombinação homóloga.

[0126] Na presente invenção, a expressão “sequência alvo” ou

“polinucleotídeo alvo” pode ser qualquer polinucleotídeo endógeno ou exógeno para uma célula (por exemplo, uma célula eucariótica). Por exemplo, o polinucleotídeo alvo pode ser um polinucleotídeo presente no núcleo de uma célula eucariótica. O polinucleotídeo alvo pode ser uma sequência que codifica um produto gênico (por exemplo, proteína) ou uma sequência não codificadora (por exemplo, um polinucleotídeo regulador ou um DNA inútil). Em alguns casos, acredita-se que a sequência alvo esteja relacionada ao motif adjacente ao protoespaçador (PAM). A sequência exata e os requisitos de comprimento para PAM variam dependendo da enzima efetora Cas utilizada, mas o PAM é normalmente uma sequência de 2 a 5 pares de base adjacente ao protoespaçador (ou seja, a sequência alvo). Aqueles com qualificação na arte são capazes de identificar a sequência PAM a ser usada com uma determinada proteína efetora Cas.

[0127] Em alguns casos, a sequência alvo ou polinucleotídeo alvo pode incluir vários genes e polinucleotídeos relacionados a doenças, e genes e polinucleotídeos relacionados à via bioquímica de transdução de sinais. Exemplos não limitantes dessas sequências alvo ou polinucleotídeos alvo incluem os listados nos Pedidos de Patente US Provisórios 61/736,527 e 61/748,427 depositados em 12 de dezembro de 2012 e 2 de janeiro de 2013, respectivamente, e o Pedido de Patente Internacional PCT/US2013/074667 depositado em 12 de dezembro de 2013, que são todos aqui incorporados por referência.

[0128] Em alguns casos, exemplos de uma sequência alvo ou de um polinucleotídeo alvo incluem uma sequência relacionada com a sinalização de vias bioquímicas, como um gene ou polinucleotídeo relacionado com a via bioquímica de sinalização. Exemplos de um polinucleotídeo alvo incluem um gene ou polinucleotídeo relacionado a doenças. O gene ou polinucleotídeo “relacionado a doenças” se refere a qualquer gene ou polinucleotídeo que produza produtos de transcrição ou tradução em níveis anormais ou em formas anormais nas células derivadas de tecidos afetados pela doença, em comparação a tecidos ou células de controle não relacionados a doenças. No caso da expressão alterada estar relacionada com o aparecimento e/ou progressão da doença, ele pode ser um gene expresso em um nível anormalmente elevado; ou pode ser um gene expresso em um nível anormalmente baixo. O gene relacionado a doenças também se refere a genes que têm uma ou mais mutações ou variações genéticas que são diretamente responsáveis por ou desequilíbrio de ligação genética com um ou mais genes responsáveis pela etiologia da doença. O produto transcrito ou traduzido pode ser conhecido ou desconhecido e pode estar em níveis normais ou anormais.

[0129] Como aqui utilizado, o termo “tipo selvagem” tem o significado comumente entendido por aqueles com qualificação na arte, o que significa uma forma típica de organismos, cepas, genes ou características que o distinguem de mutantes ou formas variantes quando existe na natureza, pode ser isolado de fontes naturais e não foi deliberadamente modificado.

[0130] Conforme aqui usado, os termos “de ocorrência natural” ou “engenheirado(s) podem ser usados de forma alternada e se referem ao envolvimento artificial. Quando estes termos são usados para descrever uma molécula de ácido nucleico ou polipeptídeo, isso significa que a molécula de ácido nucleico ou polipeptídeo é pelo menos substancialmente livre de pelo menos outro componente a que se ligam na natureza ou tal como se encontram na natureza.

[0131] Como aqui usado, o termo “ortólogo” tem o significado comumente entendido por aqueles com qualificação na arte. Como orientação adicional, o “ortólogo” da proteína aqui descrita se refere a proteínas pertencentes a espécies diferentes, que desempenham as mesmas funções ou funções semelhantes às proteínas que agem como suas ortólogas.

[0132] Como aqui utilizado, o termo “identidade” é utilizado para se referir à correspondência de sequências entre dois polipeptídeos ou entre dois ácidos nucleicos. Quando uma determinada posição nas duas sequências a serem comparadas é ocupada pela mesma base ou subunidade monomérica de aminoácido (por exemplo, uma determinada posição em cada uma das duas moléculas de DNA é ocupada por adenina, ou uma determinada posição em cada um dos dois peptídeos é ocupada por lisina), então as moléculas são idênticas nesta posição. A “identidade percentual” entre duas sequências é uma função do número de posições correspondentes compartilhadas pelas duas sequências divididas pelo número de posições a serem comparadas × 100. Por exemplo, se 6 de 10 posições em duas sequências corresponderem, as duas sequências têm 60% de identidade. Por exemplo, as sequências de DNA CTGACT e CAGGTT compartilham 50% de identidade (3 de 6 posições totais correspondem). Em geral, a comparação é feita quando duas sequências estão alinhadas para produzir a identidade máxima. Esse alinhamento pode ser alcançado usando, por exemplo, o método de Needleman et al (1970) J. Mol. Biol. 48:443-453, que pode ser convenientemente realizado por um programa de computador como o programa Align (DNAstar, Inc.). Também é possível usar o algoritmo de E. Meyers e W. Miller (Comput. Appl Biosci., 4:11-17 (1988)) integrado ao programa ALIGN (versão 2.0), usando a tabela de peso de resíduos PAM120, uma penalidade de comprimento de lacuna de 12 e uma penalidade de lacuna de 4 para determinar a identidade percentual entre duas sequências de aminoácidos. Além disso, pode ser usado o algoritmo Needleman e Wunsch (J Mol Biol. 48:444-453 (1970)) no programa GAP integrado no pacote de software GCG (disponível em www.gcg.com), a matriz Blossum 62 ou matriz PAM250 e os pesos de lacuna de 16, 14, 12, 10, 8, 6 ou 4 e pesos de comprimento de 1, 2, 3, 4, 5 ou 6 para determinar a identidade percentual entre duas sequências de aminoácidos.

[0133] Como aqui utilizado, o termo “vetor” se refere a um veículo de administração de ácido nucleico ao qual pode ser inserido um polinucleotídeo. Quando o vetor pode expressa a proteína codificada pelo polinucleotídeo inserido, o vetor é chamado de um vetor de expressão. O vetor pode ser introduzido na célula hospedeira por meio de transformação, transdução ou transfecção, de modo que os elementos materiais genéticos que ele transporta podem ser expressos na célula hospedeira. O vetor é bem conhecido por aqueles com qualificação na arte, incluindo, mas não se limitando a: um plasmídeo; fagemídeo; cosmídeo; cromossoma artificial, como o cromossoma artificial de levedura (YAC), o cromossoma artificial bacteriano (BAC) ou o cromossoma artificial derivado de P1 (PAC); bacteriófago, como o bacteriófago lambda ou o bacteriófago M13, e vírus animal. Um vírus animal que pode ser usado como vetor inclui, mas não se limita a, um retrovírus (incluindo um lenivírus), adenovírus, vírus adenoassociado, vírus do herpes (como o vírus herpes simplex), poxvírus, baculovírus, vírus do papiloma e papovavírus (como SV40). Um vetor pode conter uma variedade de elementos que controlam a expressão, incluindo, mas não se limitando a uma sequência promotora, sequência de iniciação da transcrição, sequência potenciadora, elemento de seleção e gene repórter. Além disso, o vetor também pode conter uma origem de replicação.

[0134] Como usado neste documento, o termo “célula host” se refere a uma célula que pode ser usada para introduzir um vetor, que inclui: mas não se limita a, uma célula procariótica, como Escherichia coli ou Bacillus subtilis e similares, uma célula fúngica, como uma célula de levedura ou Aspergillus, etc., uma célula de inseto, como uma célula S2 Drosophila ou Sf9, etc., ou uma célula animal, como um fibroblasto, célula CHO, célula COS, célula NSO, célula HeLa, célula BHK, célula HEK 293 ou célula humana, etc.

[0135] Aqueles com qualificação na arte compreenderão que o desenho do vetor de expressão pode depender de fatores como a seleção da célula hospedeira a ser transformada, o nível de expressão desejado e semelhantes. Um vetor pode ser introduzido em uma célula hospedeira para produzir transcrições, proteínas ou peptídeos, incluindo proteínas, proteínas de fusão, moléculas de ácido nucleico isoladas, etc., tal como aqui descrito (por exemplo, transcrições de CRISPR, como transcrições de ácidos nucleicos, proteínas ou enzimas).

[0136] Conforme aqui utilizado, o termo “elemento regulador” pretende incluir um promotor, um potenciador, um sítio interno de entrada do ribossomo (IRES) e outros elementos de controle de expressão (por exemplo, sinais de terminação de transcrição, como sinais de poliadenilação e sequência Poli U), para uma descrição detalhada, consulte Goeddel, “GENE EXPRESSION TECHNOLOGY: METHOD IN ENZYMOLOGY” 185, Academic Press, São Diego, Califórnia (1990). Em alguns casos, o elemento regulador inclui aqueles que direcionam a expressão constitutiva de uma sequência de nucleotídeos em muitos tipos de células hospedeiras e aqueles que direcionam a expressão da sequência de nucleotídeos apenas em algumas células hospedeiras (por exemplo, a sequência regulatória específica para tecidos). Um promotor específico para tecido pode,

principalmente, direcionar a expressão nos tecidos de interesse desejados, como músculos, neurônios, ossos, pele, sangue, órgãos específicos (como fígado, pâncreas) ou tipos específicos de células (como linfócitos). Em alguns casos, o elemento regulador também pode direcionar a expressão de uma forma dependente do tempo (tal como de uma forma dependente do ciclo da célula ou do estágio de desenvolvimento), que pode ser ou não específica para o tipo de tecido ou célula. Em alguns casos, o termo “elemento regulador” abrange um elemento potenciador, como o WPRE; um potenciador CMV; fragmento R-U5’ na LTR do HTLV-I ((Mol.Cell.Biol., Volume 8(1), páginas 466 a 472, 1988); potenciador SV40; e a sequência de íntrons entre os éxons 2 e 3 da β-globina de coelho (Proc. Natl. Acad. Sci. USA., Vol. 78(3), páginas 1527 a 31, 1981).

[0137] Conforme aqui utilizado, o termo “promotor” tem o significado bem conhecido para aqueles com qualificação na arte, que se refere a uma sequência de nucleotídeos não codificadora localizada a montante de um gene e capaz de promover a expressão do gene a jusante. Um promotor constitutivo é uma sequência de nucleotídeos deste tipo: quando está operativamente ligada a um polinucleotídeo que codifica ou define um produto gênico, ela leva à produção de um produto gênico na célula na maioria ou em todas as condições fisiológicas da célula. Um promotor induzível é uma sequência de nucleotídeos que, quando operativamente ligada a um polinucleotídeo que codifica ou define um produto gênico, basicamente apenas quando um indutor correspondente ao promotor está presente na célula, leva ao produto gênico a ser produzido na célula. Um promotor específico para tecido é uma sequência de nucleotídeos que, quando operativamente ligada a um polinucleotídeo que codifica ou define um produto gênico, basicamente apenas quando a célula é uma célula do tipo de tecido correspondente ao promotor, leva à produção de produtos gênicos na célula.

[0138] Como usado aqui, o termo “operativamente ligado(a)” significa que a sequência de nucleotídeos de interesse é ligada a um ou mais elementos reguladores de uma forma que permite a expressão da sequência de nucleotídeos (por exemplo, em um sistema de transcrição/tradução in vitro ou quando o vetor é introduzido na célula hospedeira, ele está na célula hospedeira).

[0139] Tal como aqui utilizado, o termo “complementaridade” se refere à capacidade de um ácido nucleico formar uma ou mais ligações hidrogênio com outra sequência de ácidos nucleicos por meio de Watson- Crick tradicional ou de outros tipos não tradicionais. O percentual de complementaridade representa o percentual de resíduos em uma molécula de ácido nucleico que pode formar ligações hidrogênio (por exemplo, pareamento de bases de Watson-Crick) com uma segunda sequência de ácidos nucleicos (por exemplo, 5, 6, 7, 8, 9, 10 de 10 são 50%, 60%, 70%, 80%, 90% e 100% de complementaridade). “Totalmente complementar” significa que todos os resíduos consecutivos de uma sequência de ácidos nucleicos formam ligações hidrogênio com o mesmo número de resíduos consecutivos em uma segunda sequência de ácidos nucleicos. Tal como aqui utilizado, “substancialmente complementar” significa que existem pelo menos 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 98%, 99%, ou 100% de complementaridade em uma região de 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50 ou mais nucleotídeos, ou se refere a dois ácidos nucleicos que hibridizam sob condições rigorosas.

[0140] Tal como aqui utilizado, “condições rigorosas” para hibridização se referem a condições em que um ácido nucleico tendo complementaridade com uma sequência alvo se hibridiza principalmente com a sequência alvo e substancialmente não hibridiza com uma sequência não alvo. As condições rigorosas são geralmente dependentes da sequência e variam dependendo de muitos fatores. Em geral, quanto mais longa for a sequência, maior será a temperatura à qual a sequência se hibridize especificamente com a sequência alvo. Exemplos não limitantes de condições rigorosas são descritos em “Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes" de Tijssen (1993), Parte I, Capítulo 2, “Overview of principles of hybridization and the strategy of nucleic acid probe assay”, Elsevier, Nova Iorque.

[0141] Conforme aqui utilizado, o termo “hibridação” se refere a uma reação na qual um ou mais polinucleotídeos reagem para formar um complexo estabilizado por ligação de hidrogênio das bases entre estes resíduos de nucleotídeos. A ligação hidrogênio pode ocorrer por meio do pareamento de bases de Watson-Crick, ligação de Hoogstein ou de qualquer outra forma específica para sequências. O complexo pode compreender dois filamentos que forma um dúplex, três ou mais filamentos que formam um complexo de vários filamentos, um único filamento auto-hibridizante ou qualquer combinação destes. A reação de hibridização pode constituir uma etapa em um processo mais amplo (como o início da PCR, ou a clivagem de polinucleotídeos por uma enzima). Uma sequência que pode hibridizar com uma determinada sequência é chamada de “complemento” da sequência referida.

[0142] Conforme aqui utilizado, o termo “expressão” se refere ao processo pelo qual o modelo de DNA é transcrito em polinucleotídeos (como transcrições de mRNA ou outras transcrições de RNA) e/ou ao processo pelo qual o mRNA transcrito é posteriormente traduzido em peptídeos, polipeptídeos ou proteínas. A transcrição e o polipeptídeo codificado podem ser coletivamente chamados “produto gênico”. Se o polinucleotídeo for derivado de um DNA genômico, a expressão pode incluir splicing de mRNA em células eucarióticas.

[0143] Como usado aqui, o termo “ligante” se refere a um polipeptídeo linear formado por vários resíduos de aminoácidos ligados por peptídeos. O ligante da presente invenção pode ser uma sequência de aminoácidos sintetizada artificialmente, ou uma sequência de polipeptídeos de ocorrência natural, como um polipeptídeo tendo a função de uma região de dobradiça. Esses polipeptídeos ligantes são bem conhecidos na arte (consulte, por exemplo, Holliger, P. et al. (1993) Proc. Natl. Acad. Sci. USA 90: 6444-6448; Poljak, RJ et al. (1994) Structure 2: 1121-1123).

[0144] Como usado aqui, o termo “tratamento” se refere ao tratamento ou cura de um distúrbio, retardando o início dos sintomas do distúrbio e/ou retardando o desenvolvimento do distúrbio.

[0145] Tal como aqui utilizado, o termo “indivíduo” inclui, mas não se limita a, vários animais, como mamíferos, por exemplo, bovinos, equinos, caprídeos, suínos, caninos, felinos, animais leporídeos, roedores (por exemplo, camundongos ou ratos), primatas não humanos (por exemplo, macacos ou cinomolgos) ou seres humanos. Em algumas formas de realização, o indivíduo (por exemplo, ser humano) tem um distúrbio (por exemplo, um distúrbio causado por um defeito genético relacionado com a doença). Os Efeitos Benéficos da Presente Invenção

[0146] Em comparação com a técnica anterior, a proteína Cas e o sistema da presente invenção têm vantagens significativas. Por exemplo, o domínio PAM da proteína efetora Cas da presente invenção é uma estrutura 5’-TTN estrita, e quase 100% das segunda e terceira bases na frente da sequência alvo são T, e as outras posições podem ser sequências arbitrárias. Tem um método de reconhecimento de PAM mais rigoroso do que o reconhecimento PAM C2c1 mais rigoroso que foi reportado até agora, o que reduz significativamente os efeitos fora do alvo. Por exemplo, a proteína efetora Cas da presente invenção pode realizar a clivagem do DNA em eucariotas, e seu tamanho molecular tem cerca de 200 a 300 aminoácidos menos do que as proteínas Cpf1 e Cas9, de modo que a eficiência da transfecção é significativamente melhor do que Cpf1 e Cas9.

[0147] As formas de realização da presente invenção serão descritas em detalhes em seguida, juntamente com os desenhos e exemplos que a acompanham. No entanto, aqueles com qualificação na arte entenderão que os desenhos e exemplos a seguir são usados apenas para ilustrar a presente invenção, mas não para limitam o escopo desta invenção. De acordo com os desenhos anexos e com a seguinte descrição detalhada das formas de realização preferidas, vários objetos e aspectos vantajosos da presente invenção se tornarão visíveis para os qualificados na arte. Descrição dos Desenhos

[0148] A Figura 1 é o resultado da análise da estrutura do crRNA de Cas12f.4, Cas12f.5 e Cas12f.6 no Exemplo 2, mostrando a estrutura secundária da sequência de Repetição.

[0149] A Figura 2 mostra o resultado da análise do domínio PAM no Exemplo 3.

[0150] As Figuras 3a a figura 3c são os resultados da detecção da atividade de clivagem de Cas12f.4 em uma linhagem de células humanas no Exemplo 4.

[0151] As figuras 4a a 4c são os resultados da detecção da atividade de clivagem de Cas12f.4 em uma célula de protoplasto de milho no Exemplo 5. Informação das Sequências

[0152] Informações das sequências parciais envolvidas na presente invenção são fornecidas na Tabela 1 abaixo. Tabela 1: Descrição das Sequências SEQ ID NO: Descrição 1 uma sequência de aminoácidos da Cas12f.4 2 uma sequência de aminoácidos da Cas12f.5 3 uma sequência de aminoácidos da Cas12f.6 uma sequência de ácidos nucleicos codificadora da 4 Cas12f.4 uma sequência de ácidos nucleicos codificadora da 5 Cas12f.5 uma sequência de ácidos nucleicos codificadora da 6 Cas12f.6 7 Cas12f.4/ repetição direta do protótipo 8 Cas12f.5/ repetição direta do protótipo 9 Cas12f.6/ repetição direta do protótipo Cas12f.4/ uma sequência de ácidos nucleicos 10 codificadora da repetição direta do protótipo Cas12f.5/ uma sequência de ácidos nucleicos 11 codificadora da repetição direta do protótipo Cas12f.6/ uma sequência de ácidos nucleicos 12 codificadora da repetição direta do protótipo 13 Cas12f.4/ repetição direta madura 14 Cas12f.5/ repetição direta madura 15 Cas12f.6/ repetição direta madura Cas12f.4/ uma sequência de ácidos nucleicos 16 codificadora da repetição direta madura Cas12f.5/ uma sequência de ácidos nucleicos 17 codificadora da repetição direta madura Cas12f.6/ uma sequência de ácidos nucleicos 18 codificadora da repetição direta madura

19 sequência NLS uma sequência de aminoácidos da proteína de fusão 20 Cas12f.4-NLS uma sequência de aminoácidos da proteína de fusão 21 Cas12f.5-NLS uma sequência de aminoácidos da proteína de fusão 22 Cas12f.6-NLS 23 um sistema Cas12f.4 de expressão de plasmídeos 24 sequência da biblioteca de PAM 25 RNA-guia-VEGFA do sistema Cas12f.4 26 RNA-guia-VEGFA do sistema Cas12f.5 27 RNA-guia-VEGFA do sistema Cas12f.6 28 RNA-guia-PDI1 do sistema Cas12f.4 29 RNA-guia-SBE2.2 do sistema Cas12f.4 Descrição Detalhada

[0153] A invenção será agora descrita com referência aos exemplos a seguir que têm o objetivo de ilustrar a presente invenção em vez de limitar a invenção presente.

[0154] Salvo especificação em contrário, os experimentos e métodos descritos nos Exemplos são basicamente realizados de acordo com os métodos convencionais bem conhecidos na arte e descritos em várias referências. Por exemplo, técnicas convencionais como imunologia, bioquímica, química, biologia molecular, microbiologia, biologia celular, genômica e DNA recombinante usadas na presente invenção podem ser encontrados em Sambrook, Fritsch e Maniatis, “MOLECULAR CLONING: A LABORATORY MANUAL”, 2a edição (1989); “CURRENT PROTOCOLS IN MOLECULAR BIOLOGY” (editado por F.M. Ausubel et al., (1987)); série “METHODS IN ENZYMOLOGY” (Academic Publishing Company): “PCR 2: A PRACTICAL APPROACH” (editado por M. J. MacPherson, BD Hames e G.R. Taylor (1995)), “ANTIBODIES, A LABORATORY MANUAL”, editado por Harlow e Lane (1988), e “ANIMAL CELL CULTURE” (editado por R.I.Freshney (1987)).

[0155] Além disso, se as condições específicas não forem especificadas nos exemplos, ele deve ser realizado em conformidade com as condições convencionais ou com as condições recomendadas pelo fabricante. Os reagentes ou instrumentos usados sem a indicação do fabricante são todos produtos convencionais que podem ser adquiridos comercialmente. Aqueles com qualificação na arte sabem que as formas de realização descrevem a presente invenção por meio de exemplos, e não pretendem limitar o escopo da proteção reivindicada pela presente invenção. Todas as publicações e outras referências mencionadas neste documento são aqui incorporadas por referência em sua totalidade.

[0156] As fontes de alguns reagentes envolvidos nos exemplos a seguir são as seguintes: meio líquido LB: 10 g de triptona, 5 g de extrato de levedura, 10 g de NaCl, diluídos a 1 L e esterilizados. Se forem necessários antibióticos, eles são adicionados a uma concentração final de 50 μg/ml após arrefecimento do meio.

[0157] Clorofórmio / álcool isoamílico: adicionar 240 ml de clorofórmio a 10 ml de álcool isoamílico e misturá-los bem;

[0158] Tampão RNP: cloreto de sódio a 100 mM, Tris-HCl a 50 mM, MgCl2 a 10 mM, 100 μg/ml de BSA, pH 7,9.

[0159] Os vetores de expressão procariótica pACYC-Duet-1 e pUC19 são adquiridos da Beijing Quanshijin Biotechnology Co., Ltd.

[0160] A competência EC100 de E. coli é adquirida da empresa Epicentro. Exemplo 1. Aquisição do Gene Cas12f e do RNA-Guia da Cas12f

[0161] 1. CRISPR e anotação de genes: uso do Prodigal para realizar a anotação de genes no genoma microbiano e dados metagenômicos dos bancos de dados NCBI e JGI para obter todas as proteínas e, ao mesmo tempo, uso do piler-CR para anotar o lócus CRISPR. Todos os parâmetros são os parâmetros predefinidos.

[0162] 2. Filtragem de proteínas: eliminação da redundância de proteínas anotadas por identidade de sequência, remoção de proteínas com sequência exatamente idêntica e, ao mesmo tempo, classificação de proteínas com mais de 800 aminoácidos em proteínas macromoleculares.

Como todas as proteínas efetoras do segundo tipo do sistema CRISPR/Cas descobertas até o momento têm mais de 900 aminoácidos de comprimento, a fim de reduzir a complexidade computacional, quando se explora as proteínas efetoras CRISPR, são consideradas apenas as proteínas macromoleculares.

[0163] 3. Obtenção de proteínas macromoleculares associadas ao CRISPR: extensão de cada lócus do CRISPR em 10 Kb a montante e a jusante, e identificação de proteínas macromoleculares não redundantes no intervalo adjacente do CRISPR.

[0164] 4. Agrupamento de proteínas macromoleculares associadas ao CRISPR: uso do BLSTP para realizar comparações internas de pares de base de proteínas moleculares não redundantes associadas ao CRISPR e produção do resultado da comparação do Evalue < 1E-10. Uso de MCL para realizar a análise de agrupamentos no resultado de saída do BLASTP, família de proteínas associadas ao CRISPR.

[0165] 5. Identificação da família de proteínas macromoleculares enriquecidas com CRISPR: uso do BLSTP para comparar as proteínas da família de proteínas associadas ao CRISPR com a base de dados de proteínas macromoleculares não redundantes que remove as proteínas associadas ao CRISPR e produz o resultado da comparação de Evalue < 1E-10. Se a proteína homóloga encontrada em uma base de dados de proteínas não relacionadas ao CRISPR for inferior a 100%, significa que as proteínas desta família são enriquecidas na região do CRISPR. Dessa forma, identificou-se a família de proteínas macromoleculares enriquecidas com CRISPR.

[0166] 6. Anotação de funções e domínios proteicos: uso da base de dados Pfam, base de dados NR e a proteína Cas coletada do NCBI para anotar a família de proteínas macromoleculares enriquecidas com CRISPR para obter uma nova família de proteínas CRISPR/Cas. Uso do Mafft para executar vários alinhamentos de sequência para cada proteína da família CRISPR/Cas e, em seguida, uso de JPred e Hpred para realizar análises de domínios conservados para identificar famílias de proteínas contendo os domínios RuvC.

[0167] Com base no que foi apresentado, os presentes inventores obtiveram uma nova proteína efetora Cas, nomeadamente a Cas12f, denominada Cas12f.4 (SEQ ID NO: 1), Cas12f.5 (SEQ ID NO: 2) e Cas12f.6 (SEQ ID NO: 3), respectivamente com as suas três sequências homólogas ativas. O DNA de codificação das três homólogas é mostrado nas SEQ ID NOs: 4, 5 e 6, respectivamente. As sequências de repetição direta do protótipo (sequências de repetição contidas no pre-crRNA) correspondentes a Cas12f.4, Cas12f.5 e Cas12f.6 são mostradas nas SEQ ID NOs: 7, 8 e 9, respectivamente. As sequências de repetição direta madura (sequências de repetição contidas no crRNA maduro) correspondentes a Cas12f.4, Cas12f.5 e Cas12f.6 são mostradas nas SEQ ID NOs: 13, 14 e 15, respectivamente. Exemplo 2. Processamento de crRNA Maduro pelo Gene Cas12f

[0168] 1. A molécula de DNA de duplo filamento conforme mostrada em SEQ ID NO: 4 foi sintetizada artificialmente, e a molécula de DNA de duplo filamento conforme mostrada em SEQ ID NO: 10 foi sintetizado artificialmente ao mesmo tempo.

[0169] 2. Ligação da molécula de DNA de duplo filamento sintetizada na etapa 1 com o vetor de expressão procariótica pACYC-Duet- 1 para obter o plasmídeo recombinante pACYC-Duet-1+CRISPR/Cas12f.

[0170] O plasmídeo recombinante pACYC-Duet- 1+CRISPR/Cas12f foi sequenciado. Os resultados do sequenciamento mostram que o plasmídeo recombinante pACYC-Duet-1+CRISPR/Cas12f contém as sequências conforme mostradas em SEQ ID NO: 4 e SEQ ID NO: 10, e expressa a proteína Cas12f.4 como conforme mostrada na SEQ ID NO: 1 e a sequência de repetição direta do protótipo Cas12f.4 conforme mostrada na SEQ ID NO: 7. O plasmídeo recombinante pACYC-Duet- 1+CRISPR/Cas12f foi introduzido a EC100 de E.coli para obter uma bactéria recombinante, que foi denominada EC100-CRISPR/Cas12f.

[0171] 3. Pegar um único clone de EC100-CRISPR/Cas12f, inocular em 100 mL de meio líquido LB (contendo 50 μg/mL de ampicilina), cultivar com agitação a 37 °C e 200 rpm por 12 h para obter um caldo de cultura.

[0172] 4. Extração do RNA bacteriano: transferir 1,5 ml de cultura bacteriana para um tubo de microcentrífuga pré-arrefecido e centrifugado a

6000 × g por 5 minutos a 4 °C. Após a centrifugação, descartar o sobrenadante e ressuspender o pellet de células em 200 μL de Max Bacterial Enhancement Reagent pré-aquecido a 95 °C. Mistura por pipetagem e bem misturado, e incubação a 95 °C por 4 minutos. Adição de 1 mL do Reagente TRIzol® ao lisado e mistura por pipetagem e incubação à temperatura ambiente durante 5 minutos. Adição de 0,2 mL de clorofórmio frio, agitação do tubo manualmente para mistura por 15 segundos e incubação à temperatura ambiente por 2 a 3 minutos. Centrifugação a 12,000 × g por 15 minutos a 4 °C. Tomar 600 μL do sobrenadante em um novo tubo, adicionar 0,5 mL de isopropanol frio para precipitar o RNA, mistura de cabeça para baixo e incubação à temperatura ambiente por 10 minutos. Centrifugação a

15.000 × g por 10 minutos a 4 °C, descarte do sobrenadante, adição de 1 mL de etanol a 75% e mistura em vórtice. Centrifugação a 7500 × g por 5 minutos a 4 °C, descartar o sobrenadante e secar ao ar. Dissolver o pellet de RNA em 50 μL de água livre de RNase e incubação a 60 °C por 10 minutos.

[0173] 5. Digestão do DNA: 20 ug de RNA foram dissolvidos em 39,5 μL de dH2O, 65 ºC, 5 min. Cinco minutos em gelo, adição de 0,5 μL de RNAI, 5 μL de tampão, 5 μL de DNaseI, 37 ºC por 45 min (sistema de 50 μL). Adicionar 50 μL de dH2O e ajustar o volume para 100 μL. Após centrifugação do tubo Phase-Lock de 2 mL a 16000 g por 30 s, adicionar 100 μL de fenol:clorofórmio:álcool isoamílico (25:24:1), 100 μL de RNA digerido, agitação por 15 s e centrifugação a 16000 g por 12 min a 15 ºC. Tomar o sobrenadante em um novo tubo de centrífuga de 1,5 mL, adicionar o mesmo volume de isopropanol 1/10 NaoAC como sobrenadante, e reação por 1 hora ou -20 ºC de um dia para o outro. Centrifugação a 16000 g por 30 min a 4 ºC e descartar o sobrenadante. Adicionar 350 μL de etanol a 75% para lavar o pellet, centrifugação a 16000 g por 10 min a 4 °C, e descartar o sobrenadante. Secagem e adição de 20 μL de água livre de RNase a 65 ºC por 5 minutos para dissolver o precipitado. Uso de NanoDrop para medir a concentração e fluir o gel.

[0174] 6. Desfosforilação de 3’ e fosforilação de 5’: adicionar água a ~ 20 ug de cada RNA digerido a 42,5 μL, a 90 ºC por 2 min. Arrefecimento em gelo por 5 minutos. Adição de 0,5 μL de tampão PNK 10 × T4; 0,5 μL de RNaI, 2 μL de T4 PNK (50 μL), a 37 ºC por 6 h. Adição de 1 μl de T4 PNK,

1,25 μL (100 mM) de ATP, 37 ºC por 1 h. Adição de 47,75 μL de dH2O e ajuste do volume para 100 μL. Após centrifugação do tubo Phase-Lock de 2 mL a 16000 g por 30 s, adicionar 100 μL de fenol:clorofórmio:álcool isoamílico (25:24:1), 100 μL de RNA digerido, agitar por 15 s, e centrifugação a 16000 g por 12 min a 15 ºC. Tomar o sobrenadante em um novo tubo de centrífuga de 1,5 mL, adicionar o mesmo volume de isopropanol com o sobrenadante, o volume total de 1/10 NaoAC, e reação por 1 hora ou -20 ºC de um dia para o outro. Centrifugação a 16000 g por 30 min a 4 ºC e descartar o sobrenadante. Adicionar 350 μL de etanol a 75% para lavar o pellet, centrifugação a 16000 g por 10 min a 4 ºC, e descartar o sobrenadante. Secagem e adição de 21 μL de água livre de RNase a 65 ºC por 5 min para dissolver o precipitado, usar NanoDrop para medir a concentração.

[0175] 7. Monofosforilação de RNA: 20 μl de RNA, a 90 ºC por 1 min, arrefecimento em gelo por 5 min. Adicionar 2 μL de tampão de reação 10× de RNA 5’ Polphosphatase, 0,5 μL de Inibidor, 1 μL de RNA 5’ Polphosphatase (20 Unidades), e adicionar água livre de RNase a 20 μL, a 37 ºC por 60 min. Adicionar 80 μL de dH2O e ajustar o volume para 100 μL. Após centrifugação do tubo Phase-Lock de 2 mL a 16000 g por 30 s, adicionar 100 μL de fenol:corofórmio:álcool isoamílico (25:24:1), 100 μL de RNA digerido, agitar por 15 s, e centrifugação a 16000 g por 12 min a 15 ºC. Tomar o sobrenadante em um novo tubo de centrífuga de 1,5 mL, adicionar o mesmo volume de isopropanol com o sobrenadante, o volume total de 1/10 NaoAC, e reação por 1 hora ou -20 ºC de um dia para o outro. Centrifugação a 16000 g por 30 min a 4 ºC, descartar o sobrenadante, adicionar 350 μL de etanol a 75% para lavar o precipitado, centrifugação a 16000 g por 10 min a 4 ºC, descartar o sobrenadante. Secar e adicionar 21 μL de água livre de RNase a 65 ºC por 5 min para dissolver o precipitado, usar NanoDrop para medir a concentração.

[0176] 8. Preparação da biblioteca de cDNA: 16,5 μL de água livre de RNase. 5 μL de Tampão de reação 10× Poli(A)Polimerase. 5 μL de ATP a 10 mM. 1,5 μL de inibidor de RNase RiboGuard. 20μL de substrato de RNA. 2 μL de Poli(A)Polimerase (4 Unidades). 50 μl do volume total a 37 ºC por 20 minutos. Adicionar 50 μL de dH2O e ajustar o volume para 100 μL. Após centrifugação do tubo Phase-Lock de 2 mL a 16000 g por 30 s, adicionar 100 μL de fenol:clorofórmio:álcool isoamílico (25:24:1), 100 μL de RNA digerido, agitação por 15 s e centrifugação a 16000 g por 12 min. Tomar o sobrenadante em um novo tubo de centrífuga de 1,5 mL, adicionar o mesmo volume de isopropanol com o sobrenadante, o volume total de 1/10 NaoAC, e reação por 1 hora ou -20 ºC de um dia para o outro. Centrifugação a 16000 g por 30 min a 4 ºC, descartar o sobrenadante, secá-lo e adicionar 11 μL de água livre de RNase a 65 ºC por 5 min para dissolver o precipitado, e medir a concentração com NanoDrop.

[0177] 9. Adicionar o ligante de sequenciamento à biblioteca de cDNA e enviá-la para Beijing BerryGenomics para sequenciamento.

[0178] 10. Realizar filtragem de qualidade nos dados originais para remover sequências com um valor de qualidade base médio inferior a

30. Após remoção do ligante da sequência, foi mantida a sequência de RNA de 25 nt a 50 nt e alinhada com a sequência de referência da matriz de CRISPR com BowTie.

[0179] 11. Por comparação, verificou-se que o pré-crRNA da Cas12f.4 pode ser processado com sucesso em crRNA maduro de 45 nt em E. coli, que consiste em sequência de repetição de 23 nt e sequência de direcionamento de 19 a 22 nt.

[0180] 12. Uso de ViennaRNA e VARNA para prever e visualizar a estrutura do crRNA maduro. Verificou-se que a extremidade 3’ da Sequência de repetição do crRNA pode formar uma estrutura em alça de 8 bases (Figura 1).

[0181] 13. Após previsão da sequência de 23 nt da extremidade 3’ do crRNA das Cas12f.5 e Cas12f.6, verificou-se uma estrutura secundária semelhante (Figura 1). Exemplo 3. Identificação do Domínio PAM do Gene Cas12f

[0182] 1. Construir o plasmídeo recombinante pACYC-Duet- 1+CRISPR/Cas12f e sequenciá-lo. De acordo com os resultados do sequenciamento, a estrutura do plasmídeo recombinante pACYC-Duet- 1+CRISPR/Cas12f é descrita da seguinte forma: substituição do pequeno fragmento entre a sequência de reconhecimento da endonuclease de restrição Pml I e Kpn I do vetor pACYC-Duet-1 com a sequência de duplo filamento mostradas nas posições 1 a 3713 da extremidade 5’ na sequência conforme mostrada na SEQ ID NO: 4. O plasmídeo recombinante pACYC- Duet-1+CRISPR/Cas12f expressa a proteína Cas12f.4 como conforme mostrada na SEQ ID: 1 e o RNA-guia da Cas12f conforme mostrado na SEQ ID: 25.

[0183] 2. O plasmídeo recombinante pACYC-Duet- 1+CRISPR/Cas12f contém um cassete de expressão, e a sequência de nucleotídeos do cassete de expressão é mostrada na SEQ ID NO: 23. Na sequência conforme mostrada na SEQ ID NO: 23, as posições 1 a 44 da extremidade 5’ são a sequência de nucleotídeos do promotor pLacZ, as posições 45 a 3326 são a sequência de nucleotídeos do gene Cas12f.4 e as posições 3327 a 3412 são a sequência de nucleotídeos do terminador (usado para terminar a transcrição). A partir da extremidade 5’, as posições 3413 a 3452 são a sequência de nucleotídeos do promotor J23119, as posições 3453 a 3.628 são a sequência de nucleotídeos da matriz de CRISPR, e as posições 3627 a 3713 são a sequência de nucleotídeos do terminador rrnB-T1 (usado para terminar a transcrição).

[0184] 3. A aquisição da E. coli recombinante: o plasmídeo recombinante pACYC-Duet-1+CRISPR/Cas12f foi introduzido à EC100 de E. coli para obter E. coli recombinante, chamada EC100/pACYC-Duet- 1+CRISPR/Cas12f. O plasmídeo recombinante pACYC-Duet-1 foi introduzido à EC100 de E.coli para obter uma E.coli recombinante, chamada EC100/pACYC-Duet-1.

[0185] 4. Construção da biblioteca de PAM: a sequência conforme mostrada na SEQ ID ID: 24 é sintetizada artificialmente e ligada ao vetor pUC19, em que a sequência conforme mostrada na SEQ ID NO: 24 inclui oito bases aleatórias na extremidade 5’ e a sequência alvo. Oito bases aleatórias foram projetadas na frente da extremidade 5’ da sequência alvo da biblioteca de PAM para construir uma biblioteca de plasmídeos. Os plasmídeos foram transferidos para Escherichia coli contendo o lócus Cas12f.4 e Escherichia coli sem o lócus Cas.12f.4, respectivamente. Após tratamento a 37 °C por 1 hora, o plasmídeo foi extraído e foi realizada a amplificação por PCR e o sequenciamento na sequência da região do PAM.

[0186] 5. A aquisição do domínio da biblioteca do PAM: contou- se o número de ocorrências de 65.536 combinações de sequências PAM no grupo experimental e no grupo de controle, e o número de sequências PAM em cada grupo foi usado para normalização. Para qualquer sequência PAM, quando o log2 (valor normalizado do grupo de controle/valor normalizado do grupo experimental) é maior do que 3,5, este PAM é considerado significativamente consumido. Foi obtido um total de 3,548 sequências de PAM significativamente consumidas, todas representando 5,41%. O Webblogo foi usado para prever a sequência PAM significativamente consumida e verificou-se que o domínio PAM da Cas12f.4 era uma estrutura 5’-TTN rígida (Figura 2), e quase 100% das segunda e terceira bases na frente da sequência alvo eram em T, e as outras posições podem ser qualquer sequência. Este é um método de reconhecimento do PAM mais rigoroso do que o C2c1, que foi reportado para o reconhecimento mais rigoroso do PAM.

[0187] 6. Verificação do domínio de bibliotecas do PAM: Através do experimento de consumo de bibliotecas do PAM, foi obtido o domínio PAM da Cas12f.4. Para verificar o rigor deste domínio, configurou-se 10 grupos de PAM para experimentos in vivo e atividades de edição da Cas12f sequenciada nestes PAMs. Primeiro, integrou-se a sequência alvo de 30 nt e a sequência PAM na posição não conservada da resistência ao gene Kana do plasmídeo e, em seguida, misturou-se com o complexo formado por CRSPR/Cas12f e RNA-guia por 8 horas. Ao revestir a placa e contar o número de colônias, é possível avaliar a atividade de consumo da Cas12f em diferentes sequências do PAM. Por meio dos resultados experimentais, é possível ver que o sistema CRISPR/Cas12f.4 só pode editar eficazmente a sequência alvo com 5’-TTA, 5’-TTT, 5’-TTC e 5’-TTG PAM, ele não tem atividade de edição nas sequências alvo com 5’-TAT, 5’-TCT, 5’-TCG, 5’- ATT, 5’-CTT e 5’-GTT PAM, assim comprovando a capacidade de verificar o reconhecimento do domínio PAM da Cas12f.4. Ao contar as colônias de diferentes PAMs, verificou-se que a atividade de edição do sistema CRISPR/Cas12f.4 em 5’-TTA, 5’-TTT e 5’-TTC é superior à atividade em 5’- TTG. Exemplo 4. Clivagem de Cas12f.4, Cas12f.5, Cas12f.6 em Linhagens de Células Humanas

[0188] O vetor de expressão eucariótica contendo o gene

Cas12f.4 e o produto de PCR contendo o promotor U6 e a sequência do crRNA (SEQ ID NO: 25) foram transfectados para uma célula HEK293T humana por transfecção de lipossomas (Figura 3a), e incubados por 72 horas a 37 ºC com 5% de concentração de dióxido de carbono. O DNA do total de células foi extraído, e a sequência de 700 bp contendo o sítio alvo foi amplificada. Os produtos de PCR foram construídos para a biblioteca de sequenciamento da próxima geração por Tn5, e o sequenciamento foi concluído por Beijing Annoroad Genomics Technology Co., Ltd. Os resultados do sequenciamento foram comparados ao gene VEGFA do genoma humano, tendo sido identificado o método de clivagem da Cas12f.4 para o sítio alvo (Figura 3b). A eficiência de edição do sistema CRISPR/Cas12f.4 para VEGFA pode atingir 4,2%. Os dados de sequenciamento originais são mostrados na Figura 3c (Figura 3c).

[0189] O mesmo método foi utilizado para detectar a atividade de clivagem de Cas12f.5 e Cas12f.6 no VEGFA, e seus crRNAs são mostrados nas SEQ ID: 26 e SEQ ID: 27, respectivamente. Os resultados da Figura 3c mostram que a eficiência de edição dos sistemas CRISPR/Cas12f.5 e CRISPR/Cas12f.6 no VEGFA é de 0,31% e 0,19%, respectivamente. Exemplo 5. Clivagem de Cas12f.4 em um Protoplasto de Milho

[0190] A proteína Cas12f.4 purificada (60 μg) e o RNA-guia (120 μg) conforme mostrado na SEQ ID: 28 ou 29 foram misturados a 37 ºC para formar um complexo ribonucleoproteico (RNP) e, então, o RNP CRISPR/Cas12f.4 foi transferido para uma célula de protoplasto de milho usando a transformação de protoplasto mediada por PEG4000, e cultivado no escuro a 37 ºC por 24 horas (Figura 4a). Após a cultura, o sobrenadante foi descartado por centrifugação para coleta dos protoplastos, e o DNA do protoplasto foi extraído. Os fragmentos de DNA de cerca de 600 pb a montante e a jusante do sítio alvo foram amplificados. O fragmento de DNA contendo o sítio alvo foi submetido à detecção da digestão da endonuclease T7, e o resultado foi mostrado na Figura 4b. O sistema CRISPR/Cas12f.4 tem uma atividade de clivagem de alta eficiência para PDI1 e SEB2.2. Ligação do fragmento de DNA contendo o sítio alvo ao vetor Blunt Simple, revestimento da placa e uso de Thermo Fisher Scientific (China) Co., Ltd. para realização do sequenciamento Sanger no clone único, e comparação dos resultados do sequenciamento com os genes PDI1 e SEB2.2 do grupo do milho, os resultados são mostrados nas Figuras 4b-4c. A eficiência de clivagem da Cas12f.4 no sítio alvo é identificada como 33,5% e 16,7%, respectivamente.

[0191] Embora as formas de realização específicas da presente invenção tenham sido descritas em detalhes, aqueles com qualificação na arte compreenderão que várias modificações e alterações podem ser feitas aos detalhes, de acordo com todos os ensinamentos que foram publicados, e essas alterações estão dentro do âmbito de proteção da presente invenção. Toda a presente invenção é dada pelas reivindicações anexas e seus equivalentes.

Claims

REIVINDICAÇÕES

1. Proteína CARACTERIZADA pelo fato de ter uma sequência de aminoácidos selecionada a partir de: (i) como mostrada em qualquer uma dentre SEQ ID NO: 1, 2, 3; (ii) em comparação com a sequência mostrada em qualquer uma dentre SEQ ID NOs: 1, 2, 3, uma sequência tendo uma ou mais substituições, eliminações ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, eliminações ou adições de aminoácidos) (iii) uma sequência tendo uma sequência de aminoácidos a qual tem pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência em comparação com qualquer uma dentre SEQ ID NOs: 1, 2, e 3; por exemplo, a proteína é uma proteína efetora no sistema CRISPR/Cas.

2. Conjugado CARACTERIZADO pelo fato de que compreende a proteína conforme definida na reivindicação 1 e uma porção modificada.

3. Proteína de fusão CARACTERIZADA pelo fato de que compreende a proteína conforme definida na reivindicação 1 e uma proteína ou polipeptídeo adicional.

4. Molécula de ácido nucleico isolada CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes ou que consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 7 ou 13; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 7 ou 13, uma sequência tendo uma ou mais substituições, eliminações ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, eliminações ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 7 ou 13;

(iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) a (iii); além disso, a sequência como descrita em qualquer uma dentre (ii) a (v) mantém substancialmente a função biológica da sequência da qual é derivada; por exemplo, a molécula de ácido nucleico isolada é RNA; por exemplo, a molécula de ácido nucleico isolada é uma sequência de repetição direta no sistema CRISPR/Cas.

5. Complexo CARACTERIZADO pelo fato de que compreende: (i) um componente de proteína, o qual é selecionado a partir: da proteína conforme definida na reivindicação 1, do conjugado conforme definido na reivindicação 2, da proteína de fusão conforme definida na reivindicação 3, e quaisquer combinações destes; e (ii) um componente de ácido nucleico, o qual compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 4 e uma sequência de direcionamento capaz de hibridização com a sequência alvo da direção 5’ a 3’, em que o componente de proteína e o componente de ácido nucleico se combinam um com o outro para formar um complexo; por exemplo, o componente de ácido nucleico é um RNA-guia no sistema CRISPR/Cas; por exemplo, a molécula de ácido nucleico é RNA; por exemplo, o complexo não contém crRNA de transativação (tracrRNA).

6. Molécula de ácido nucleico isolada CARACTERIZADA pelo fato de que compreende: (i) uma sequência de nucleotídeos que codifica a proteína conforme definida na reivindicação 1 ou a proteína de fusão conforme definida na reivindicação 3; (ii) uma sequência de nucleotídeos que codifica a molécula de ácido nucleico isolada conforme definida na reivindicação 4; e/ou (iii) uma sequência de nucleotídeos contendo (i) e (ii);

por exemplo, a sequência de nucleotídeos descrita em qualquer uma dentre (i) a (iii) é códon-otimizada para expressão em uma célula procariótica.

7. Vetor CARACTERIZADO pelo fato de que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 6.

8. Célula hospedeira CARACTERIZADA pelo fato de que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 6 ou o vetor conforme definido na reivindicação 7.

9. Composição CARACTERIZADA pelo fato de que compreende: (i) um primeiro componente, o qual é selecionado a partir: da proteína conforme definida na reivindicação 1, do conjugado conforme definido na reivindicação 2, da proteína de fusão conforme definida na reivindicação 3, de uma sequência de nucleotídeos que codifica a proteína ou a proteína de fusão, e quaisquer combinações destes; e (ii) um segundo componente, o qual é uma sequência de nucleotídeos contendo um RNA-guia, ou uma sequência de nucleotídeos que codifica a sequência de nucleotídeos contendo um RNA-guia; em que o RNA-guia inclui uma sequência de repetição direta e uma sequência de direcionamento da 5’ a 3’, e a sequência de direcionamento pode hibridizar com a sequência alvo; o RNA de direcionamento pode formar um complexo com a proteína, com o conjugado ou com a proteína de fusão como descrita em (i); a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 4; por exemplo, a composição não contém um crRNA de transativação (tracrRNA).

10. Composição CARACTERIZADA pelo fato de que compreende um ou mais vetores que compreendem: (i) um primeiro ácido nucleico, o qual é uma sequência de nucleotídeos que codifica uma proteína conforme definida na reivindicação 1 ou a proteína de fusão conforme definida na reivindicação 3; opcionalmente, o primeiro ácido nucleico é operativamente ligado a um primeiro elemento regulador; e (ii) um segundo ácido nucleico, o qual codifica uma sequência de nucleotídeos compreendendo um RNA-guia; opcionalmente, o segundo ácido nucleico é operativamente ligado a um segundo elemento regulador; em que: o primeiro ácido nucleico e o segundo ácido nucleico estão presentes nos mesmos ou em diferentes vetores; o RNA-guia inclui uma sequência de repetição direta e uma sequência de direcionamento da 5’ a 3’, e a sequência de direcionamento pode hibridizar com a sequência alvo; o RNA-guia pode formar um complexo com a proteína efetora ou com a proteína de fusão como descrita em (i) a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 4; por exemplo, a composição não contém um crRNA de transativação (tracrRNA).

11. Kit CARACTERIZADO pelo fato de que compreende um ou mais componentes selecionados a partir: da proteína conforme definida na reivindicação 1, do conjugado conforme definido na reivindicação 2, da proteína de fusão conforme definida na reivindicação 3, da molécula de ácido nucleico isolada conforme definida na reivindicação 4, do complexo conforme definido na reivindicação 5, da molécula de ácido nucleico isolada conforme definida na reivindicação 6, do vetor conforme definido na reivindicação 7, da composição conforme definida em qualquer uma das reivindicações 9 a 10; com instruções para uso da composição.

12. Composição de entrega CARACTERIZADA pelo fato de que compreende um veículo de entrega e um ou mais selecionados a partir do grupo que consiste: na proteína conforme definida na reivindicação 1, no conjugado conforme definido na reivindicação 2, na proteína de fusão conforme definida na reivindicação 3, na molécula de ácido nucleico isolada conforme definida na reivindicação 4, no complexo conforme definido na reivindicação 5, na molécula de ácido nucleico isolada conforme definida na reivindicação 6, no vetor conforme definido na reivindicação 7, na composição conforme definida em qualquer uma das reivindicações 9 a 10; por exemplo, o veículo de entrega é uma partícula;

por exemplo, o veículo de entrega é selecionado a partir de uma partícula de lipídio, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, microvesícula, pistola gênica ou vetor viral (por exemplo, retrovírus com defeito de replicação, lentivírus, adenovírus ou vírus adenoassociado).

13. Método para modificar um gene alvo CARACTERIZADO pelo fato de que compreende: colocar em contato o complexo conforme definido na reivindicação 5 ou a composição conforme definida em qualquer uma das reivindicações 9 a 10 com o gene alvo, ou entregá-lo a uma célula contendo o gene alvo; a sequência alvo está presente no gene alvo.

14. Método para alterar a expressão de um produto gênico CARACTERIZADO pelo fato de que compreende: combinar o complexo conforme definido na reivindicação 5 ou a composição conforme definida em qualquer uma das reivindicações 9 a 10 com uma molécula de ácido nucleico que codifica o produto gênico, ou entregá-lo a uma célula contendo a molécula de ácido nucleico na qual a sequência alvo está presente.

15. Célula ou sua progênie CARACTERIZADA pelo fato de que é obtida por meio do método conforme definido em qualquer uma das reivindicações 13 a 14, em que a célula contém uma modificação que não está presente em seu tipo selvagem.

16. Produto de célula CARACTERIZADO pelo fato de ser da célula ou sua progênie conforme definida na reivindicação 15.

17. Uso da proteína conforme definida na reivindicação 1, do conjugado conforme definido na reivindicação 2, da proteína de fusão conforme definida na reivindicação 3, da molécula de ácido nucleico isolada conforme definida na reivindicação 4, do complexo conforme definido na reivindicação 5, da molécula de ácido nucleico isolada conforme definida na reivindicação 6, do vetor conforme definido na reivindicação 7, da composição conforme definida em qualquer uma das reivindicações 9 a 10 ou do kit conforme definido na reivindicação 11, CARACTERIZADO pelo fato de ser em uma edição de ácido nucleico (por exemplo, edição de gene ou de genoma); por exemplo, a edição de gene ou de genoma inclui modificação de genes, inativação de genes, alteração da expressão de produtos gênicos,

reparação de mutações, e/ou inserção de polinucleotídeos.

18. Uso da proteína conforme definida na reivindicação 1, do conjugado conforme definido na reivindicação 2, da proteína de fusão conforme definida na reivindicação 3, da molécula de ácido nucleico isolada conforme definida na reivindicação 4, do complexo conforme definido na reivindicação 5, da molécula de ácido nucleico isolada conforme definida na reivindicação 6, do vetor conforme definido na reivindicação 7, da composição conforme definida em qualquer uma das reivindicações 9 a 10 ou do kit conforme definido na reivindicação 11, CARACTERIZADO pelo fato de ser no preparo de: (i) a edição de gene ou de genoma isolado; (ii) a detecção de um DNA de filamento único isolado; (iii) edição da sequência alvo no lócus alvo para modificar um organismo biológico ou não humano; (iv) uma composição para tratar a doença causada por defeitos na sequência alvo no lócus alvo.