BR112021009330A2

BR112021009330A2 - sistema e enzima crispr-cas12j

Info

Publication number: BR112021009330A2
Application number: BR112021009330-3A
Authority: BR
Inventors: Jinsheng Lai; Yingsi ZHOU; Yingnan LI; Jihong Zhang; Yingying Wang; Menglu LYU; Xiangbo ZHANG; Haiming Zhao; Weibin SONG
Original assignee: China Agricultural University
Priority date: 2018-11-15
Filing date: 2019-11-15
Publication date: 2021-08-17
Also published as: PH12021551114A1; US20220002691A1; MX2021005723A; CN111770992B; CA3120432A1; EP3882345A4; CN111770992A; CN113462671A; CN113462671B; EP3882345A1; IL283169A; AU2019381258B2; JP2022518329A; KR20210142586A; AU2019381258A1; SG11202105121WA; WO2020098772A1; JP7460178B2; CN113462672A

Abstract

SISTEMA E ENZIMA CRISPR-CAS12J. São fornecidos uma proteína efetora Cas, uma proteína de fusão compreendendo a referida proteína, e uma molécula de ácido nucleico que codifica a mesma. Também são fornecidos um complexo e uma composição para edição de ácido nucleico, por exemplo, um complexo e uma composição para edição de gene ou genoma, compreendendo a proteína efetora Cas ou a proteína de fusão, ou a molécula de ácido nucleico que codifica a mesma. Também é fornecido um método para edição de ácido nucleico, por exemplo, um método para edição de gene ou genoma, usando a proteína efetora Cas ou a proteína de fusão.

Description

“SISTEMA E ENZIMA CRISPR-CAS12J”

CAMPO TÉCNICO

[0001] A presente invenção se refere ao campo da edição de ácido nucleico, em particular, ao campo técnico de Repetições palindrômicas curtas agrupadas e regularmente interespaçadas (CRISPR). Especificamente, a presente invenção se refere a proteínas efetoras de Cas, proteínas de fusão contendo tais proteínas e moléculas de ácido nucleico que as codificam. A presente invenção também se refere a complexos e composições para edição de ácido nucleico (por exemplo, edição de gene ou genoma), que compreendem a proteína ou proteína de fusão da presente invenção, ou moléculas de ácido nucleico que as codificam. A presente invenção também se refere a um método para edição de ácido nucleico (por exemplo, edição de gene ou genoma), que usa aquele que compreende a proteína ou proteína de fusão da presente invenção.

FUNDAMENTO

[0002] A tecnologia CRISPR/Cas é uma tecnologia de edição de genes amplamente utilizada. Ela usa orientação de RNA para ligar especificamente sequências alvo no genoma e cortar DNA para produzir quebras de filamento duplo e usa junção de extremidade não homóloga biológica ou recombinação homóloga para edição de gene direcionado ao local.

[0003] O sistema CRISPR/Cas9 é o sistema CRISPR tipo II mais comumente usado. Ele reconhece o motivo PAM de 3'-NGG e corta a sequência alvo com extremidades cegas. O sistema CRISPR/Cas Tipo V é um tipo de sistema CRISPR recém-descoberto nos últimos dois anos. Ele tem um motivo 5'-TTN e corta a sequência alvo com extremidades pegajosas, tais como Cpf1, C2c1, CasX e CasY. No entanto, os diferentes CRISPR/Cas atualmente existentes têm diferentes vantagens e desvantagens. Por exemplo, Cas9, C2c1 e CasX requerem dois RNAs para RNA guia, enquanto Cpf1 requer apenas um RNA guia e pode ser usado para edição de múltiplos genes. O CasX tem um tamanho de 980 aminoácidos, enquanto o Cas9, C2c1, CasY e Cpf1 comuns têm geralmente cerca de 1300 aminoácidos. Além disso, as sequências de PAM de Cas9, Cpf1, CasX e CasY são mais complexas e diversas, e C2c1 reconhece o rigoroso 5'-TTN, de modo que seu local alvo é mais fácil de ser previsto do que outros sistemas, reduzindo assim os efeitos alvo potenciais.

[0004] Em uma palavra, dado que os sistemas CRISPR/Cas atualmente disponíveis são limitados por algumas deficiências, o desenvolvimento de um novo sistema CRISPR/Cas mais robusto com bom desempenho em muitos aspectos é de grande importância para o desenvolvimento da biotecnologia.

SUMÁRIO DA INVENÇÃO

[0005] Depois de muitas experiências e explorações repetidas, o inventor da presente invenção descobriu inesperadamente um novo tipo de endonuclease guiada por RNA. Com base nesta descoberta, o presente inventor desenvolveu um novo sistema CRISPR/Cas e um método de edição de gene com base no sistema. Proteína efetora de Cas

[0006] Portanto, no primeiro aspecto, a presente invenção fornece uma variedade de proteínas, que têm a sequência de aminoácidos como mostrada em qualquer uma dentre as SEQ ID Nos: 1-20, 107, 108 ou um ortólogo, um homólogo, uma variante ou um fragmento funcional da mesma; em que o ortólogo, homólogo, variante ou fragmento funcional retém substancialmente a função biológica da sequência da qual é derivado.

[0007] Na presente invenção, as funções biológicas das sequências acima incluem, mas não são limitadas à atividade de ligação ao RNA guia, a atividade de endonuclease e a atividade de ligação e clivagem de um local específico da sequência alvo sob a orientação do RNA guia.

[0008] Em certas modalidades, o ortólogo, homólogo ou variante tem pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência em comparação com a sequência da qual é derivado.

[0009] Em certas modalidades, o ortólogo, homólogo, variante tem pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência em comparação com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108, e retém substancialmente as funções biológicas da sequência a partir da qual é derivado (por exemplo, a atividade de ligação ao RNA guia, atividade de endonuclease e a atividade de ligação e clivagem de um local específico da sequência alvo sob a orientação do RNA guia).

[0010] Em certas modalidades, a proteína é uma proteína efetora no sistema CRISPR/Cas.

[0011] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108; (ii) em comparação com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107 e 108.

[0012] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 1; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 1, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 1.

[0013] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 2.

[0014] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 2; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 2, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 2.

[0015] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 2.

[0016] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 3; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 3, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 3.

[0017] Em certas modalidades, a proteína da invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 3.

[0018] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 4;

(ii) em comparação com a sequência como mostrada na SEQ ID NO: 4, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 4.

[0019] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 4.

[0020] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 5; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 5, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 5.

[0021] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 5.

[0022] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 6; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 6, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou

(iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 6.

[0023] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 6.

[0024] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 7; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 7, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 7.

[0025] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 7.

[0026] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 8; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 8, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 8.

[0027] Em certas modalidades, a proteína da invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 8.

[0028] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 9; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 9, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 9.

[0029] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 9.

[0030] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 10; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 10, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 10.

[0031] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 10.

[0032] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 11; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 11, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 11.

[0033] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 11.

[0034] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 12; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 12, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 12.

[0035] Em algumas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 12.

[0036] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 13; (ii) em comparação com a sequência como mostrada na SEQ ID NO:

13, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 13.

[0037] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 13.

[0038] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 14; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 14, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 14.

[0039] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 14.

[0040] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 15; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 15, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 15.

[0041] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 15.

[0042] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 16; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 16, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 16.

[0043] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 16.

[0044] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 17; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 17, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 17.

[0045] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 17.

[0046] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 18; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 18, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 18.

[0047] Em algumas modalidades, a proteína da invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 18.

[0048] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 19; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 19, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 19.

[0049] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 19.

[0050] Em certas modalidades, a proteína da presente invenção compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 20; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 20, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 20.

[0051] Em certas modalidades, a proteína da presente invenção tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 20. Proteína derivada

[0052] A proteína da presente invenção pode ser submetida à derivatização, por exemplo, ligada a outra molécula (por exemplo, outro polipeptídeo ou proteína). Geralmente, a derivatização da proteína (por exemplo, rotulação) não afetará adversamente a atividade desejada da proteína (por exemplo, a atividade de ligação ao RNA guia, atividade de endonuclease, a atividade de ligação e clivagem de um local específico da sequência alvo guiada pelo RNA guia). Portanto, a proteína da presente invenção também se destina a incluir tais formas derivatizadas. Por exemplo, a proteína da presente invenção pode ser funcionalmente ligada (por meio de acoplamento químico, fusão gênica, ligação não covalente ou outros meios) a um ou mais outros grupos moleculares, tal como outra proteína ou polipeptídeo, reagente de detecção, reagente farmacêutico e similares.

[0053] Em particular, a proteína da presente invenção pode ser conectada a outras unidades funcionais. Por exemplo, a mesma pode ser ligada a uma sequência de sinais de localização nuclear (NLS) para melhorar a capacidade da proteína da presente invenção para entrar no núcleo da célula. Por exemplo, a mesma pode ser conectada a uma fração de direcionamento para fazer a proteína da presente invenção ter a propriedade de direcionamento. Por exemplo, a mesma pode ser ligada a um rótulo detectável para facilitar a detecção da proteína da presente invenção. Por exemplo, a mesma pode ser ligada a uma etiqueta de epítopo para facilitar a expressão, detecção, rastreamento e/ou purificação da proteína da presente invenção. Conjugado

[0054] Portanto, em um segundo aspecto, a presente invenção fornece um conjugado compreendendo a proteína mencionada acima e uma porção modificada.

[0055] Em certas modalidades, a porção modificada é selecionada a partir de uma proteína ou polipeptídeo adicional, um rótulo detectável e quaisquer combinações dos mesmos.

[0056] Em certas modalidades, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência de sinais de localização nuclear (NLS), uma fração de direcionamento, um domínio de ativação de transcrição (tal como VP64), um domínio de repressão de transcrição ( por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: nucleotídeo desaminase, atividade de metilase, desmetilase, atividade de ativação de transcrição, atividade de inibição de transcrição, atividade de fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico; e quaisquer combinações dos mesmos.

[0057] Em certas modalidades, o conjugado da presente invenção compreende uma ou mais sequências NLS, tal como o NLS do antígeno T grande do vírus SV40. Em certas modalidades exemplares, a sequência NLS é mostrada na SEQ ID NO: 81. Em certas modalidades, a sequência NLS está localizada na, perto, ou próxima à extremidade (tal como, Terminal N ou Terminal C) da proteína da presente invenção. Em certas modalidades exemplares, a sequência NLS está localizada na, perto, ou próxima ao Terminal C da proteína da presente invenção.

[0058] Em certas modalidades, o conjugado da presente invenção compreende uma etiqueta de epítopo. Tais etiquetas de epítopo são bem conhecidas por aqueles versados na técnica, exemplos das quais incluem, mas não são limitados a, His, V5, FLAG, HA, Myc, VSV-G, Trx, etc., e aqueles versados na técnica sabem como selecionar uma etiqueta de epítopo adequada de acordo com a finalidade desejada (por exemplo, purificação, detecção ou rastreamento).

[0059] Em certas modalidades, o conjugado da presente invenção compreende uma sequência de genes repórteres. Tais genes repórteres são bem conhecidos por aqueles versados na técnica e exemplos dos mesmos incluem, mas não são limitados a GST, HRP, CAT, GFP, HcRed, DsRed, CFP, YFP, BFP e similares.

[0060] Em certas modalidades, o conjugado da presente invenção compreende um domínio capaz de se ligar a moléculas de DNA ou moléculas intracelulares, tais como proteína de ligação a maltose (MBP), domínio de ligação a DNA (DBD) de Lex A, DBD de GAL4, etc.

[0061] Em certas modalidades, o conjugado da invenção compreende um rótulo detectável, tal como um corante fluorescente, tal como FITC ou DAPI.

[0062] Em certas modalidades, a proteína da presente invenção é opcionalmente acoplada, conjugada ou fundida à porção modificada através de um ligante.

[0063] Em certas modalidades, a porção modificada está diretamente conectada ao Terminal N ou Terminal C da proteína da presente invenção.

[0064] Em algumas modalidades, a porção modificada é conectada ao Terminal N ou Terminal C da proteína da presente invenção por meio de um ligante. Tais ligantes são bem conhecidos na técnica, exemplos dos quais incluem, mas não são limitados a um ligante contendo um ou mais (por exemplo, 1, 2, 3, 4 ou 5) aminoácidos (tal como, Glu ou Ser ) ou derivados de aminoácidos (tal como, Ahx, β-Ala, GABA ou Ava) ou PEG e similares. Proteína de fusão

[0065] Em um terceiro aspecto, a presente invenção fornece uma proteína de fusão compreendendo a proteína da presente invenção e uma proteína ou polipeptídeo adicional.

[0066] Em certas modalidades, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência de sinais de localização nuclear (NLS), uma fração de direcionamento, um domínio de ativação de transcrição (tal como, VP64), um domínio de repressão de transcrição ( por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: um nucleotídeo desaminase, atividade de metilase, uma desmetilase, atividade de ativação de transcrição, atividade de inibição de transcrição, atividade de fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico; e quaisquer combinações dos mesmos.

[0067] Em certas modalidades, a proteína de fusão da presente invenção compreende uma ou mais sequências NLS, tal como o NLS do antígeno T grande do vírus SV40. Em certas modalidades, a sequência NLS está localizada na, perto, ou próxima à extremidade (tal como, Terminal N ou Terminal C) da proteína da presente invenção. Em certas modalidades exemplares, a sequência NLS está localizada no, perto, ou próximo ao Terminal C da proteína da presente invenção.

[0068] Em certas modalidades, a proteína de fusão da presente invenção compreende uma etiqueta de epítopo.

[0069] Em certas modalidades, a proteína de fusão da presente invenção compreende uma sequência de genes repórteres.

[0070] Em certas modalidades, a proteína de fusão da presente invenção contém um domínio capaz de se ligar a moléculas de DNA ou moléculas intracelulares.

[0071] Em certas modalidades, a proteína da presente invenção é opcionalmente fundida à proteína ou polipeptídeo adicional através de um ligante.

[0072] Em certas modalidades, a proteína ou polipeptídeo adicional está diretamente ligado ao Terminal N ou Terminal C da proteína da presente invenção.

[0073] Em certas modalidades, a proteína ou polipeptídeo adicional é conectado ao Terminal N ou Terminal C da proteína da presente invenção através de um ligante.

[0074] Em certas modalidades exemplares, a proteína de fusão da presente invenção tem uma sequência de aminoácidos selecionada a partir do grupo que consiste em SEQ ID NOs: 82-101.

[0075] A proteína da presente invenção, o conjugado da presente invenção ou a proteína de fusão da presente invenção não está limitado pela maneira como é produzido. Por exemplo, o mesmo pode ser produzido por métodos de engenharia genética (tecnologia recombinante) ou pode ser produzido por métodos de síntese química. Repetição direta

[0076] Em um quarto aspecto, a presente invenção fornece uma molécula de ácido nucleico isolada compreendendo uma sequência selecionada a partir das seguintes ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 41-60; (ii) em comparação com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 41-60, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 41-60; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii);

[0077] Além disso, a sequência como descrita em qualquer uma dentre (ii) - (v) retém substancialmente a função biológica da sequência da qual é derivada, e a função biológica da sequência se refere a sua atividade como uma sequência de repetição direta no sistema CRISPR-Cas.

[0078] Em certas modalidades, a molécula de ácido nucleico isolada é uma sequência de repetição direta no sistema CRISPR-Cas.

[0079] Em certas modalidades, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada em qualquer uma da SEQ ID NO: 41; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência como descrita em (a).

[0080] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0081] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 41; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 41, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 41; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0082] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 41; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 41.

[0083] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0084] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 42; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 42, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 42; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0085] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 42; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 42.

[0086] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0087] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) a sequência mostrada em SEQ ID NO: 43; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 43, uma sequência com uma ou mais substituições, deleções ou adições de base

(por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 43; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0088] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 43; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 43.

[0089] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0090] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 44; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 44, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 44; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0091] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 44; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 44.

[0092] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0093] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 45; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 45, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 45; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0094] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID

NO: 45; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 45.

[0095] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0096] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 46; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 46, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 46; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0097] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 46; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 46.

[0098] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0099] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 47; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 47, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 47; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0100] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 47; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 47.

[0101] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0102] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 48; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 48, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 48; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0103] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 48; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 48.

[0104] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0105] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 49; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 49, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 49; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou

(v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0106] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 49; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 49.

[0107] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0108] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 50; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 50, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 50; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0109] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 50;

(b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 50.

[0110] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0111] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 51; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 51, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 51; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0112] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 51; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 51.

[0113] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0114] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 52; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 52, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 52; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0115] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 52; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 52.

[0116] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0117] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 53; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 53, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base);

(iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 53; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0118] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 53; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 53.

[0119] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0120] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 54; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 54, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 54; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0121] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 54; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 54.

[0122] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0123] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 55; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 55, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 55; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0124] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 55; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 55.

[0125] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0126] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 56; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 56, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 56; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0127] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 56; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 56.

[0128] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0129] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 57; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 57, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 57; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0130] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 57; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 57.

[0131] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0132] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 58; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 58, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 58; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0133] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 58; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 58.

[0134] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0135] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 59; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 59, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 59; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0136] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 59; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 59.

[0137] Em certas modalidades, a molécula de ácido nucleico isolada é RNA.

[0138] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 60; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 60, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em SEQ ID NO: 60; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii).

[0139] Em algumas modalidades, a molécula de ácido nucleico isolada compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 60; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou

(c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 60. Complexo CRISPR/Cas

[0140] Em um quinto aspecto, a presente invenção fornece um complexo que compreende: (i) um componente de proteína, que é selecionado a partir da: proteína, conjugado ou proteína de fusão da presente invenção, e quaisquer combinações dos mesmos; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada como descrito acima e uma sequência de direcionamento capaz de hibridizar com a sequência alvo de 5’ a 3’, em que o componente de proteína e o componente de ácido nucleico combinam um com o outro para formar um complexo.

[0141] Em certas modalidades, a sequência de direcionamento é anexada à extremidade 3' da molécula de ácido nucleico.

[0142] Em certas modalidades, a sequência de direcionamento compreende a sequência complementar da sequência alvo.

[0143] Em certas modalidades, o componente de ácido nucleico é um RNA guia no sistema CRISPR-Cas.

[0144] Em certas modalidades, a molécula de ácido nucleico é RNA.

[0145] Em certas modalidades, o complexo não compreende crRNA de ação trans (tracrRNA).

[0146] Em certas modalidades, a sequência de direcionamento tem pelo menos 5, pelo menos 10 ou pelo menos 14 de comprimento. Em certas modalidades, a sequência de direcionamento tem 10-30, ou 15-25, ou 15-22, ou 19-25, 19-22 nucleotídeos ou 14-28 nucleotídeos de comprimento.

[0147] Em certas modalidades, a molécula de ácido nucleico isolada tem 55-70 nucleotídeos de comprimento, tais como 55-65 nucleotídeos, tais como 60-65 nucleotídeos, tais como 62-65 nucleosídeos, tais como 63-64 nucleotídeos. Em certas modalidades, a molécula de ácido nucleico isolada tem 15-30 nucleotídeos de comprimento, tais como 15-25 nucleotídeos, tais como 20-25 nucleotídeos, tais como 22-24 nucleotídeos, tais como 23 nucleotídeos. Codificando ácido nucleico, vetor e célula hospedeira

[0148] Em um sexto aspecto, a presente invenção fornece uma molécula de ácido nucleico isolada que compreende: (i) uma sequência de nucleotídeos que codifica a proteína ou proteína de fusão da presente invenção; (ii) codificar a molécula de ácido nucleico isolada conforme descrita no quarto aspecto; ou (iii) uma sequência de nucleotídeos contendo (i) e (ii).

[0149] Em certas modalidades, a sequência de nucleotídeos descrita em qualquer uma dentre (i) a (iii) é códon otimizado para expressão em células procarióticas. Em certas modalidades, a sequência de nucleotídeos conforme descrita em qualquer uma dentre (i) a (iii) é códon otimizado para expressão em células eucarióticas.

[0150] Em um sétimo aspecto, a presente invenção também fornece um vetor que compreende a molécula de ácido nucleico isolada conforme descrita no sexto aspecto. O vetor da presente invenção pode ser um vetor de clonagem ou um vetor de expressão. Em certas modalidades, o vetor da presente invenção pode ser, por exemplo, um plasmídeo, um cosmídeo, um bacteriófago, um cosmídeo e similares. Em certas modalidades preferidas, o vetor é capaz de expressar a proteína, proteína de fusão da presente invenção, molécula de ácido nucleico isolada de acordo com o quarto aspecto ou o complexo de acordo com o quinto aspecto em um indivíduo (por exemplo, um mamífero, tal como um ser humano).

[0151] Em um oitavo aspecto, a presente invenção também fornece uma célula hospedeira contendo a molécula de ácido nucleico isolada ou vetor como descrito acima. Essas células hospedeiras incluem, mas não são limitadas a células procarióticas, tais como células de E. coli, e células eucarióticas, tais como células de levedura, células de inseto, células vegetais e células animais (tais como células de mamíferos, tais como células de camundongo, células humanas, etc.). As células da presente invenção também podem ser linhagens celulares, tais como células 293T. Composição e composição vetorial

[0152] Em um nono aspecto, a presente invenção também fornece uma composição, que compreende: (i) um primeiro componente, que é selecionado a partir da: proteína, conjugado, proteína de fusão da presente invenção, sequência de nucleotídeos que codifica a proteína ou proteína de fusão, e quaisquer combinações dos mesmos; e (ii) um segundo componente, que é uma sequência de nucleotídeos contendo um RNA guia, ou uma sequência de nucleotídeos que codifica a sequência de nucleotídeos contendo um RNA guia; em que o RNA guia inclui uma sequência de repetição direta e uma sequência guia de 5’ a 3’, e a sequência guia pode hibridizar com a sequência alvo; o RNA guia pode formar um complexo com a proteína, conjugado ou proteína de fusão, conforme descrito em (i).

[0153] Em certas modalidades, a sequência de repetição direta é uma molécula de ácido nucleico isolada como definida no quarto aspecto.

[0154] Em certas modalidades, a sequência guia é conectada à extremidade 3' da sequência de repetição direta. Em certas modalidades, a sequência guia compreende a sequência complementar da sequência alvo.

[0155] Em certas modalidades, a composição não inclui tracrRNA.

[0156] Em certas modalidades, a composição é de ocorrência não natural ou modificada. Em certas modalidades, pelo menos, um componente da composição é de ocorrência não natural ou modificado. Em certas modalidades, o primeiro componente é de ocorrência não natural ou modificado; e/ou, o segundo componente é de ocorrência não natural ou modificado.

[0157] Em algumas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem a sequência mostrada por 5'-ATG.

[0158] Em certas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem uma sequência mostrada por 5'-TTN, em que N é selecionado a partir de A, G, T, C.

[0159] Em algumas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem a sequência mostrada por 5'-KTR.

[0160] Em certas modalidades, quando a sequência alvo for RNA, a sequência alvo não tem restrições de domínio PAM.

[0161] Em certas modalidades, a sequência alvo é uma sequência de DNA ou RNA derivada de uma célula procariótica ou uma célula eucariótica. Em certas modalidades, a sequência alvo é uma sequência de DNA ou RNA de ocorrência não natural.

[0162] Em certas modalidades, a sequência alvo está presente na célula. Em certas modalidades, a sequência alvo está presente no núcleo da célula ou no citoplasma (tais como, organelas). Em certas modalidades, a célula é uma célula eucariótica. Em certas modalidades, a célula é uma célula procariótica.

[0163] Em certas modalidades, a proteína está ligada a uma ou mais sequências NLS. Em certas modalidades, o conjugado ou proteína de fusão compreende uma ou mais sequências NLS. Em certas modalidades, a sequência NLS está ligada ao Terminal N ou Terminal C da proteína. Em certas modalidades, a sequência NLS é fundida ao Terminal N ou Terminal C da proteína.

[0164] Em um décimo aspecto, a presente invenção também fornece uma composição compreendendo um ou mais vetores, o um ou mais vetores compreendendo: (i) um primeiro ácido nucleico, que é uma sequência de nucleotídeos que codifica uma proteína ou proteína de fusão da presente invenção; opcionalmente, o primeiro ácido nucleico está operacionalmente ligado a um primeiro elemento regulador; e (ii) um segundo ácido nucleico, que codifica uma sequência de nucleotídeos compreendendo um RNA guia; opcionalmente, o segundo ácido nucleico está operacionalmente ligado a um segundo elemento regulador; em que: o primeiro ácido nucleico e o segundo ácido nucleico estão presentes no mesmo ou em diferentes vetores; o RNA guia inclui uma sequência de repetição direta e uma sequência guia de 5’ a 3’, e a sequência guia pode hibridizar com a sequência alvo; o RNA guia pode formar um complexo com a proteína efetora ou proteína de fusão, conforme descrito em (i).

[0165] Em certas modalidades, a sequência de repetição direta é uma molécula de ácido nucleico isolada como definida no quarto aspecto.

[0166] Em certas modalidades, a sequência guia é conectada à extremidade 3' da sequência de repetição direta. Em certas modalidades, a sequência guia compreende a sequência complementar da sequência alvo.

[0167] Em certas modalidades, a composição não inclui tracrRNA.

[0168] Em certas modalidades, a composição é de ocorrência não natural ou modificada. Em certas modalidades, pelo menos, um componente da composição é de ocorrência não natural ou modificado.

[0169] Em certas modalidades, o primeiro elemento regulador é um promotor, tal como um promotor induzível.

[0170] Em certas modalidades, o segundo elemento regulador é um promotor, tal como um promotor induzível.

[0171] Em algumas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem a sequência mostrada por 5'-ATG.

[0172] Em certas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem uma sequência mostrada por 5'-TTN, em que N é selecionado a partir de A, G, T, C.

[0173] Em algumas modalidades, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original e o PAM tem a sequência mostrada por 5'-KTR.

[0174] Em certas modalidades, quando a sequência alvo for RNA, a sequência alvo não tem restrições de domínio PAM.

[0175] Em certas modalidades, a sequência alvo é uma sequência de DNA ou RNA derivada de uma célula procariótica ou uma célula eucariótica. Em certas modalidades, a sequência alvo é uma sequência de DNA ou RNA de ocorrência não natural.

[0176] Em certas modalidades, a sequência alvo está presente na célula. Em certas modalidades, a sequência alvo está presente no núcleo da célula ou no citoplasma (tais como, organelas). Em certas modalidades, a célula é uma célula eucariótica. Em certas modalidades, a célula é uma célula procariótica.

[0177] Em certas modalidades, a proteína está ligada a uma ou mais sequências NLS. Em certas modalidades, o conjugado ou proteína de fusão compreende uma ou mais sequências NLS. Em certas modalidades, a sequência NLS está ligada ao Terminal N ou Terminal C da proteína. Em certas modalidades, a sequência NLS é fundida ao Terminal N ou Terminal C da proteína.

[0178] Em certas modalidades, um tipo de vetor é um plasmídeo, que se refere a uma estrutura de DNA de filamento duplo circular na qual fragmentos de DNA adicionais podem ser inseridos, por exemplo, por técnicas de clonagem molecular padrão. Outro tipo de vetor é um vetor viral, em que sequências de DNA ou RNA derivadas de vírus estão presentes no vetor usado para empacotar o vírus (por exemplo, retrovírus, retrovírus com defeito de replicação, adenovírus, adenovírus com defeito de replicação e vírus adeno-associado). Os vetores virais também contêm polinucleotídeos transportados pelo vírus usado para transfecção em uma célula hospedeira. Certos vetores (por exemplo, vetores bacterianos com uma origem de replicação bacteriana e vetores de mamíferos epissomais) são capazes de replicação autônoma na célula hospedeira na qual são introduzidos. Outros vetores (por exemplo, vetores de mamíferos não epissomais) são integrados no genoma da célula hospedeira após serem introduzidos na célula hospedeira e, assim, replicam-se com o genoma hospedeiro. Além disso, certos vetores podem direcionar a expressão de genes aos quais estão operacionalmente ligados. Esses vetores são aqui referidos como "vetores de expressão". Os vetores de expressão comuns usados na tecnologia de DNA recombinante estão geralmente na forma de plasmídeos.

[0179] Os vetores de expressão recombinantes podem conter a molécula de ácido nucleico da presente invenção em uma forma adequada para a expressão do ácido nucleico em uma célula hospedeira, o que significa que esses vetores de expressão recombinantes contêm um ou mais elementos reguladores selecionados com base na célula hospedeira a ser usada para expressão. O elemento regulador está operacionalmente ligado à sequência de ácidos nucleicos a ser expressa. Administração e composição de administração

[0180] A proteína, conjugado, proteína de fusão da presente invenção, a molécula de ácido nucleico isolada como descrita no quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico isolada como descrita no sexto aspecto, o vetor como descrito no sétimo aspecto, a composição de acordo com o nono e décimo aspectos pode ser administrada por qualquer método conhecido na técnica. Tais métodos incluem, mas não são limitados à eletroporação, lipofecção, transfecção nuclear, microinjeção, sonoporação, arma genética, transfecção mediada por fosfato de cálcio, transfecção catiônica, transfecção de lipossoma, transfecção dendrítica, transfecção de choque térmico, transfecção nuclear, transfecção magnética, lipofecção, transfecção por punção, transfecção óptica, absorção de ácido nucleico intensificada por reagente e administração através de lipossoma, imunolipossoma, partícula viral, virossoma artificial, etc.

[0181] Portanto, em outro aspecto, a presente invenção fornece uma composição de administração compreendendo um veículo de administração e um ou mais selecionados a partir do seguinte: a proteína, o conjugado, a proteína de fusão da presente invenção, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico isolada de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição como descrita no nono e décimo aspectos.

[0182] Em certas modalidades, o veículo de administração é uma partícula.

[0183] Em certas modalidades, o veículo de administração é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, microvesícula, arma genética ou vetor viral (por exemplo, retrovírus defeituoso de replicação, lentivírus, adenovírus ou vírus adeno-associado). kit

[0184] Em outro aspecto, a presente invenção fornece um kit que compreende um ou mais dos componentes como descritos acima. Em certas modalidades, o kit inclui um ou mais componentes selecionados a partir dos seguintes: a proteína, o conjugado, a proteína de fusão da presente invenção, a molécula de ácido nucleico isolada como descrita no quarto aspecto, o complexo da presente invenção, a molécula de ácido nucleico isolada como descrita no sexto aspecto, o vetor como descrito no sétimo aspecto e a composição como descrita no nono e décimo aspectos.

[0185] Em certas modalidades, o kit da presente invenção compreende a composição como descrita no nono aspecto. Em certas modalidades, o kit inclui adicionalmente instruções para o uso da composição.

[0186] Em certas modalidades, o kit da presente invenção compreende uma composição como descrita no décimo aspecto. Em certas modalidades, o kit inclui adicionalmente instruções para o uso da composição.

[0187] Em certas modalidades, o componente contido no kit da presente invenção pode ser fornecido em qualquer recipiente adequado.

[0188] Em certas modalidades, o kit inclui adicionalmente um ou mais tampões. O tampão pode ser qualquer tampão, incluindo mas não limitado a tampão de carbonato de sódio, tampão de bicarbonato de sódio, tampão de borato, tampão Tris, tampão MOPS, tampão HEPES e combinações dos mesmos. Em certas modalidades, o tampão é alcalino. Em certas modalidades, o tampão tem um pH de cerca de 7 a cerca de 10.

[0189] Em certas modalidades, o kit inclui adicionalmente um ou mais oligonucleotídeos correspondentes a uma sequência guia para inserção no vetor de modo a ligar operacionalmente a sequência guia e o elemento regulador. Em certas modalidades, o kit inclui um polinucleotídeo modelo de recombinação homóloga. Método e uso

[0190] Em outro aspecto, a presente invenção fornece um método para modificar um gene alvo, que compreende: colocar em contato o complexo de acordo com o quinto aspecto, a composição de acordo com o nono aspecto ou a composição de acordo com o décimo aspecto com o gene alvo, ou administrar a uma célula contendo o gene alvo; a sequência alvo está presente no gene alvo.

[0191] Em certas modalidades, o gene alvo está presente na célula. Em certas modalidades, a célula é uma célula procariótica. Em certas modalidades, a célula é uma célula eucariótica. Em certas modalidades, a célula é uma célula de mamífero. Em certas modalidades, a célula é uma célula humana. Em certas modalidades, a célula é selecionada a partir de uma célula de primata não humano, bovino, porco ou roedor. Em certas modalidades, a célula é uma célula eucariótica de não mamífero, tais como aves domésticas ou peixes e similares. Em certas modalidades, a célula é uma célula vegetal, tal como uma célula possuída por uma planta cultivada (tal como, mandioca, milho, sorgo, trigo ou arroz), algas, árvores ou vegetais.

[0192] Em certas modalidades, o gene alvo está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro. Em certas modalidades, o gene alvo está presente em um plasmídeo.

[0193] Em algumas modalidades, a modificação se refere a uma quebra na sequência alvo, tal como uma quebra de filamento duplo no DNA ou uma quebra de filamento único no RNA.

[0194] Em certas modalidades, a quebra resulta na diminuição da transcrição do gene alvo.

[0195] Em algumas modalidades, o método ainda compreende: colocar em contato o modelo de edição com o gene alvo ou entregá-lo à célula que contém o gene alvo. Em tais modalidades, o método repara o gene alvo quebrado por recombinação homóloga com um polinucleotídeo de modelo exógeno, em que o reparo resulta em uma mutação incluindo a inserção, deleção ou substituição de um ou mais nucleotídeos do gene alvo. Em certas modalidades, a mutação resulta em uma ou mais alterações de aminoácidos na proteína expressa a partir do gene que contém a sequência alvo.

[0196] Portanto, em certas modalidades, a modificação inclui adicionalmente inserção de um modelo de edição (por exemplo, um ácido nucleico exógeno) na quebra.

[0197] Em certas modalidades, a proteína, conjugado, proteína de fusão, molécula de ácido nucleico isolada, complexo, vetor ou composição está contido em um veículo de administração.

[0198] Em algumas modalidades, o veículo de administração é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, vetor viral (tal como, retrovírus com defeito de replicação, lentivírus, adenovírus ou vírus adeno- associado).

[0199] Em certas modalidades, o método é usado para alterar uma ou mais sequências alvo em um gene alvo ou uma molécula de ácido nucleico que codifica um produto genético alvo para modificar uma célula, linhagem celular ou organismo.

[0200] Em outro aspecto, a presente invenção fornece um método para alterar a expressão de um produto genético, que compreende: colocar em contato o complexo de acordo com o quinto aspecto, a composição de acordo com o nono aspecto ou a composição de acordo com o décimo aspecto com uma molécula de ácido nucleico que codifica o produto genético, ou administrar a uma célula contendo a molécula de ácido nucleico na qual a sequência alvo está presente.

[0201] Em certas modalidades, a molécula de ácido nucleico está presente em uma célula. Em certas modalidades, a célula é uma célula procariótica. Em certas modalidades, a célula é uma célula eucariótica. Em certas modalidades, a célula é uma célula de mamífero. Em certas modalidades, a célula é uma célula humana. Em certas modalidades, a célula é selecionada a partir de uma célula de primata não humano, bovino, porco ou roedor. Em certas modalidades, a célula é uma célula eucariótica de não mamífero, tais como aves domésticas ou peixes e similares. Em certas modalidades, a célula é uma célula vegetal, tal como uma célula possuída por uma planta cultivada (tal como, mandioca, milho, sorgo, trigo ou arroz), algas, árvores ou vegetais.

[0202] Em certas modalidades, a molécula de ácido nucleico está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro. Em certas modalidades, a molécula de ácido nucleico está presente em um plasmídeo.

[0203] Em certas modalidades, a expressão do produto genético é alterada (por exemplo, aumentada ou diminuída). Em certas modalidades, a expressão do produto genético é aumentada. Em certas modalidades, a expressão do produto genético é reduzida.

[0204] Em certas modalidades, o produto genético é uma proteína.

[0205] Em certas modalidades, a proteína, conjugado, proteína de fusão, molécula de ácido nucleico isolada, complexo, vetor ou composição está contido em um veículo de administração.

[0206] Em algumas modalidades, o veículo de administração é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, vetor viral (tal como, retrovírus defeituoso de replicação, lentivírus, adenovírus ou vírus adeno- associado).

[0207] Em certas modalidades, o método é usado para alterar uma ou mais sequências alvo em um gene alvo ou uma molécula de ácido nucleico que codifica um produto genético alvo para modificar uma célula, linhagem celular ou organismo.

[0208] Em outro aspecto, a presente invenção se refere a um uso da proteína de acordo com o primeiro aspecto, do conjugado de acordo com o segundo aspecto, da proteína de fusão de acordo com o terceiro aspecto, da molécula de ácido nucleico isolada de acordo com o quarto aspecto, do complexo de acordo com o quinto aspecto, da molécula de ácido nucleico isolada de acordo com o sexto aspecto, do vetor de acordo com o sétimo aspecto, da composição de acordo com o nono aspecto, da composição de acordo com o décimo aspecto da presente invenção, do kit ou composição de administração da presente invenção para a edição de ácido nucleico.

[0209] Em certas modalidades, a edição de ácido nucleico inclui edição de gene ou genoma, tais como modificação de genes, desativação de genes, alteração da expressão de produtos genéticos, reparação de mutações e/ou inserção de polinucleotídeos.

[0210] Em outro aspecto, a presente invenção se refere a um uso da proteína de acordo com o primeiro aspecto, do conjugado de acordo com o segundo aspecto, da proteína de fusão de acordo com o terceiro aspecto, da molécula de ácido nucleico isolada de acordo com o quarto aspecto, do complexo de acordo com o quinto aspecto, da molécula de ácido nucleico isolada de acordo com o sexto aspecto, do vetor de acordo com o sétimo aspecto, da composição de acordo com o nono aspecto, da composição de acordo com o décimo aspecto da presente invenção, do kit ou composição de administração da presente invenção na preparação de uma formulação, que é usada para: (i) a edição de gene ou genoma in vitro; (ii) a detecção de um DNA de filamento único isolado; (iii) editar a sequência alvo no locus alvo para modificar um organismo biológico ou não humano; (iv) o tratamento da doença causada por defeitos na sequência alvo no locus alvo. Células e progênie celular

[0211] Em alguns casos, as modificações introduzidas na célula pelo método da presente invenção podem fazer com que a célula e sua progênie sejam alteradas para melhorar a produção de seus produtos biológicos (tais como anticorpos, amido, etanol ou outra produção celular desejada). Em alguns casos, as modificações introduzidas na célula pelos métodos da presente invenção podem fazer com que a célula e sua progênie incluam mudanças que alteram o produto biológico produzido.

[0212] Portanto, em outro aspecto, a presente invenção também se refere a uma célula ou sua progênie obtida pelo método como descrito acima, em que a célula contém uma modificação que não está presente em seu tipo selvagem.

[0213] A presente invenção também se refere ao produto celular da célula ou sua progênie como descrito acima.

[0214] A presente invenção também se refere a uma célula ou linhagem celular in vitro, isolada ou in vivo ou sua progênie, a célula ou linhagem celular ou sua progênie compreende: a proteína de acordo com o primeiro aspecto, o conjugado de acordo com o segundo aspecto, a proteína de fusão acordo com o terceiro aspecto, a molécula de ácido nucleico isolada de acordo com o quarto aspecto, o complexo de acordo com o quinto aspecto, a molécula de ácido nucleico isolada de acordo com o sexto aspecto, o vetor de acordo com o sétimo aspecto, a composição de acordo com o nono aspecto, a composição de acordo com o décimo aspecto da presente invenção, o kit ou composição de administração da presente invenção.

[0215] Em certas modalidades, a célula é uma célula procariótica.

[0216] Em certas modalidades, a célula é uma célula eucariótica. Em certas modalidades, a célula é uma célula de mamífero. Em certas modalidades, a célula é uma célula humana. Em certas modalidades, a célula é uma célula de mamífero não humano, tal como uma célula de um primata não humano, vaca, ovelha, porco, cachorro, macaco, coelho, roedor (tal como, rato ou camundongo). Em certas modalidades, a célula é uma célula eucariótica de não mamífero, tal como uma ave doméstica (por exemplo, galinha), peixe ou crustáceo (por exemplo, molusco, camarão). Em certas modalidades, a célula é uma célula vegetal, tal como uma célula possuída por uma monocotiledônea ou dicotiledônea ou uma planta cultivada ou uma cultura alimentar, tal como mandioca, milho, sorgo, soja, trigo, aveia ou arroz, por exemplo, algas, árvores ou plantas de produção, frutas ou vegetais (por exemplo, árvores, tais como árvores cítricas, árvores de nozes; soleiras, algodão, tabaco, tomates, uvas, café, cacau, etc.).

[0217] Em certas modalidades, a célula é uma célula-tronco ou linhagem de célula-tronco. Definição de termos

[0218] Na presente invenção, a menos que especificado de outra forma, os termos científicos e técnicos usados aqui têm os significados comumente entendidos pelos versados na técnica. Além disso, a genética molecular, química de ácido nucléico, química, biologia molecular, bioquímica, cultura de células, microbiologia, biologia celular, DNA genômico e recombinante e outros procedimentos usados neste artigo são todos procedimentos de rotina amplamente utilizados nos campos correspondentes. Ao mesmo tempo, a fim de compreender melhor a presente invenção, as definições e explicações dos termos relacionados são fornecidas abaixo.

[0219] Na presente invenção, a expressão "Cas12j" se refere a uma proteína efetora de Cas descoberta e identificada pela primeira vez pelos presentes inventores, que tem uma sequência de aminoácidos selecionada a partir das seguintes: (i) uma sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108; (ii) em comparação com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108, uma sequência com uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada em qualquer uma dentre as SEQ ID NOs: 1-20, 107, 108.

[0220] O Cas12j da presente invenção é uma endonuclease que se liga a e corta um local específico de uma sequência alvo sob a orientação de um RNA guia e tem atividades endonucleases de DNA e RNA ao mesmo tempo.

[0221] Tal como aqui utilizado, os termos "Sistema (Cas) (CRISPR-

Cas) associado a CRISPR - Repetições palindrômicas curtas agrupadas e regularmente interespaçadas (CRISPR)" ou "Sistema CRISPR" são usados indistintamente e têm o significado comumente compreendido por aqueles versados na técnica, geralmente contém produtos de transcrição ou outros elementos relacionados à expressão de genes associados a CRISPR ("Cas"), ou produtos de transcrição ou outros elementos capazes de direcionar a atividade do gene Cas. Tais produtos de transcrição ou outros elementos podem incluir sequências que codificam proteínas efetoras de Cas e RNAs guia, incluindo CRISPR RNA (crRNA), bem como, sequências de crRNA de transativação (tracrRNA) contidas no sistema CRISPR-Cas9, ou outras sequências ou produtos de transcrição do locus CRISPR.

[0222] Tal como aqui utilizado, os termos "proteína efetora de Cas" e "enzima efetora de Cas" são usados indistintamente e referem-se a qualquer proteína presente no sistema CRISPR-Cas que seja maior do que 800 aminoácidos de comprimento. Em alguns casos, este tipo de proteína se refere a uma proteína identificada a partir do locus Cas.

[0223] Conforme usado aqui, os termos "RNA guia" e "crRNA maduro" podem ser usados indistintamente e têm significados comumente entendidos por aqueles versados na técnica. De um modo geral, um RNA guia pode conter uma repetição direta e uma sequência guia (sequência de direcionamento) ou consiste essencialmente em ou consiste em uma sequência de repetição direta e uma sequência guia (também chamado de espaçador no contexto de um sistema CRISPR endógeno). Em alguns casos, a sequência guia é qualquer sequência polinucleotídica que tem complementaridade suficiente com a sequência alvo para hibridizar com a sequência alvo e guiar a ligação específica do complexo CRISPR/Cas à sequência alvo. Em certas modalidades, quando alinhadas de maneira ideal, o grau de complementaridade entre a sequência guia e sua sequência alvo correspondente é de pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% ou pelo menos 99%. Determinar o melhor alinhamento está ao alcance de uma pessoa versada na técnica. Por exemplo, existem algoritmos e programas de alinhamento publicados e comercialmente disponíveis, tais como, mas não limitados a Smith-Waterman, Bowtie, Geneious, Biopython e SeqMan em ClustalW, matlab.

[0224] Em alguns casos, a sequência guia é pelo menos 5, pelo menos 10, pelo menos 15, pelo menos 16, pelo menos 17, pelo menos 18, pelo menos 19, pelo menos 20, pelo menos 21, pelo menos 22, pelo menos 23, pelo menos 24, pelo menos 25, pelo menos 26, pelo menos 27, pelo menos 28, pelo menos 29, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45 ou pelo menos 50 nucleotídeos de comprimento. Em alguns casos, a sequência guia não tem mais do que 50, 45, 40, 35, 30, 25, 24, 23, 22, 21, 20, 15, 10 ou menos nucleotídeos de comprimento. Em certas modalidades, a sequência guia tem 10-30, ou 15-25, ou 15-22, ou 19-25 ou 19-22 nucleotídeos de comprimento.

[0225] Em alguns casos, a sequência de repetição direta é pelo menos 10, pelo menos 15, pelo menos 16, pelo menos 17, pelo menos 18, pelo menos 19, pelo menos 20, pelo menos 21, pelo menos 22, pelo menos 23, pelo menos 24, pelo menos 25, pelo menos 26, pelo menos 27, pelo menos 28, pelo menos 29, pelo menos 30, pelo menos 35, pelo menos 40, pelo menos 45, pelo menos 50, pelo menos 55, pelo menos 56, pelo menos 57, pelo menos 58, pelo menos 59, pelo menos 60, pelo menos 61, pelo menos 62, pelo menos 63, pelo menos 64, pelo menos 65 ou pelo menos 70 nucleotídeos de comprimento. Em alguns casos, a sequência de repetição direta não é superior a 70, 65, 64, 63, 62, 61, 60, 59, 58, 57, 56, 55, 50, 45, 40, 35, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 15, 10 ou menos nucleotídeos de comprimento. Em certas modalidades, a sequência de repetição direta tem 55-70 nucleotídeos de comprimento, tais como 55-65 nucleotídeos, tais como 60-65 nucleotídeos, tais como 62-65 nucleotídeos, tais como 63-64 nucleotídeos. Em certas modalidades, a sequência de repetição direta tem 15-30 nucleotídeos de comprimento, tais como 15-25 nucleotídeos, tais como 20-25 nucleotídeos, tais como 22-24 nucleosídeos, tais como 23 nucleotídeos. Em algumas modalidades, a sequência de repetição direta não tem menos que 32 nt de comprimento, por exemplo, 32 nt - 37 nt.

[0226] Tal como aqui utilizado, o termo "complexo CRISPR/Cas" se refere a um complexo de ribonucleoproteína formado pela combinação de RNA guia ou crRNA maduro e proteína Cas, que contém uma sequência guia que hibridiza com a sequência alvo e se liga à proteína Cas. O complexo de ribonucleoproteína pode reconhecer e clivar polinucleotídeos que podem hibridizar com o RNA guia ou crRNA maduro.

[0227] Portanto, no caso de formar um complexo CRISPR/Cas, a "sequência alvo" se refere a um polinucleotídeo que é direcionado por uma sequência guia projetada para ter direcionamento, por exemplo, uma sequência que é complementar à sequência guia, em que a hibridização entre a sequência alvo e a sequência guia promoverá a formação do complexo CRISPR/Cas. Complementaridade completa não é necessária, desde que haja complementaridade suficiente para causar a hibridização e promover a formação de um complexo CRISPR/Cas. A sequência alvo pode compreender qualquer polinucleotídeo, tal como DNA ou RNA. Em alguns casos, a sequência alvo está localizada no núcleo ou citoplasma da célula. Em alguns casos, a sequência alvo pode estar localizada em uma organela de uma célula eucariótica, tal como mitocôndria ou cloroplasto. A sequência ou molde que pode ser usado para ser recombinado no locus alvo contendo a sequência alvo é referido como "molde de edição" ou "polinucleotídeo de edição" ou "sequência de edição". Em certas modalidades, o modelo de edição é um ácido nucleico exógeno. Em certas modalidades, a recombinação é uma recombinação homóloga.

[0228] Na presente invenção, a expressão "sequência alvo" ou "polinucleotídeo alvo" pode ser qualquer polinucleotídeo endógeno ou exógeno para uma célula (por exemplo, uma célula eucariótica). Por exemplo, o polinucleotídeo alvo pode ser um polinucleotídeo presente no núcleo de uma célula eucariótica. O polinucleotídeo alvo pode ser uma sequência que codifica um produto genético (por exemplo, proteína) ou uma sequência de não codificação (por exemplo, polinucleotídeo regulador ou DNA inútil). Em alguns casos, acredita-se que a sequência alvo deva estar relacionada ao motivo adjacente ao protoespaçador (PAM). A sequência exata e os requisitos de comprimento para PAM variam dependendo da enzima efetora Cas usada, mas PAM é tipicamente uma sequência de 2-5 pares de base adjacente ao protoespaçador (isto é, a sequência alvo). Os versados na técnica são capazes de identificar a sequência de PAM a ser usada com uma dada proteína efetora de Cas.

[0229] Em alguns casos, a sequência alvo ou polinucleotídeo alvo pode incluir vários genes e polinucleotídeos relacionados à doença e genes e polinucleotídeos relacionados à via bioquímica de transdução de sinal. Exemplos não limitativos de tais sequências alvo ou polinucleotídeos alvo incluem aqueles listados nos Pedidos de Patente Provisionais U.S. 61/736.527 e 61/748.427 depositados em 12 de Dezembro de 2012 e 2 de Janeiro de 2013, respectivamente, e o pedido internacional PCT/US2013/074667 depositado em 12 de Dezembro de 2013, que são todos incorporados aqui por referência.

[0230] Em alguns casos, os exemplos de uma sequência alvo ou um polinucleotídeo alvo incluem uma sequência relacionada a vias bioquímicas de transdução de sinal, tal como um gene ou polinucleotídeo relacionado à via bioquímica de transdução de sinal. Exemplos de um polinucleotídeo alvo incluem um gene ou polinucleotídeo relacionado à doença. O gene ou polinucleotídeo "relacionado à doença" se refere a qualquer gene ou polinucleotídeo que produz produtos de transcrição ou tradução em níveis anormais ou em formas anormais em células derivadas de tecidos afetados pela doença, em comparação com tecidos ou células de não controle de doença. No caso em que a expressão alterada está relacionada ao aparecimento e/ou progressão da doença, a mesma pode ser um gene expresso em um nível anormalmente alto; ou pode ser um gene expresso em um nível anormalmente baixo. O gene relacionado à doença também se refere a genes que possuem uma ou mais mutações ou variações genéticas que são diretamente responsáveis por um desequilíbrio de ligação genética com um ou mais genes responsáveis pela etiologia da doença. O produto transcrito ou traduzido pode ser conhecido ou desconhecido e pode estar em níveis normais ou anormais.

[0231] Tal como aqui utilizado, o termo "tipo selvagem" tem o significado comumente entendido por aqueles versados na técnica, o que significa uma forma típica de organismos, cepas, genes ou características que o distinguem de mutantes ou formas variantes quando existe na natureza, pode ser isolado de fontes naturais e não foi modificado deliberadamente.

[0232] Conforme usado aqui, os termos "ocorrência não natural" ou "modificado" podem ser usados indistintamente e referem-se a envolvimento artificial. Quando estes termos são usados para descrever uma molécula de ácido nucleico ou polipeptídeo, isso significa que a molécula de ácido nucleico ou polipeptídeo é, pelo menos, substancialmente livre de, pelo menos, outro componente ao qual se ligam na natureza ou como encontrado na natureza.

[0233] Conforme usado aqui, o termo "ortólogo (ortólogo)" tem o significado comumente entendido por aqueles versados na técnica. Como uma orientação adicional, o "ortólogo" da proteína, conforme descrito aqui, se refere a proteínas pertencentes a espécies diferentes, que desempenham funções iguais ou similares às das proteínas que atuam como seus ortólogos.

[0234] Tal como aqui utilizado, o termo "identidade" é utilizado para se referir à correspondência de sequências entre dois polipeptídeos ou entre dois ácidos nucleicos. Quando uma determinada posição nas duas sequências a serem comparadas é ocupada pela mesma base ou subunidade de monômero de aminoácido (por exemplo, uma certa posição em cada uma das duas moléculas de DNA é ocupada pela adenina, ou uma certa posição em cada um dos dois peptídeos é ocupada por lisina), em seguida, as moléculas são idênticas nessa posição. A "porcentagem de identidade" entre duas sequências é uma função do número de posições correspondentes compartilhadas pelas duas sequências divididas pelo número de posições a serem comparadas × 100. Por exemplo, se 6 de 10 posições em duas sequências corresponderem, em seguida, as duas sequências têm 60% de identidade. Por exemplo, as sequências de DNA, CTGACT e CAGGTT compartilham 50% de identidade (3 de 6 posições totais correspondem). Geralmente, a comparação é feita quando duas sequências estão alinhadas para produzir identidade máxima. Esse alinhamento pode ser alcançado usando, por exemplo, o método de Needleman et al. (1970) J. Mol. Biol. 48: 443-453, que pode ser convenientemente executado por um programa de computador, tal como o programa Align (DNAstar, Inc.). Também é possível usar o algoritmo de E. Meyers and W. Miller (Comput. Appl Biosci., 4: 11-17 (1988)) integrado no programa ALIGN (versão 2.0), usando a tabela de resíduos de peso PAM120, uma penalidade de comprimento de lacuna de 12 e uma penalidade de lacuna de 4 para determinar a identidade percentual entre duas sequências de aminoácidos. Além disso, o algoritmo Needleman and Wunsch (J MoI Biol. 48: 444-453 (1970)) no programa GAP integrado no pacote de software GCG (disponível em www.gcg.com) pode ser usado, a matriz Blossum 62 ou Matriz PAM250 e pesos de lacuna de 16, 14, 12, 10, 8, 6 ou 4 e pesos de comprimento de 1, 2, 3, 4, 5 ou 6 para determinar a identidade percentual entre duas sequências de aminoácidos.

[0235] Conforme usado aqui, o termo "vetor" se refere a um veículo de administração de ácido nucleico no qual um polinucleotídeo pode ser inserido. Quando o vetor pode expressar a proteína codificada pelo polinucleotídeo inserido, o vetor é denominado um vetor de expressão. O vetor pode ser introduzido na célula hospedeira por meio de transformação, transdução ou transfecção, de modo que os elementos do material genético que ele carrega possam ser expressos na célula hospedeira. O vetor é bem conhecido por aqueles versados na técnica, incluindo mas não limitado a: um plasmídeo; fagemídeo; cosmídeo; cromossomo artificial, tal como cromossomo artificial de levedura (YAC), cromossomo artificial bacteriano (BAC) ou cromossomo artificial derivado de P1 (PAC); bacteriófago, tal como um bacteriófago lambda ou bacteriófago M13 e vírus animal. Um vírus animal que pode ser usado como um vetor inclui, mas não está limitado a um retrovírus (incluindo um lentivírus), adenovírus, vírus adeno-associado, vírus da herpes (tal como, vírus da herpes simplex), poxvírus, baculovírus, vírus do papiloma, e papovavírus (tal como, SV40). Um vetor pode conter uma variedade de elementos que controla a expressão, incluindo mas não limitado a uma sequência promotora, sequência de iniciação de transcrição, sequência intensificadora, elemento de seleção e gene repórter. Além disso, o vetor também pode conter uma origem de replicação.

[0236] Tal como aqui utilizado, o termo "célula hospedeira" se refere a uma célula que pode ser usada para introduzir um vetor, que inclui, mas não está limitado a uma célula procariótica, tal como Escherichia coli ou Bacillus subtilis e similares, uma célula fúngica, tal como como uma célula de levedura ou Aspergillus, etc., uma célula de inseto, tal como uma célula de Drosophila S2 ou Sf9, etc., ou uma célula animal, tal como um fibroblasto, célula CHO, célula COS, célula NSO, célula HeLa, célula BHK, célula HEK 293 ou célula humana, etc.

[0237] Os versados na técnica entenderão que o projeto do vetor de expressão pode depender de fatores, tal como a seleção da célula hospedeira a ser transformada, o nível de expressão desejado e similares. Um vetor pode ser introduzido em uma célula hospedeira para, desse modo, produzir transcritos, proteínas ou peptídeos, incluindo proteínas, proteínas de fusão, moléculas de ácido nucleico isoladas, etc. conforme descrito aqui (por exemplo, transcritos CRISPR, tais como transcritos de ácido nucleico, proteínas ou enzimas).

[0238] Tal como aqui utilizado, o termo "elemento regulador" destina- se a incluir um promotor, intensificador, local de entrada do ribossoma interno

(IRES) e outros elementos de controle de expressão (por exemplo, sinais de terminação de transcrição, tais como sinais de poliadenilação e sequência Poli U), para uma descrição detalhada, favor consultar Goeddel, "GENE EXPRESSION TECHNOLOGY: METHOD IN ENZYMOLOGY" 185, Academic Press, San Diego, Califórnia (1990). Em alguns casos, o elemento regulador inclui aqueles que direcionam a expressão constitutiva de uma sequência de nucleotídeos em muitos tipos de células hospedeiras e aqueles que direcionam a expressão da sequência de nucleotídeos apenas em certas células hospedeiras (por exemplo, sequência reguladora específica de tecido). Um promotor específico de tecido pode direcionar principalmente a expressão em tecidos de interesse desejados, tais como músculos, neurônios, ossos, pele, sangue, órgãos específicos (tais como fígado, pâncreas) ou tipos de células específicos (tais como, linfócitos). Em alguns casos, o elemento regulador também pode direcionar a expressão em um modo dependente de tempo (tal como, em um modo dependente do ciclo celular ou dependente do estágio de desenvolvimento), que pode ser ou não específico do tecido ou tipo de célula. Em alguns casos, o termo "elemento regulador" abrange um elemento intensificador, como WPRE; intensificador de CMV; fragmento R-U5' no LTR de HTLV-I ((Mol. Cell. Biol., Volume 8 (1), Pages 466-472, 1988); intensificador de SV40; e a sequência de íntron entre os exons 2 e 3 do coelho β-globin (Proc. Natl. Acad. Sci. USA., Vol. 78 (3), pp. 1527-31, 1981).

[0239] Tal como aqui utilizado, o termo "promotor" tem o significado bem conhecido por aqueles versados na técnica, o qual se refere a uma sequência de nucleotídeos de não codificação localizada a montante de um gene e capaz de promover a expressão do gene a jusante. Um promotor constitutivo é essa sequência de nucleotídeo: quando está operacionalmente ligada a um polinucleotídeo que codifica ou define um produto genético, leva à produção de um produto genético na célula na maioria ou em todas as condições fisiológicas da célula. Um promotor indutível é uma sequência de nucleotídeos que, quando operacionalmente ligada a um polinucleotídeo que codifica ou define um produto genético, basicamente apenas quando um indutor correspondente ao promotor está presente na célula, leva ao produto genético a ser produzido na célula. Um promotor específico de tecido é uma sequência de nucleotídeos que, quando operacionalmente ligada a um polinucleotídeo que codifica ou define um produto genético, basicamente apenas quando a célula é uma célula do tipo de tecido correspondente ao promotor, leva à produção de produtos genéticos na célula.

[0240] Tal como aqui utilizado, o termo "operacionalmente ligado" pretende significar que a sequência de nucleotídeos de interesse está ligada a um ou mais elementos reguladores de uma maneira que permite a expressão da sequência de nucleotídeos (por exemplo, em um sistema de transcrição/tradução in vitro ou quando o vetor é introduzido na célula hospedeira, está na célula hospedeira).

[0241] Tal como aqui utilizado, o termo "complementaridade" se refere à capacidade de um ácido nucleico de formar uma ou mais ligações de hidrogênio com outra sequência de ácidos nucleicos por meio de Watson-Crick tradicional ou outros tipos não tradicionais. A porcentagem de complementaridade representa a porcentagem de resíduos em uma molécula de ácido nucleico que pode formar ligações de hidrogênio (por exemplo, emparelhamento de base de Watson-Crick) com uma segunda sequência de ácidos nucleicos (por exemplo, 5, 6, 7, 8, 9, 10 de 10 são 50%, 60%, 70%, 80%, 90% e 100% complementares). "Completamente complementar" significa que todos os resíduos consecutivos de uma sequência de ácidos nucleicos formam ligações de hidrogênio com o mesmo número de resíduos consecutivos em uma segunda sequência de ácidos nucleicos. Tal como aqui utilizado, "substancialmente complementar" significa que existem pelo menos 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 97%, 98%, 99% ou 100% grau de complementaridade em uma região de 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50 ou mais nucleotídeos, ou se refere a dois ácidos nucleicos que hibridizam sob condições rigorosas.

[0242] Tal como aqui utilizado, "condições rigorosas" para hibridação referem-se a condições sob as quais um ácido nucleico tendo complementaridade com uma sequência alvo hibridiza principalmente com a sequência alvo e substancialmente não hibridiza com uma sequência não alvo. As condições rigorosas geralmente dependem da sequência e variam de acordo com muitos fatores. De um modo geral, quanto mais longa for a sequência, maior será a temperatura à qual a sequência hibridiza especificamente com a sua sequência alvo. Exemplos não limitantes de condições rigorosas são descritos em "Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization

With Nucleic Acid Probes" por Tijssen (1993), Parte I, Chapter 2, "Overview of principles of hybridization and the strategy of nucleic acid probe assay", Elsevier, New York.

[0243] Tal como aqui utilizado, o termo "hibridação" se refere a uma reação em que um ou mais polinucleotídeos reagem para formar um complexo que é estabilizado por ligação de hidrogênio de bases entre esses resíduos de nucleotídeos. A ligação de hidrogênio pode ocorrer por meio de emparelhamento de bases Watson-Crick, ligação de Hoogstein ou de qualquer outra maneira específica para a sequência. O complexo pode compreender dois filamentos formando um duplex, três ou mais filamentos formando um complexo de múltiplos filamentos, um único filamento auto-hibridizante ou qualquer combinação dos mesmos. A reação de hibridação pode constituir uma etapa de um processo mais amplo (tal como, o início da PCR ou a clivagem de polinucleotídeos por uma enzima). Uma sequência que pode hibridizar com uma determinada sequência é chamada de "complemento" da determinada sequência.

[0244] Tal como aqui utilizado, o termo "expressão" se refere ao processo pelo qual o molde de DNA é transcrito em polinucleotídeos (tal como, mRNA ou outros transcritos de RNA) e/ou o processo pelo qual o mRNA transcrito é subsequentemente traduzido em peptídeos, polipeptídeos ou proteínas. O transcrito e o polipeptídeo codificado podem ser referidos coletivamente como um "produto genético". Se o polinucleotídeo for derivado de um DNA genômico, a expressão pode incluir excisão-união de mRNA em células eucarióticas.

[0245] Conforme usado aqui, o termo "ligante" se refere a um polipeptídeo linear formado por múltiplos resíduos de aminoácidos conectados por ligações peptídicas. O ligante da presente invenção pode ser uma sequência de aminoácidos sintetizada artificialmente ou uma sequência polipeptídica de ocorrência natural, tal como um polipeptídeo tendo a função de uma região de articulação. Esses polipeptídeos ligantes são bem conhecidos na técnica (ver, por exemplo, Holliger, P. et al. (1993) Proc. Natl. Acad. Sci. USA 90: 6444-6448; Poljak, R.J. et al. (1994) Structure 2: 1121-1123).

[0246] Tal como aqui utilizado, o termo "tratamento" se refere a tratar ou curar uma desordem, retardar o início dos sintomas da desordem e/ou retardar o desenvolvimento da desordem.

[0247] Tal como aqui utilizado, o termo "indivíduo" inclui, mas não está limitado a, vários animais, tais como mamíferos, por exemplo, bovinos, equinos, caprídeos, suínos, caninos, felinos, animais leporídeos, roedores (por exemplo, camundongos ou ratos), primatas não humanos (por exemplo, macacos ou cinomolgos) ou seres humanos. Em certas modalidades, o indivíduo (por exemplo, ser humano) tem uma desordem (por exemplo, uma desordem causada por um defeito genético relacionado a uma doença). Os efeitos benéficos da presente invenção

[0248] Em comparação com a técnica anterior, a proteína Cas e o sistema da presente invenção têm vantagens significativas. Por exemplo, a proteína efetora de Cas da presente invenção tem uma tolerância de incompatibilidade estrita, o que torna possível ter uma menor taxa fora do alvo. Por exemplo, a proteína efetora de Cas da presente invenção tem um método de reconhecimento de PAM mais rigoroso, reduzindo assim significativamente os efeitos fora do alvo. Descrição dos desenhos

[0249] A Figura 1 mostra um resultado de eletroforese em gel do processamento de pré-crRNA pela proteína cas12j.

[0250] As Figuras 2A-2B mostram um resultado das análises do domínio PAM da proteína cas12j.

[0251] A Figura 3 mostra um resultado de identificação do método de corte de DNA do sistema CRISPR/Cas12j.

[0252] A Figura 4 mostra um resultado das análises do local de clivagem in vitro de Cas12j.4, Cas12j.19 e Cas12j.22.

[0253] A Figura 5 mostra um resultado da atividade de digestão in vitro de Cas12j.19 em diferentes temperaturas.

[0254] A Figura 6 mostra um resultado do efeito de diferentes comprimentos de espaçador na atividade de clivagem da enzima no sistema CRISPR/Cas12j.19.

[0255] A Figura 7 mostra um resultado do efeito de diferentes comprimentos de repetição na atividade de clivagem da enzima no sistema CRISPR/Cas12j.19. WT representa uma sequência de repetição sem truncamento.

[0256] A Figura 8 mostra um resultado da tolerância do sistema CRISPR/Cas12j.19 a incompatibilidades do espaçador. WT representa uma sequência espaçadora sem mutação. Informação de sequência

[0257] A informação da sequência parcial envolvida na presente invenção é fornecida na Tabela 1 abaixo. Tabela 1: Descrição da sequência SEQ ID NO: Descrição 1 sequência de aminoácidos de Cas12j.3 2 sequência de aminoácidos de Cas12j.4 3 sequência de aminoácidos de Cas12j.5 4 sequência de aminoácidos de Cas12j.6 5 sequência de aminoácidos de Cas12j.7 6 sequência de aminoácidos de Cas12j.8 7 sequência de aminoácidos de Cas12j.9 8 sequência de aminoácidos de Cas12j.10 9 sequência de aminoácidos de Cas12j.11 10 sequência de aminoácidos de Cas12j.12 11 sequência de aminoácidos de Cas12j.13 12 sequência de aminoácidos de Cas12j.14 13 sequência de aminoácidos de Cas12j.15 14 sequência de aminoácidos de Cas12j.16 15 sequência de aminoácidos de Cas12j.17 16 sequência de aminoácidos de Cas12j.18 17 sequência de aminoácidos de Cas12j.19 18 sequência de aminoácidos de Cas12j.20 19 sequência de aminoácidos de Cas12j.21 20 sequência de aminoácidos de Cas12j.22 uma sequência de ácidos nucleicos de codificação de 21 Cas12j.3 uma sequência de ácidos nucleicos de codificação de 22 Cas12j.4 23 uma sequência de ácidos nucleicos de codificação de

Cas12j.5 uma sequência de ácidos nucleicos de codificação de 24 Cas12j.6 uma sequência de ácidos nucleicos de codificação de 25 Cas12j.7 uma sequência de ácidos nucleicos de codificação de 26 Cas12j.8 uma sequência de ácidos nucleicos de codificação de 27 Cas12j.9 uma sequência de ácidos nucleicos de codificação de 28 Cas12j.10 uma sequência de ácidos nucleicos de codificação de 29 Cas12j.11 uma sequência de ácidos nucleicos de codificação de 30 Cas12j.12 uma sequência de ácidos nucleicos de codificação de 31 Cas12j.13 uma sequência de ácidos nucleicos de codificação de 32 Cas12j.14 uma sequência de ácidos nucleicos de codificação de 33 Cas12j.15 uma sequência de ácidos nucleicos de codificação de 34 Cas12j.16 uma sequência de ácidos nucleicos de codificação de 35 Cas12j.17 uma sequência de ácidos nucleicos de codificação de 36 Cas12j.18 uma sequência de ácidos nucleicos de codificação de 37 Cas12j.19 uma sequência de ácidos nucleicos de codificação de 38 Cas12j.20 uma sequência de ácidos nucleicos de codificação de 39 Cas12j.21 uma sequência de ácidos nucleicos de codificação de 40 Cas12j.22 41 sequência de repetição direta do protótipo Cas12j.3 42 sequência de repetição direta do protótipo Cas12j.4 43 sequência de repetição direta do protótipo Cas12j.5 44 sequência de repetição direta do protótipo Cas12j.6 45 sequência de repetição direta do protótipo Cas12j.7 46 sequência de repetição direta do protótipo Cas12j.8 47 sequência de repetição direta do protótipo Cas12j.9 48 sequência de repetição direta do protótipo Cas12j.10 49 sequência de repetição direta do protótipo Cas12j.11 50 sequência de repetição direta do protótipo Cas12j.12 51 sequência de repetição direta do protótipo Cas12j.13 52 sequência de repetição direta do protótipo Cas12j.14 53 sequência de repetição direta do protótipo Cas12j.15 54 sequência de repetição direta do protótipo Cas12j.16 55 sequência de repetição direta do protótipo Cas12j.17 56 sequência de repetição direta do protótipo Cas12j.18 57 sequência de repetição direta do protótipo Cas12j.19 58 sequência de repetição direta do protótipo Cas12j.20 59 sequência de repetição direta do protótipo Cas12j.21 60 sequência de repetição direta do protótipo Cas12j.22 uma sequência de ácidos nucleicos de codificação da 61 sequência de repetição direta do protótipo Cas12j.3 uma sequência de ácidos nucleicos de codificação da 62 sequência de repetição direta do protótipo Cas12j.4 uma sequência de ácidos nucleicos de codificação da 63 sequência de repetição direta do protótipo Cas12j.5 uma sequência de ácidos nucleicos de codificação da 64 sequência de repetição direta do protótipo Cas12j.6 uma sequência de ácidos nucleicos de codificação da 65 sequência de repetição direta do protótipo Cas12j.7 66 uma sequência de ácidos nucleicos de codificação da sequência de repetição direta do protótipo Cas12j.8 uma sequência de ácidos nucleicos de codificação da 67 sequência de repetição direta do protótipo Cas12j.9 uma sequência de ácidos nucleicos de codificação da 68 sequência de repetição direta do protótipo Cas12j.10 uma sequência de ácidos nucleicos de codificação da 69 sequência de repetição direta do protótipo Cas12j.11 uma sequência de ácidos nucleicos de codificação da 70 sequência de repetição direta do protótipo Cas12j.12 uma sequência de ácidos nucleicos de codificação da 71 sequência de repetição direta do protótipo Cas12j.13 uma sequência de ácidos nucleicos de codificação da 72 sequência de repetição direta do protótipo Cas12j.14 uma sequência de ácidos nucleicos de codificação da 73 sequência de repetição direta do protótipo Cas12j.15 uma sequência de ácidos nucleicos de codificação da 74 sequência de repetição direta do protótipo Cas12j.16 uma sequência de ácidos nucleicos de codificação da 75 sequência de repetição direta do protótipo Cas12j.17 uma sequência de ácidos nucleicos de codificação da 76 sequência de repetição direta do protótipo Cas12j.18 uma sequência de ácidos nucleicos de codificação da 77 sequência de repetição direta do protótipo Cas12j.19 uma sequência de ácidos nucleicos de codificação da 78 sequência de repetição direta do protótipo Cas12j.20 uma sequência de ácidos nucleicos de codificação da 79 sequência de repetição direta do protótipo Cas12j.21 uma sequência de ácidos nucleicos de codificação da 80 sequência de repetição direta do protótipo Cas12j.22 81 Sequência NLS uma sequência de aminoácidos de proteína de fusão 82 Cas12j.3-NLS 83 uma sequência de aminoácidos de proteína de fusão

Cas12j.4-NLS uma sequência de aminoácidos de proteína de fusão 84 Cas12j.5-NLS uma sequência de aminoácidos de proteína de fusão 85 Cas12j.6-NLS uma sequência de aminoácidos de proteína de fusão 86 Cas12j.7-NLS uma sequência de aminoácidos de proteína de fusão 87 Cas12j.8-NLS uma sequência de aminoácidos de proteína de fusão 88 Cas12j.9-NLS uma sequência de aminoácidos de proteína de fusão 89 Cas12j.10-NLS uma sequência de aminoácidos de proteína de fusão 90 Cas12j.11-NLS uma sequência de aminoácidos de proteína de fusão 91 Cas12j.12-NLS uma sequência de aminoácidos de proteína de fusão 92 Cas12j.13-NLS uma sequência de aminoácidos de proteína de fusão 93 Cas12j.14-NLS uma sequência de aminoácidos de proteína de fusão 94 Cas12j.15-NLS uma sequência de aminoácidos de proteína de fusão 95 Cas12j.16-NLS uma sequência de aminoácidos de proteína de fusão 96 Cas12j.17-NLS uma sequência de aminoácidos de proteína de fusão 97 Cas12j.18-NLS uma sequência de aminoácidos de proteína de fusão 98 Cas12j.19-NLS uma sequência de aminoácidos de proteína de fusão 99 Cas12j.20-NLS uma sequência de aminoácidos de proteína de fusão 100 Cas12j.21-NLS uma sequência de aminoácidos de proteína de fusão 101 Cas12j.22-NLS 102 plasmídeo que expressa o sistema Cas12j.3 103 sequência de biblioteca PAM 104 processamento pré-crRNA e RNA guia de consumo de PAM 105 RNA guia Cas12j.19 106 sequência de DNA de filamento duplo alvo 107 sequência de aminoácidos Cas12j.1 108 sequência de aminoácidos Cas12j.2 Descrição detalhada

[0258] A invenção será agora descrita com referência aos seguintes exemplos que são destinados a ilustrar a presente invenção em vez de limitar a presente invenção.

[0259] A menos que especificado de outra forma, os experimentos e métodos descritos nos exemplos são basicamente realizados de acordo com métodos convencionais bem conhecidos na técnica e descritos em várias referências. Por exemplo, técnicas convencionais, tais como imunologia, bioquímica, química, biologia molecular, microbiologia, biologia celular, genômica e DNA recombinante, usadas na presente invenção podem ser encontradas em Sambrook, Fritsch and Maniatis, " MOLECULAR CLONING: A LABORATORY MANUAL", 2nd edition (1989); “CURRENT PROTOCOLS IN MOLECULAR BIOLOGY” (edited by F.M. Ausubel et al., (1987)); "METHODS IN ENZYMOLOGY" series (Academic Publishing Company): "PCR 2: A PRACTICAL APPROACH" (edited by M.J. MacPherson, BD Hames and G.R. Taylor (1995)), "ANTIBODIES, A LABORATORY MANUAL", edited by Harlow and Lane ( 1988), and "ANIMAL CELL CULTURE" (edited by R.I.Freshney (1987)).

[0260] Além disso, se as condições específicas não forem especificadas nos exemplos, as mesmas devem ser realizadas de acordo com as condições convencionais ou com as condições recomendadas pelo fabricante. Os reagentes ou instrumentos usados sem a indicação do fabricante são todos produtos convencionais que podem ser adquiridos comercialmente. Os versados na técnica sabem que as modalidades descrevem a presente invenção a título de exemplo e não são destinadas a limitar o escopo de proteção reivindicado pela presente invenção. Todas as publicações e outras referências mencionadas neste artigo são incorporadas neste artigo por referência em sua totalidade.

[0261] As fontes de alguns reagentes envolvidos nos exemplos a seguir são as seguintes: Meio líquido LB: 10 g de Triptona, 5 g de Extrato de Levedura, 10 g de NaCl, diluídos para 1 L e esterilizados. Se forem necessários antibióticos, eles são adicionados em uma concentração final de 50 μg/ml após resfriamento do meio. Clorofórmio/álcool isoamílico: adicionar 240 ml de clorofórmio a 10 ml de álcool isoamílico e misturar bem. Tampão RNP: 100 mM de cloreto de sódio, 50 mM de Tris-HCl, 10 mM de MgCl2, 100 μg/ml de BSA, pH 7,9.

[0262] Os vetores de expressão procarióticos pACYC-Duet-1 e pUC19 são adquiridos de Genscript Biotech Corporation.

[0263] A competência EC100 de E. coli é adquirida da empresa Epicenter. Exemplo 1. Aquisição do gene Cas12j e RNA guia Cas12j

1. CRISPR e anotação de gene: usar Prodigal para realizar anotação de gene no genoma microbiano e dados metagenômicos de bancos de dados NCBI e JGI para obter todas as proteínas. Ao mesmo tempo, usar Piler-CR para anotar o locus CRISPR. Os parâmetros são os parâmetros padrão.

2. Filtragem de proteínas: eliminar a redundância de proteínas anotadas por identidade de sequência, remover proteínas com sequência exatamente idêntica e, ao mesmo tempo, classificar proteínas com mais de 800 aminoácidos em proteínas macromoleculares. Como todas as proteínas efetoras do segundo tipo do sistema CRISPR/Cas descoberto até agora têm mais de 900 aminoácidos de comprimento, para reduzir a complexidade computacional, quando minerar proteínas efetoras CRISPR, são consideradas apenas proteínas macromoleculares maiores que 800 aminoácidos.

3. Obtenção de proteínas macromoleculares associadas a CRISPR:

extender cada locus CRISPR em 10 Kb a montante e a jusante, e identificar as proteínas macromoleculares não redundantes no intervalo adjacente CRISPR.

4. Agrupamento de proteínas macromoleculares associadas a CRISPR: usar BLASTP para realizar comparações com pares internos de proteínas associadas a CRISPR macromoleculares não redundantes, e produzir o resultado da comparação do valor E < 1E-10. Usar MCL para realizar análises de agrupamento no resultado de saída de BLASTP, família de proteína associada a CRISPR.

5. Identificação da família de proteína macromolecular enriquecida com CRISPR: usar BLASTP para comparar as proteínas da família de proteína associada a CRISPR com o banco de dados de proteína macromolecular não redundante que remove as proteínas associadas a CRISPR e produz o resultado da comparação do valor E < 1E-10. Se a proteína homóloga encontrada em um banco de dados de proteína não associada a CRISPR for inferior a 100%, significa que as proteínas desta família estão enriquecidas na região CRISPR. Desta forma, é identificada a família de proteína macromolecular enriquecida com CRISPR.

6. Anotação de funções e domínios de proteínas: usar o banco de dados Pfam, banco de dados NR e proteína Cas coletada de NCBI para anotar a família de proteína macromolecular enriquecida com CRISPR para obter uma nova família de proteínas CRISPR/Cas. Usar Mafft para realizar múltiplos alinhamentos de sequência para cada proteína da família CRISPR/Cas e, em seguida, usar JPred e HHpred para realizar análises de domínio conservadas para identificar famílias de proteínas contendo domínios RuvC.

[0264] Nesta base, os presentes inventores obtiveram uma nova proteína efetora de Cas, nomeadamente Cas12j, denominada Cas12j.3 (SEQ ID NO: 1), Cas12j.4 (SEQ ID NO: 2), Cas12j.5 (SEQ ID NO: 3), Cas12j.6 (SEQ ID NO: 4), Cas12j.7 (SEQ ID NO: 5), Cas12j.8 (SEQ ID NO: 6), Cas12j.9 (SEQ ID NO: 7), Cas12j.10 (SEQ ID NO: 8), Cas12j.11 (SEQ ID NO: 9), Cas12j.12 (SEQ ID NO: 10), Cas12j.13 (SEQ ID NO: 11), Cas12j.14 (SEQ ID NO: 12), Cas12j.15 (SEQ ID NO: 13), Cas12j.16 (SEQ ID NO: 14), Cas12j.17 (SEQ ID NO: 15), Cas12j.18 (SEQ ID NO: 16), Cas12j.19 (SEQ ID NO: 17), Cas12j.20 (SEQ ID NO: 18), Cas12j.21 (SEQ ID NO: 19), Cas12j.22 (SEQ ID NO: 20), Cas12j.1 (SEQ ID NO: 107), Cas12j.2 (SEQ ID NO: 108), respectivamente com suas 22 sequências homólogas ativas. O DNA de codificação de 20 homólogos é mostrado em SEQ ID NOs: 21-40, respectivamente. As sequências de repetição direta do protótipo (sequências de repetição contidas no pré-crRNA) correspondendo a Cas12j.3, Cas12j.4, Cas12j.5, Cas12j.6, Cas12j.7, Cas12j.8, Cas12j.9, Cas12j.10, Cas12j. 11, Cas12j.12, Cas12j.13, Cas12j.14, Cas12j. 15, Cas12j.16, Cas12j.17, Cas12j.18, Cas12j.19, Cas12j.20 são mostradas em SEQ ID NOs: 41-60, respectivamente. Exemplo 2. Processamento de pré-crRNA pelo gene Cas12j I. Expressão e purificação in vitro da proteína Cas12j

[0265] As etapas específicas de expressão e purificação in vitro da proteína Cas12j foram as seguintes:

1. Sequência de DNA sintetizada artificialmente que codifica a proteína Cas12j (SEQ ID NO: 82-101) com sinal de localização nuclear.

2. Conectar a molécula de DNA de filamento duplo sintetizada na etapa 1 com o vetor de expressão procariótica pET-30a (+) para obter um plasmídeo recombinante pET-30a-CRISPR/Cas12j.

3. Introdução do plasmídeo recombinante pET-30a-CRISPR/Cas12j em E. coli EC100 para obter uma bactéria recombinante, que é denominada EC100-CRISPR/Cas12j.

[0266] Tomando um único clone de EC100-CRISPR/Cas12j, inoculando-o em 100 mL de meio líquido LB (contendo 50 μg/mL de ampicilina), cultivando-o com agitação a 37°C e 200 rpm durante 12 h para obter um líquido de cultura de bactérias.

4. Tomando o líquido de cultura de bactérias, inoculado em 50 mL de meio líquido LB (contendo 50 μg/mL de ampicilina) em uma relação de volume de 1:100, cultivado com agitação a 37°C e 200 rpm até que o valor de OD600nm seja 0,6, em seguida, adicionando IPTG e tornando a concentração 1 mM, cultivados com agitação a 28°C, 220 rpm durante 4 h, centrifugados a 4°C, 10000 rpm durante10 min, e a precipitação bacteriana foi coletada.

5. Tomando a precipitação bacteriana, adicionando 100 mL de pH 8,0, 100 mM de tampão Tris-HCl, submetidos à ultrassonicação após ressuspensão (potência ultrassônica de 600W, programa de ciclo: interrompido durante 4 s, interrompido durante 6 s, 20 min no total), em seguida, centrifugados em 4ºC,

10.000 rpm durante 10 min, coletando o sobrenadante A.

6. Tomando o sobrenadante A, centrifugado a 12000 rpm a 4°C durante 10 min, e o sobrenadante B foi coletado.

7. Usando a coluna de níquel produzida pela GE para purificar o sobrenadante B (consulte as instruções da coluna de níquel para as etapas de purificação específicas) e, em seguida, usar o kit de quantificação de proteína produzido ppr Thermo Fisher para quantificar a proteína Cas12j. II. Transcrição e purificação do RNA guia da proteína Cas12j:

1. Desenhar um modelo para a transcrição do RNA guia. A estrutura do modelo de transcrição é: promotor T7 + repetição do protótipo Cas12j (SEQ ID NO: 41-60) + espaçador (SEQ ID NO: 104), o projeto do iniciador usa o software Iniciador5.0 para garantir que o iniciador direto e o iniciador reverso tenham sequência de sobreposição de, pelo menos, 18 pb.

2. Configurar o seguinte sistema de reação, pipetado suavemente para misturar, centrifugado brevemente e recozido lentamente em uma máquina de PCR: Reação de amplificação de PCR Componente Volume (μl) Iniciador direto (100 nM) 7,5 Iniciador reverso (100 nM) 7,5 Mistura 2*KAPA 25 ddH2O 10 Volume total 50 Procedimento de reação de PCR de reconhecimento de iniciador Temperatura (ºC) Tempo Rampa em (ºC/s) 98ºC 5 min 2 ºC/s 85ºC/95ºC 0,05 s — 85ºC 1 min 0,03 ºC/s 75ºC/85ºC 0,05 s — 75ºC 1 min 0,03 ºC/s 72ºC/75ºC 0,05 s — 72ºC 1 min 0,03 ºC/s 55ºC /65ºC 0,05 s — 55ºC 1 min 0,03 ºC/s

45ºC /55ºC 0,05 s — 45ºC 1 min 0,03 ºC/s 35ºC /45ºC 0,05 s — 35ºC 1 min 0,03 ºC/s 30ºC /35ºC 0,05 s — 30ºC 1 min 0,03 ºC/s 25ºC 1 min — 10ºC Para sempre —

3. Usando o kit de purificação PCR MinElute para purificar o modelo. As etapas são as seguintes: 1) Adicionar 5 vezes o volume de PB ao produto de PCR, colocando uma coluna MinElute em um tubo de coleta de 2 ml e colocando-o em temperatura ambiente durante 2 min, 12000 g/2 min; 2) Descartar o líquido residual e adicionar 750 μl de tampão PE (lembre-se de adicionar etanol antes do uso), 12000 g/2 min; 3) Descartar o líquido residual, adicionando 350 μl de tampão PE, 12000 g/2 min, descartando o líquido residual, 12000 g, e centrifugando a vácuo durante 2 min; 4) Mudar a coluna MinElute para um novo tubo de centrífuga de 1,5 ml, abrindo a tampa e colocando-a a 65°C durante 2 minutos; 5) Adicionar 20 μl de solução EB preaquecida e colocá-la durante 2 min, 12000 g/2 min, a fim de melhorar a taxa de recuperação, o conteúdo do tubo de centrífuga pode ser passado através da coluna de centrifugação MinElute durante 2-3 vezes; 6) Medir a concentração com Nanodrop e armazenar a -20ºC, pronto para uso.

4. Purificação do RNA guia: fenol: clorofórmio: extração de álcool isoamílico (25: 24: 1) para remover DNAseI no sistema. 1) Adicionar 80 μl de H2O livre de RNA ao sistema de reação pós- transcrição e ajustar o volume para 100 μl; 2) Retirar 2 ml de Gel de bloqueio de fase pesada (PLG), 15000 g, centrifugar durante 2 min, adicionando 100 μl de fenol: clorofórmio: álcool isoamílico (25: 24: 1), 100 μl de RNA digerido com DNAseI, agitando suavemente o tubo de bloqueio de fase 5-10 vezes manualmente para misturar uniformemente e, em seguida, centrifugar a 15ºC/16000 g durante 12 min; 3) Retirar um novo tubo de centrífuga de 1,5 ml livre de RNA e aspirar o sobrenadante da centrifugação anterior para o tubo de centrífuga. Ter cuidado para não absorver o gel, adicionando isopropanol igual ao volume do sobrenadante e um décimo do volume da solução de acetato de sódio, bem misturado com a ponta da pipeta, colocando-o na geladeira a -20ºC durante 1 h ou durante a noite; 4) Centrifugar a 4ºC/16000 g durante 30 min, descartando o sobrenadante, adicionando 75% de etanol pré-resfriado, misturando bem o precipitado por pipetagem, centrifugado a 4ºC/16000 g durante 12 min, descartando o sobrenadante e colocado durante 2-3 min em um hote de aspiração. Secar o etanol na superfície do RNA, adicionando 100 μl de H2O livre de RNA e misturar por pipetagem. 5) Medir a concentração de crRNA purificado com Nanodrop e uniformemente diluir para 250 ng/μl, dispensar em 200 μl de tubos de centrífuga de PCR e armazenar a -80ºC, pronto para uso.

5. A transcrição de precrRNA de Cas12f usa o kit de síntese de RNA de alta eficiência HiScribe T7 da NEB. O sistema de reação é mostrado na seguinte tabela: Sistema de transcrição de DNA Componente Volume (μl) ATP(100 mM) 2 GTP(100 nM） 2 CTP（100 nM) 2 UTP(100 nM） 2 Tampão de reação 10* 2 Mistura de polimerase de RNA T7 2 Amostra de DNA 8 Total 20

[0267] Configurando o procedimento de reação de PCR como: 37ºC/3 h ou 31ºC/para sempre, adicionando DNAseI, 37ºC/45 min.

5. Purificação de precrRNA: (1) Fenol: clorofórmio: extração de álcool isoamílico (25: 24: 1)

para remover DNAseI no sistema 1) Adicionar 80 μl de H2O livre de RNA ao sistema de reação de pós- transcrição e ajustar o volume para 100 μl; 2) Retirar 2 ml de Gel de bloqueio de fase pesada (PLG), 15000 g, centrifugar durante 2 min, adicionar 100 μl de fenol: clorofórmio: álcool isoamílico (25: 24: 1), 100 μl de RNA digerido com DNAseI, agitar suavemente o tubo de bloqueio de fase manualmente 5-10 vezes para torná-lo uniformemente misturado e, em seguida, centrifugar a 15ºC/16000 g durante 12min; 3) Retirar um novo tubo de centrífuga de 1,5 ml livre de RNA e aspirar o sobrenadante da etapa ② para o tubo de centrífuga.

Ter cuidado para não pegar o gel, adicionar isopropanol igual ao volume do sobrenadante e um décimo do volume da solução de acetato de sódio, bem misturado com a ponta da pipeta, colocando-o na geladeira a -20ºC durante 1 h ou durante a noite; 4) Centrifugar a 4ºC/16000 g durante 30 min, descartar o sobrenadante, adicionar 75% de etanol pré-resfriado, misturar bem o precipitado por pipetagem, centrifugar a 4ºC/16000 g durante 12 min, descartar o sobrenadante e colocar durante 2-3 min em um hote de aspiração.

Secar o etanol na superfície do RNA, adicionar 100 μl de H2O livre de RNA e misturar por pipetagem. (2) Executar o gel e purificar o precrRNA do gel de poliacrilamida, usando o kit de recuperação ZR pequeno-RNATM PAGE de ZYMO RESEARCH para purificar e recuperar o precrRNA.

As etapas são mostradas a seguir: 1) O tamanho da banda do precrRNA é de cerca de 90 pb, cortando o fragmento de RNA da banda correspondente e transferindo-o para um tubo de centrífuga livre de RNA de 1,5 ml; 2) Usar SquisherTM único para esmagar completamente o gel, adicionar 400 μl de Tampão de Recuperação de RNA e aquecer em banho-maria a 65ºC durante 15 minutos; 3) Congelar rapidamente em nitrogênio líquido durante 5 minutos, retirando-o imediatamente e colocando-o em banho-maria a 65ºC para aquecer durante 5 minutos; 4) Retirar a coluna Zymo-SpinTM IV do tubo de coleta, em seguida, adicionar o gel dissolvido, centrifugar a 12000 g durante 5 minutos, e reter o líquido no tubo de coleta; 5) Retirar a coluna Zymo-SpinTM IIIC de um novo tubo de coleta, adicionar o líquido coletado na etapa anterior, centrifugar a 2.000 g durante 2 minutos e reter o líquido no tubo de coleta; 6) Estimar o volume de líquido no tubo de coleta, adicionar 2 vezes o volume do Tampão RNA MAX e misturar de cabeça para baixo; 7) Retirar a coluna Zymo-SpinTM IC em um novo tubo de coleta, adicionar o líquido do tubo de coleta da etapa ⑥ no mesmo, colocar durante 2 minutos e centrifugar a 12000 g durante 2 minutos; 8) Adicionar 800 μl de Tampão de Lavagem de RNA (observar que adicionar um determinado volume de etanol absoluto de acordo com as instruções antes do uso), centrifugar a 12000 g durante 2 min, e descartar o líquido no tubo de coleta; 9) Adicionar 400 μl de Tampão de Lavagem de RNA, centrifugar a 12000 g durante 2 min, descartar o líquido no tubo de coleta e, em seguida, centrifugar a vácuo durante 2 min; 10) Colocar em um forno a 65°C durante 1 min, adicionar 20 μl de H2O livre de RNA, medir a concentração do precrRNA coletado com nanodrop, e ajustar uniformemente a concentração para 200 ng/μl, dispensar em tubos de centrífuga de PCR e armazenar congelado em menos 80°C, pronto para uso.

6. Estabelecimento de um sistema de digestão pré-crRNA in vitro (1) Configurar o seguinte sistema de reação, misturar suavemente por pipetagem e centrifugar brevemente. Colocar a 37°C, 1 hora; Sistema de digestão pré-crRNA in vitro Reagente Dosagem pré-crRNA 400 ng Proteína de Cas 1 μg Tampão de clivagem de RNA 1 µL H2O livre de RNA Compensar a 10 µL (2) Adicionar 10 μl, 2 × corante de carga de RNA ao sistema de reação acima e colocar a 98°C durante 3 min. Colocar em gelo durante 2 min imediatamente após a reação ser concluída; (3) Carregar 10 μl na cavidade de amostra de 10% de gel de poliacrilamida TBE-Ureia, 150 V/40 min; (4) Adicionar corante de gel de ácido nucleico SYBR Gold ao tampão de eletroforese 1 × TBE, colocar no gel, corado em temperatura ambiente durante 10-15 minutos e, em seguida, escanear o gel.

[0268] Os resultados da varredura de gel são mostrados na Figura 1. O resultado mostra que Cas12j.1, Cas12j.4, Cas12j.18, Cas12j.19, Cas12j.21 e Cas12j.22 têm atividade de clivagem pré-crRNA in vitro. Exemplo 3. Identificação do domínio PAM da proteína Cas12j

1. Construção do plasmídeo recombinante pACYC-Duet-1 + CRISPR/Cas12j e sequenciamento de acordo com os resultados de sequenciamento, a estrutura do plasmídeo recombinante pACYC-Duet-1 + CRISPR/Cas12j é descrita como segue: substituindo o pequeno fragmento entre a endonuclease de restrição de sequências de reconhecimento de Pml I e Kpn I do vetor pACYC-Duet-1 com o gene Cas12j (na sequência mostrada em SEQ ID NO: 21-40, moléculas de DNA de filamento duplo da 1ª posição a partir da extremidade 5' para a última posição na extremidade 3'). O plasmídeo recombinante pACYC-Duet-1 + CRISPR/Cas12j expressa a proteína Cas12j (SEQ ID NO: 1-20, 107, 108) e o RNA guia Cas12j como mostrada em SEQ ID NO: 104.

2. O plasmídeo recombinante pACYC-Duet-1 + CRISPR/Cas12j contém um cassete de expressão e a sequência de nucleotídeos do cassete de expressão é composta do gene Cas12j ligado a SEQ ID NO: 104, respectivamente. Por exemplo, como mostrada em SEQ ID NO: 102. Na sequência como mostrada na SEQ ID NO: 102, as posições 1 a 44 da extremidade 5' são a sequência de nucleotídeos do promotor pLacZ, as posições 45 a 3056 são a sequência de nucleotídeos do gene Cas12j.3, e as posições 3057 a 3143 são a sequência de nucleotídeos do terminador rrnB T1 (usadas para terminar a transcrição). Da extremidade 5', as posições 3144 a 3178 são a sequência de nucleotídeos do promotor J23119, as posições 3179 a 3241 são a sequência de nucleotídeos da matriz CRISPR e as posições 3244 a 3268 são a sequência de nucleotídeos do terminador rrnB-T2 (usadas para terminar a transcrição).

3. Obtenção de Escherichia coli recombinante: o plasmídeo recombinante pACYC-Duet-1 + CRISPR/Cas12j foi introduzido em Escherichia coli EC100 para obter Escherichia coli recombinante, denominado EC100/pACYC-Duet-1 + CRISPR/Cas12j. O plasmídeo recombinante pACYC- Duet-1 foi introduzido em E. coli EC100 para obter uma E. coli recombinante, denominado EC100/pACYC-Duet-1.

4. Construção da biblioteca PAM: a sequência mostrada na SEQ ID NO: 103 é artificialmente sintetizada e conectada ao vetor pUC19, em que a sequência como mostrada na SEQ ID NO: 103 inclui oito bases aleatórias na extremidade 5' e na sequência alvo. Oito bases aleatórias foram projetadas na frente da extremidade 5' da sequência alvo da biblioteca PAM para construir uma biblioteca de plasmídeo. Os plasmídeos foram transferidos em Escherichia coli contendo o locus Cas12j e Escherichia coli sem o locus Cas.12j, respectivamente. Após tratamento a 37°C durante 1 hora, o plasmídeo foi extraído, e amplificação e sequenciamento de PCR foram realizados na sequência da região PAM.

5. A aquisição do domínio da biblioteca PAM: contagem do número de aparições de 65.536 combinações de sequências de PAM no grupo experimental e no grupo de controle, respectivamente, e o número de sequências de PAM em cada grupo foi submetido à normalização. Para qualquer sequência de PAM, quando log2 (valor normalizado do grupo de controle/valor normalizado do grupo experimental) é maior que 3,5, considera-se que esse PAM foi significativamente consumido. Weblogo foi usado para prever a sequência de PAM que foi significativamente consumida e encontrou o domínio PAM de cada proteína. Entre eles, Cas12j.1 é 5'-TTVW, Cas12j.4 e Cas12j.12 são 5'-TTN e Cas12j.18 é 5'. -AYR, Cas12j.19 é 5'-ATG, Cas12j.21 é 5'-VTTG, Cas12j.22 é 5'-KTR. Os resultados das análises do domínio PAM são mostrados nas Figuras 2A-2B. Exemplo 4. Identificação do método de corte de DNA do sistema CRISPR/Cas12j I. Expressão e purificação in vitro da proteína Cas12j

[0269] As etapas específicas de expressão e purificação in vitro da proteína Cas12j são as seguintes:

[0270] Retirando um único clone de EC100-CRISPR/Cas12j, inoculado em 100 mL de meio líquido LB (contendo 50 μg/mL de ampicilina), cultivado com agitação a 37°C e 200 rpm durante 12 h para obter uma solução de cultura de bactérias.

4. Retirar a solução de cultura de bactérias, inoculada em 50 mL de meio líquido LB (contendo 50 μg/mL de ampicilina) em uma relação de volume de 1:100, cultivada com agitação a 37°C e 200 rpm até que o valor de OD600nm seja 0,6, em seguida, adicionado IPTG e tornar a concentração de 1 mM, cultivada com agitação a 28°C e 220 rpm durante 4 horas, e centrifugar a 4°C e 10000 rpm durante 10 minutos para coletar a precipitação da bactéria.

5. Retirar a precipitação da bactéria, adicionar 100 mL de pH 8,0, 100 mM de solução tampão Tris-HCl, submeter à ultrassonicação após ressuspensão (potência ultrassônica 600W, programa de ciclo: interrompido durante 4 s, interrompido durante 6 s, 20 min no total), em seguida, centrifugar a 4ºC, 10.000 rpm durante 10 min, coletar o sobrenadante A.

6. Retirar o sobrenadante A, centrifugar a 12000 rpm a 4°C durante 10 min e coletar o sobrenadante B.

7. Usar a coluna de níquel produzida pela GE para purificar o sobrenadante B (consulte as instruções da coluna de níquel para as etapas específicas de purificação) e, em seguida, usar o kit de quantificação de proteína produzido peor Thermo Fisher para quantificar a proteína Cas12j. II. Transcrição e purificação do RNA guia da proteína Cas12j:

1. Desenhar um modelo para a transcrição do RNA guia. A estrutura do modelo de transcrição é: promotor T7 + repetição do protótipo Cas12j (SEQ ID NO: 41-60) + espaçador (SEQ ID NO: 105), o projeto do iniciador usa o software Iniciador 5.0 para garantir que o iniciador direto e o iniciador reverso tenham sequência de sobreposição de, pelo menos, 18 pb.

2. Configurar o seguinte sistema de reação, pipetado suavemente para misturar, centrifugar brevemente e recozer lentamente em uma máquina de

PCR: Reação de amplificação de PCR Componente Volume (μl) Iniciador direto (100 nM) 7,5 Iniciador reverso (100 nM) 7,5 Mistura 2*KAPA 25 ddH2O 10 Volume total 50

3. Usar o Kit de purificação de PCR MinElute para purificar o modelo. As etapas são as seguintes: 1) Adicionar 5 vezes o volume de PB ao produto de PCR, colocar uma coluna MinElute em um tubo de coleta de 2 ml, e colocar à temperatura ambiente durante 2 min, 12000 g/2 min; 2) Descartar o licor residual e adicionar 750 μl de tampão PE (lembre- se de adicionar etanol antes do uso), 12000 g/2 min; 3) Descartar o licor residual, adicionar 350 μl de tampão PE, 12000 g/2 min, descartar o licor residual, 12000 g, e centrifugar a vácuo durante 2 min; 4) Mudar a coluna MinElute para um novo tubo de centrífuga de 1,5 ml, abrir a tampa e colocar a 65°C durante 2 minutos; 5) Adicionar 20 μl de solução EB preaquecida e colocar durante 2 min, 12000 g/2 min. Para melhorar a taxa de recuperação, o conteúdo do tubo de centrífuga pode ser passado através da coluna de rotação MinElute 2-3 vezes; 6) Medir a concentração com Nanodrop e armazenar congelado a - 20ºC, pronto para uso.

4. Purificação do RNA guia: fenol: clorofórmio: extração de álcool isoamílico (25: 24: 1) para remover DNAseI no sistema. 1) Adicionar 80 μl de H2O livre de RNA ao sistema de reação pós- transcrição e ajustar o volume para 100 μl; 2) Retirar 2 ml de Gel de bloqueio de fase pesada (PLG), 15000 g, centrifugar durante 2 min, adicionar 100 μl de fenol: clorofórmio: álcool isoamílico (25: 24: 1), 100 μl de RNA digerido com DNAseI, agitar suavemente o tubo de bloqueio de fase manualmente 5-10 vezes para torná-lo uniformemente misturado e, em seguida, centrifugar a 15ºC/16000 g durante 12 min; 3) Retirar um novo tubo de centrífuga de 1,5 ml livre de RNA e aspirar o sobrenadante da centrifugação anterior para o tubo de centrífuga. Ter cuidado para não pegar o gel, adicionar isopropanol igual ao volume do sobrenadante e um décimo do volume da solução de acetato de sódio, bem misturado com a ponta da pipeta, colocando-o na geladeira a -20ºC durante 1 h ou durante a noite; 4) Centrifugar a 4ºC/16000 g durante 30 min, descartar o sobrenadante, adicionar a 75% de etanol pré-resfriado, misturar o precipitado por pipetagem, centrifugar a 4ºC/16000 g durante 12 min, descartar o sobrenadante e colocar durante 2-3 min em um hote de aspiração. Secar o etanol na superfície do RNA, adicionar 100 μl de H2O livre de RNA e misturar por pipetagem.

5. Medir a concentração de crRNA purificado com Nanodrop e uniformemente diluir para 250 ng/μl, dispensar em tubos de centrífuga de PCR de 200 μl e armazenar congelado a -80ºC, pronto para uso.

6. O estabelecimento do sistema de digestão de DNA de filamento duplo: (1) Configurar o seguinte sistema de reação, misturar suavemente por pipetagem e centrifugar brevemente. Colocar a 37°C durante 15 min; Sistema de reação de clivagem de DNA Componente Volume de amostra 12j-crRNA（250 ng/μl） 600 ng Proteína 12j（0,5 μg/μl） 0,5 μg Tampão de clivagem de DNA 10* 1 μl H2O livre de RNA Compensar a 7 μl (2) Adicionar 300 ng de DNA de substrato (SEQ ID NO: 106) (100 ng/μl), 3 μL, pipetar suavemente para misturar e centrifugar brevemente. Colocar a 37°C, 8 horas; (3) Adicionar RNase e colocar a 37°C durante 15 minutos para digerir totalmente as impurezas de RNA no sistema; (4) Adicionar proteinase K, colocar a 58°C durante 15 minutos, e digerir a proteína Cas12j; (5) Gel em execução de agarose para a detecção.

[0271] O resultado do gel em execução é mostrado na Figura 3.

Cas12j.4, Cas12j.19 e Cas12j.22 podem cortar o DNA de filamento duplo com eficácia. No entanto, a atividade de clivagem de Cas12j.22 é muito fraca. III. Os resultados das análises do local de clivagem in vitro de Cas12j.4, Cas12j.19 e Cas12j.22

[0272] Em seguida, os locais ativos de clivagem in vitro foram analisados dessas três proteínas com atividade de clivagem de filamento duplo de DNA. As tiras cortadas foram recuperadas na etapa anterior e enviadas para a empresa para sequenciamento de Sanger. Os resultados do sequenciamento são comparados com o software seqman. Os resultados da comparação são mostrados na Figura 4. A partir do diagrama de pico, pode-se ver: Cas12j.4, Cas12j.19, Cas12j.22 têm métodos de clivagem diferentes, os locais de clivagem de Cas12j.4 e Cas12j.22 estão localizados em 18 nt e 25 nt na extremidade do PAM. Após o corte, uma extremidade pegajosa de 7 nt é formada. Cas12j.19 tem um local de clivagem a 25 nt da extremidade distal do PAM, formando uma extremidade de cerca de 1 nt. Exemplo 5. Os resultados da detecção da atividade de clivagem enzimática in vitro de Cas12j.19 em diferentes temperaturas

[0273] Incubar Cas12j.19 (SEQ ID NO: 17) e RNA guia (SEQ ID NO: 105) a 25°C durante 15 minutos para formar uma mistura de RNA e proteína, geralmente chamada de RNP, e em seguida, adicionar DNA de filamento duplo (SEQ ID NO: 106) para o sistema de reação e colocar em diferentes configurações de temperatura, as temperaturas definidas são: 17°C, 22°C, 27°C, 32°C, 37°C, 42°C, 47°C, 52°C, 62°C, 67°C, 72°C, reagiu durante 8 h, adicionando RNase após a reação ser completada, digerir RNA durante 15 minutos a 37°C, e proteinase K, reagiu a 58°C durante 15 minutos para digerir a proteína, e o resultado do consumo de DNA foi detectado por eletroforese em gel de agarose. Os resultados são mostrados na Figura 5. O resultado mostra que Cas12j.19 tem atividade de clivagem de DNA de filamento duplo entre 27°C e 42°C. Exemplo 6. Resultados do efeito de diferentes comprimentos de espaçador de Cas12j.19 na atividade de clivagem da enzima

[0274] Uma vez que o local de clivagem de Cas12j.19 está fora da sequência alvo, o RNA guia Cas12j.19 (SEQ ID NO: 105) foi testado contendo a sequência do local alvo, também comumente referido à influência do comprimento da sequência espaçadora na atividade de clivagem. O RNA guia contendo a sequência do local alvo foi truncado (14 ~ 28 nt) para obter o truncamento como mostrado na Figura 6. Cas12j.19 e o RNA guia truncado foram incubados a 25°C durante 15 minutos para formar RNP e, em seguida, adicionar o DNA de filamento duplo (SEQ ID NO: 106) ao sistema de reação e reagir a 37°C durante 8 horas. Depois que a reação foi completada, RNase foi adicionado, o RNA foi digerido a 37°C durante 15 minutos, e a proteinase K foi reagida a 58°C durante 15 minutos para digerir a proteína, e os resultados da digestão foram detectados por eletroforese em gel de agarose. Os resultados são mostrados na Figura 6. O resultado mostra que o comprimento do espaçador necessário para Cas12j.19 exercer sua atividade de clivagem é de, pelo menos, 14 nt. Exemplo 7. Resultados do efeito de diferentes comprimentos de repetição de Cas12j.19 na atividade de clivagem da enzima

[0275] Da mesma forma, o efeito do comprimento da sequência de repetição direta do RNA guia foi testado na atividade de clivagem do DNA de filamento duplo Cas12j.19. A sequência de repetição direta no RNA guia foi truncada (SEQ ID NO: 105) para 24 ~ 34 nt para obter o truncamento na Fig. 7. O Cas12j.19 e o RNA guia correspondente com diferentes comprimentos de repetição foram incubados a 25°C durante 15 minutos para formar RNP, em seguida, adicionando DNA de filamento duplo ao sistema de reação, e reagidos a 37°C durante 8 horas. Após a reação, RNase foi adicionado, o RNA foi digerido a 37°C durante 15 minutos, e a proteinase K foi reagida a 58°C durante 15 minutos para digerir a proteína, e os resultados da digestão foram detectados por eletroforese em gel de agarose. O resultado é mostrado na Figura 7. O resultado mostra que a sequência de repetição direta mais curta necessária para detecção tem um comprimento de 32 nt. Exemplo 8. Resultados da tolerância de Cas12j.19 à incompatibilidade do espaçador

[0276] O emparelhamento complementar entre a sequência contendo o local alvo no RNA guia e a sequência alvo original é de grande significância para a recombinação e clivagem do DNA. A parte do RNA guia (SEQ ID NO: 105) que contém a sequência alvo foi submetida a mutações pontuais sucessivamente (isto é, as bases nas posições 1, 3, 5, 7, 9, 11, 13, 15, 17 começando da extremidade 5' do espaçador) para obter o mutante na Figura 8, formando assim uma incompatibilidade com a sequência alvo. Incubar Cas12j.19 com o RNA guia correspondente contendo o local de mutação a 25°C durante 15 minutos para formar RNP e, em seguida, adicionar DNA de filamento duplo (SEQ ID NO: 106) ao sistema de reação a 37°C e reagir durante 8 horas. Após a reação, RNase foi adicionado, o RNA foi digerido a 37°C durante 15 minutos, e a proteinase K foi reagida a 58°C durante 15 minutos para digerir a proteína, e os resultados da digestão foram detectados por eletroforese em gel de agarose. Os resultados são mostrados na Figura 8. Os resultados mostram que dentro de 5 nt antes da extremidade 5' da sequência espaçadora, a mutação da base da sequência alvo tem um efeito importante na clivagem do DNA de filamento duplo Cas12j.19. Além disso, o pareamento incorreto da 13ª sequência alvo nt afeta muito a atividade de clivagem do DNA de filamento duplo Cas12j.19. A tolerância de incompatibilidade estrita do Cas12j.19 torna possível ter uma taxa inferior fora da meta.

[0277] Embora as modalidades específicas da presente invenção tenham sido descritas em detalhe, aqueles versados na técnica entenderão que várias modificações e mudanças podem ser feitas nos detalhes de acordo com todos os ensinamentos que foram publicados, e essas mudanças estão dentro do escopo de proteção da presente invenção. Toda a presente invenção é dada pelas reivindicações anexas e quaisquer equivalentes das mesmas.

Claims

REIVINDICAÇÕES

1. Proteína tendo uma sequência de aminoácidos como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, e 108 ou um ortólogo, homólogo, variante ou fragmento funcional da mesma; CARACTERIZADA pelo fato de que o ortólogo, homólogo, variante ou fragmento funcional retém substancialmente a função biológica da sequência da qual é derivado; por exemplo, o ortólogo, homólogo, ou variante tem pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência em comparação com a sequência da qual é derivado; por exemplo, o ortólogo, homólogo, ou variante tem pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência em comparação com a sequência como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, 108, e retém substancialmente as funções biológicas da sequência da qual é derivado; por exemplo, a proteína é uma proteína efetora no sistema CRISPR/Cas.

2. Proteína, de acordo com a reivindicação 1, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, 108; (ii) em comparação com a sequência como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, 108, uma sequência tendo uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de identidade de sequência com a sequência como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, e 108;

por exemplo, a proteína tem uma sequência de aminoácidos como mostrada em qualquer uma dentre SEQ ID NOs: 1-20, 107, e 108.

3. Proteína, de acordo com a reivindicação 1 ou 2, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 17; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 17, uma sequência tendo uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 17; por exemplo, a proteína tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 17.

4. Proteína, de acordo com a reivindicação 1 ou 2, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 2; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 2, uma sequência tendo uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 2; por exemplo, a proteína tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 2.

5. Proteína, de acordo com a reivindicação 1 ou 2, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 22; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 22, uma sequência tendo uma ou mais substituições, deleções ou adições de aminoácidos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de aminoácidos); ou (iii) uma sequência tendo pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, ou pelo menos 99% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 22; por exemplo, a proteína tem uma sequência de aminoácidos como mostrada na SEQ ID NO: 22.

6. Conjugado, CARACTERIZADO pelo fato de que compreende a proteína conforme definida em qualquer uma das reivindicações 1 a 5 e uma porção modificada; por exemplo, a porção modificada é selecionada a partir de uma proteína ou polipeptídeo adicional, um rótulo detectável, e quaisquer combinações dos mesmos; por exemplo, a porção modificada é opcionalmente conectada ao terminal N ou terminal C da proteína através de um ligante; por exemplo, a porção modificada é fundida ao terminal N ou terminal C da proteína; por exemplo, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência de sinais de localização nuclear (NLS), uma fração de direcionamento, um domínio de ativação de transcrição (tal como VP64), um domínio de repressão de transcrição (por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: nucleotídeo desaminase, atividade de metilase, desmetilase, atividade de ativação de transcrição, atividade de inibição de transcrição, atividade de fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico; e quaisquer combinações dos mesmos; por exemplo, o conjugado compreende uma etiqueta de epítopo; por exemplo, o conjugado compreende uma sequência NLS; por exemplo, a sequência NLS é mostrada na SEQ ID NO: 81; por exemplo, a sequência NLS está localizada na, perto ou próxima à extremidade da proteína (por exemplo, terminal N ou terminal C).

7. Proteína de fusão, CARACTERIZADA pelo fato de que compreende a proteína conforme definida em qualquer uma das reivindicações 1 a 5 e uma proteína ou polipeptídeo adicional; por exemplo, a proteína ou polipeptídeo adicional é opcionalmente ligado ao terminal N ou terminal C da proteína através de um ligante; por exemplo, a proteína ou polipeptídeo adicional é selecionado a partir de uma etiqueta de epítopo, uma sequência de genes repórteres, uma sequência de sinais de localização nuclear (NLS), uma fração de direcionamento, um domínio de ativação de transcrição (tal como VP64), um domínio de repressão de transcrição (por exemplo, domínio KRAB ou domínio SID), um domínio de nuclease (por exemplo, Fok1), um domínio tendo uma atividade selecionada a partir de: um nucleotídeo desaminase, atividade de metilase, uma desmetilase, atividade de ativação de transcrição, atividade de inibição de transcrição, atividade de fator de liberação de transcrição, atividade de modificação de histona, atividade de nuclease, atividade de clivagem de RNA de filamento único, atividade de clivagem de RNA de filamento duplo, atividade de clivagem de DNA de filamento único, atividade de clivagem de DNA de filamento duplo e atividade de ligação de ácido nucleico; e quaisquer combinações dos mesmos; por exemplo, a proteína de fusão compreende uma etiqueta de epítopo; por exemplo, a proteína de fusão compreende uma sequência NLS; por exemplo, a sequência NLS é mostrada na SEQ ID NO: 81;

por exemplo, a sequência NLS está localizada na, perto ou próxima à extremidade da proteína (por exemplo, o terminal N ou o terminal C); por exemplo, a proteína de fusão tem uma sequência de aminoácidos selecionada a partir de: SEQ ID NOs: 82-101; por exemplo, a proteína de fusão tem uma sequência de aminoácidos selecionada a partir de: SEQ ID NOs: 83, 98, 101.

8. Molécula de ácido nucleico isolada, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada em qualquer uma dentre SEQ ID NOs: 41-60; (ii) em comparação com a sequência como mostrada em qualquer uma dentre SEQ ID NOs: 41-60, uma sequência tendo uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iv) uma sequência tendo pelo menos 95% de identidade de sequência com a sequência como mostrada em qualquer uma dentre SEQ ID NO: 41-60; (v) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (vi) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii); além disso, a sequência como descrita em qualquer uma dentre (ii) - (v) retém substancialmente a função biológica da sequência da qual é derivada; por exemplo, a molécula de ácido nucleico contém uma ou mais estruturas secundárias otimizadas ou em grampo; por exemplo, a sequência descrita em qualquer uma dentre (ii) - (v) retém a estrutura secundária da sequência da qual é derivada; por exemplo, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada em qualquer uma dentre SEQ ID NOs: 41-60;

(b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência como descrita em (a); por exemplo, a molécula de ácido nucleico isolada é RNA; por exemplo, a molécula de ácido nucleico isolada é uma sequência de repetição direta no sistema CRISPR/Cas.

9. Molécula de ácido nucleico isolada, de acordo com a reivindicação 8, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 57; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 57, uma sequência tendo uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada em qualquer uma dentre SEQ ID NO: 57; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii); por exemplo, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 57; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 57.

10. Molécula de ácido nucleico isolada, de acordo com a reivindicação 8, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 42; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 42, uma sequência tendo uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base); (iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 42; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii); por exemplo, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 42; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 42.

11. Molécula de ácido nucleico isolada, de acordo com a reivindicação 8, CARACTERIZADA pelo fato de que compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (i) uma sequência como mostrada na SEQ ID NO: 60; (ii) em comparação com a sequência como mostrada na SEQ ID NO: 60, uma sequência com uma ou mais substituições, deleções ou adições de base (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 substituições, deleções ou adições de base);

(iii) uma sequência tendo pelo menos 20%, pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, pelo menos 95% de identidade de sequência com a sequência como mostrada na SEQ ID NO: 60; ou (iv) uma sequência que hibridiza com a sequência como descrita em qualquer uma dentre (i) a (iii) sob condições rigorosas; ou (v) uma sequência complementar da sequência como descrita em qualquer uma dentre (i) - (iii); por exemplo, a molécula de ácido nucleico compreende uma sequência selecionada a partir das seguintes, ou consiste em uma sequência selecionada a partir das seguintes: (a) uma sequência de nucleotídeos como mostrada na SEQ ID NO: 60; (b) uma sequência que hibridiza com a sequência como descrita em (a) sob condições rigorosas; ou (c) uma sequência complementar da sequência de nucleotídeos como mostrada na SEQ ID NO: 60.

12. Complexo, CARACTERIZADO pelo fato de que compreende: (i) um componente de proteína, que é selecionado a partir de: a proteína conforme definida em qualquer uma das reivindicações 1 a 5, o conjugado conforme definido na reivindicação 6 ou a proteína de fusão conforme definida na reivindicação 7, e quaisquer combinações dos mesmos; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11 e uma sequência guia capaz de hibridizar com a sequência alvo de 5' a 3', em que o componente de proteína e o componente de ácido nucleico combinam um com o outro para formar um complexo; por exemplo, a sequência guia está ligada à extremidade 3' da molécula de ácido nucleico; por exemplo, a sequência guia compreende a sequência complementar da sequência alvo; por exemplo, o componente de ácido nucleico é um RNA guia no sistema de CRISPR/Cas; por exemplo, a molécula de ácido nucleico é RNA;

por exemplo, o complexo não compreende crRNA de ação trans (tracrRNA).

13. Complexo, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que compreende: (i) um componente de proteína selecionado a partir de: a proteína conforme definida na reivindicação 3, um conjugado ou proteína de fusão compreendendo a proteína; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 9 e a sequência guia.

14. Complexo, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que compreende: (i) um componente de proteína selecionado a partir de: a proteína conforme definida na reivindicação 4, um conjugado ou proteína de fusão compreendendo a proteína; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 10 e a sequência guia.

15. Complexo, de acordo com a reivindicação 12, CARACTERIZADO pelo fato de que compreende: (i) um componente de proteína selecionado a partir de: a proteína conforme definida na reivindicação 5, um conjugado ou proteína de fusão compreendendo a proteína; e (ii) um componente de ácido nucleico, que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 11 e a sequência guia.

16. Molécula de ácido nucleico isolada, CARACTERIZADA pelo fato de que compreende: (i) uma sequência de nucleotídeos que codifica a proteína conforme definida em qualquer uma das reivindicações 1 a 5, ou o conjugado conforme definida na reivindicação 6, ou a proteína de fusão conforme definida na reivindicação 7; (ii) uma sequência de nucleotídeos que codifica a molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11; e/ou, (iii) uma sequência de nucleotídeos contendo (i) e (ii);

por exemplo, a sequência de nucleotídeos descrita em qualquer uma dentre (i) a (iii) é códon otimizado para expressão em uma célula procariótica ou célula eucariótica.

17. Vetor, CARACTERIZADO pelo fato de que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 16.

18. Célula hospedeira, CARACTERIZADA pelo fato de que compreende a molécula de ácido nucleico isolada conforme definida na reivindicação 16 ou o vetor conforme definido na reivindicação 17.

19. Composição, CARACTERIZADA pelo fato de que compreende: (i) um primeiro componente, que é selecionado a partir de: a proteína conforme definida em qualquer uma das reivindicações 1 a 5, o conjugado conforme definido na reivindicação 6, a proteína de fusão conforme definida na reivindicação 7, uma sequência de nucleotídeos que codifica a proteína ou proteína de fusão, e quaisquer combinações dos mesmos; e (ii) um segundo componente, que é uma sequência de nucleotídeos contendo um RNA guia, ou uma sequência de nucleotídeos que codifica a sequência de nucleotídeos contendo um RNA guia; em que o RNA guia inclui uma sequência de repetição direta e uma sequência guia de 5’ a 3’, e a sequência guia pode hibridizar com a sequência alvo; o RNA guia pode formar um complexo com a proteína, conjugado ou proteína de fusão como descrito em (i); por exemplo, a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11; por exemplo, a sequência guia é conectada à extremidade 3' da sequência de repetição direta; por exemplo, a sequência guia compreende a sequência complementar da sequência alvo; por exemplo, a composição não contém crRNA de ação trans (tracrRNA); por exemplo, a composição é de ocorrência não natural ou modificada; por exemplo, pelo menos um componente na composição é de ocorrência não natural ou modificado;

por exemplo, o primeiro componente é de ocorrência não natural ou modificado; e/ou, o segundo componente é de ocorrência não natural ou modificado.

20. Composição, de acordo com a reivindicação 19, CARACTERIZADA pelo fato de que: o primeiro componente é selecionado a partir de: a proteína conforme definida na reivindicação 3, ou um conjugado ou proteína de fusão compreendendo a proteína, ou uma sequência de nucleotídeos que codifica a proteína ou proteína de fusão, e quaisquer combinações dos mesmos; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 9; de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem a sequência mostrada por 5'-ATG.

21. Composição, de acordo com a reivindicação 19, CARACTERIZADA pelo fato de que: o primeiro componente é selecionado a partir de: a proteína conforme definida na reivindicação 4, ou um conjugado ou proteína de fusão compreendendo a proteína, ou uma sequência de nucleotídeos que codifica a proteína ou proteína de fusão, e quaisquer combinações dos mesmos; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 10; de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem uma sequência mostrada por 5'-TTN.

22. Composição, de acordo com a reivindicação 19, CARACTERIZADA pelo fato de que: o primeiro componente é selecionado a partir de: a proteína conforme definida na reivindicação 5, ou um conjugado ou proteína de fusão compreendendo a proteína, ou uma sequência de nucleotídeos que codifica a proteína ou proteína de fusão, e quaisquer combinações dos mesmos; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 11;

de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem a sequência mostrada por 5'-KTR.

23. Composição, CARACTERIZADA pelo fato de que compreende um ou mais vetores, o um ou mais vetores compreendendo: (i) um primeiro ácido nucleico, que é uma sequência de nucleotídeos que codifica a proteína conforme definida em qualquer uma das reivindicações 1 a 5 ou a proteína de fusão conforme definida na reivindicação 7; opcionalmente, o primeiro ácido nucleico está operacionalmente ligado a um primeiro elemento regulador; e (ii) um segundo ácido nucleico, que codifica uma sequência de nucleotídeos compreendendo um RNA guia; opcionalmente, o segundo ácido nucleico está operacionalmente ligado a um segundo elemento regulador; em que: o primeiro ácido nucleico e o segundo ácido nucleico estão presentes no mesmo ou em diferentes vetores; o RNA guia compreende uma sequência de repetição direta e uma sequência guia de 5’ a 3’, e a sequência guia pode hibridizar com a sequência alvo; o RNA guia pode formar um complexo com a proteína efetora ou proteína de fusão como descrito em (i); por exemplo, a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11; por exemplo, a sequência guia é conectada à extremidade 3' da sequência de repetição direta; por exemplo, a sequência guia compreende a sequência complementar da sequência alvo; por exemplo, a composição não contém crRNA de ação trans (tracrRNA); por exemplo, a composição é de ocorrência não natural ou modificada; por exemplo, pelo menos um componente na composição é de ocorrência não natural ou modificado;

por exemplo, o primeiro elemento regulador é um promotor, tal como um promotor induzível; por exemplo, o segundo elemento regulador é um promotor, tal como um promotor induzível.

24. Composição, de acordo com a reivindicação 23, CARACTERIZADA pelo fato de que: o primeiro ácido nucleico é uma sequência de nucleotídeos que codifica a proteína conforme definida na reivindicação 3 ou uma proteína de fusão contendo a proteína; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 9; de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem a sequência mostrada por 5'-ATG.

25. Composição, de acordo com a reivindicação 23, CARACTERIZADA pelo fato de que: o primeiro ácido nucleico é uma sequência de nucleotídeos que codifica a proteína conforme definida na reivindicação 4 ou uma proteína de fusão contendo a proteína; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 10; de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem uma sequência mostrada por 5'-TTN.

26. Composição, de acordo com a reivindicação 23, CARACTERIZADA pelo fato de que: o primeiro ácido nucleico é uma sequência de nucleotídeos que codifica a proteína conforme definida na reivindicação 5 ou uma proteína de fusão contendo a proteína; a sequência de repetição direta é uma molécula de ácido nucleico isolada conforme definida na reivindicação 11; de preferência, quando a sequência alvo for DNA, a sequência alvo está localizada na extremidade 3' do motivo adjacente à sequência espaçadora (PAM) original, e o PAM tem a sequência mostrada por 5'-KTR.

27. Composição, de acordo com qualquer uma das reivindicações 19 a 26, CARACTERIZADA pelo fato de que quando a sequência alvo for RNA, a sequência de RNA alvo não tem restrições de domínio PAM.

28. Composição, de acordo com qualquer uma das reivindicações 19 a 27, CARACTERIZADA pelo fato de que a sequência alvo é uma sequência de DNA ou RNA derivada de uma célula procariótica ou de uma célula eucariótica; ou a sequência alvo é uma sequência de DNA ou RNA de ocorrência não natural.

29. Composição, de acordo com qualquer uma das reivindicações 19 a 28, CARACTERIZADA pelo fato de que a sequência alvo está presente em uma célula; por exemplo, a sequência alvo está presente no núcleo de célula ou no citoplasma (por exemplo, organelas); por exemplo, a célula é uma célula eucariótica; por exemplo, a célula é uma célula procariótica.

30. Composição, de acordo com qualquer uma das reivindicações 19 a 29, CARACTERIZADA pelo fato de que a proteína está ligada a uma ou mais sequências NLS, ou o conjugado ou proteína de fusão compreende uma ou mais sequências NLS; por exemplo, a sequência NLS está ligada ao terminal N ou terminal C da proteína; por exemplo, a sequência NLS está fundida ao terminal N ou terminal C da proteína.

31. Kit, CARACTERIZADO pelo fato de que compreende um ou mais componentes selecionados a partir do grupo que consiste em: a proteína conforme definida em qualquer uma das reivindicações 1 a 5, o conjugado conforme definido na reivindicação 6, a proteína de fusão conforme definida na reivindicação 7, a molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11, o complexo conforme definido em qualquer uma das reivindicações 12 a 15, a molécula de ácido nucleico isolada conforme definida na reivindicação 16, o vetor conforme definido na reivindicação 17, a composição conforme definida em qualquer uma das reivindicações 19 a 30; por exemplo, o kit compreende a composição conforme definida em qualquer uma das reivindicações 19 a 22, e instruções para usar a composição;

por exemplo, o kit compreende a composição conforme definida em qualquer uma das reivindicações 23 a 26, e instruções para usar a composição.

32. Composição de administração, CARACTERIZADA pelo fato de que compreende um veículo de administração e um ou mais selecionados a partir do grupo que consiste em: a proteína conforme definida em qualquer uma das reivindicações 1 a 5, o conjugado conforme definido na reivindicação 6, a proteína de fusão conforme definida na reivindicação 7, a molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11, o complexo conforme definido em qualquer uma das reivindicações 12 a 15, a molécula de ácido nucleico isolada conforme definida na reivindicação 16, o vetor conforme definido na reivindicação 17, a composição conforme definida em qualquer uma das reivindicações 19 a 30; por exemplo, o veículo de administração é uma partícula; por exemplo, o veículo de administração é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, microvesícula, arma genética, ou vetor viral (por exemplo, retrovírus defeituoso de replicação, lentivírus, adenovírus ou vírus adeno- associado).

33. Método para modificar um gene alvo, CARACTERIZADO pelo fato de que compreende: colocar em contato o complexo conforme definido em qualquer uma das reivindicações 12 a 15 ou a composição conforme definida em qualquer uma das reivindicações 19 a 30 com o gene alvo, ou administrar a uma célula contendo o gene alvo; a sequência alvo está presente no gene alvo; por exemplo, o gene alvo está presente na célula; por exemplo, a célula é uma célula procariótica; por exemplo, a célula é uma célula eucariótica; por exemplo, a célula é selecionada a partir de (por exemplo, uma célula de mamífero, tal como uma célula humana), uma célula vegetal; por exemplo, o gene alvo está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro; por exemplo, a modificação se refere a uma quebra na sequência alvo, tal como uma quebra de filamento duplo em DNA ou uma quebra de filamento único em RNA;

por exemplo, a modificação inclui adicionalmente inserção de um ácido nucleico exógeno na quebra.

34. Método, de acordo com a reivindicação 33, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 13, a composição conforme definida na reivindicação 20, ou a composição conforme definida na reivindicação 24 com o gene alvo, ou administrar a uma célula contendo o gene alvo.

35. Método, de acordo com a reivindicação 33, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 14, a composição conforme definida na reivindicação 21, ou a composição conforme definida na reivindicação 25 com o gene alvo, ou administrar a uma célula contendo o gene alvo.

36. Método, de acordo com a reivindicação 33, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 15, a composição conforme definida na reivindicação 22, ou a composição conforme definida na reivindicação 26 com o gene alvo, ou administrar a uma célula contendo o gene alvo.

37. Método para alterar a expressão de um produto genético, CARACTERIZADO pelo fato de que compreende: colocar em contato o complexo conforme definido em qualquer uma das reivindicações 12 a 15 ou a composição conforme definida em qualquer uma das reivindicações 19 a 30 com uma molécula de ácido nucleico que codifica o produto genético, ou administrar a uma célula contendo a molécula de ácido nucleico, a sequência alvo está presente na molécula de ácido nucleico; por exemplo, a molécula de ácido nucleico está presente na célula; por exemplo, a célula é uma célula procariótica; por exemplo, a célula é uma célula eucariótica; por exemplo, a célula é selecionada a partir de (por exemplo, uma célula de mamífero, tal como uma célula humana), uma célula vegetal; por exemplo, a molécula de ácido nucleico está presente em uma molécula de ácido nucleico (por exemplo, um plasmídeo) in vitro; por exemplo, a expressão do produto genético é alterada (por exemplo, aumentada ou diminuída); por exemplo, o produto genético é uma proteína.

38. Método, de acordo com a reivindicação 37, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 13, a composição conforme definida na reivindicação 20, ou a composição conforme definida na reivindicação 24 com uma molécula de ácido nucleico que codifica o produto genético, ou administrar a uma célula contendo a molécula de ácido nucleico.

39. Método, de acordo com a reivindicação 37, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 14, a composição conforme definida na reivindicação 21, ou a composição conforme definida na reivindicação 25 com uma molécula de ácido nucleico que codifica o produto genético, ou administrar a uma célula contendo a molécula de ácido nucleico.

40. Método, de acordo com a reivindicação 37, CARACTERIZADO pelo fato de que compreende colocar em contato o complexo conforme definido na reivindicação 15, a composição conforme definida na reivindicação 22, ou a composição conforme definida na reivindicação 26 com uma molécula de ácido nucleico que codifica o produto genético, ou administrar a uma célula contendo a molécula de ácido nucleico.

41. Método, de acordo com qualquer uma das reivindicações 33 a 40, CARACTERIZADO pelo fato de que a proteína, conjugado, proteína de fusão, molécula de ácido nucleico isolada, complexo, vetor ou composição está contido em um veículo de administração; por exemplo, o veículo de administração é selecionado a partir de uma partícula lipídica, partícula de açúcar, partícula de metal, partícula de proteína, lipossoma, exossoma, vetor viral (tal como retrovírus defeituoso de replicação, lentivírus, adenovírus ou vírus adeno-associado).

42. Método, de acordo com qualquer uma das reivindicações 33 a 41, CARACTERIZADO pelo fato de que é usado para alterar uma ou mais sequências alvo em um gene alvo ou em uma molécula de ácido nucleico que codifica um produto genético alvo para modificar uma célula, linhagem celular ou organismo.

43. Célula ou sua progênie obtida pelo método conforme definido em qualquer uma das reivindicações 33 a 42, CARACTERIZADA pelo fato de que a célula contém uma modificação que não está presente em seu tipo selvagem.

44. Produto celular, CARACTERIZADO pelo fato de ser da célula ou sua progênie conforme definida na reivindicação 43.

45. Célula ou linhagem celular in vitro, isolada ou in vivo ou sua progênie, CARACTERIZADA pelo fato de que a célula ou linhagem celular ou sua progênie compreende: a proteína conforme definida em qualquer uma das reivindicações 1 a 5, o conjugado conforme definido na reivindicação 6, a proteína de fusão conforme definida na reivindicação 7, a molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11, o complexo conforme definido nas reivindicações 12 a 15, a molécula de ácido nucleico isolada conforme definida na reivindicação 16, o vetor conforme definido na reivindicação 17, a composição conforme definida em qualquer uma das reivindicações 19 a 30; por exemplo, a célula ou linhagem celular ou sua progênie compreende: o complexo conforme definido na reivindicação 13, a composição conforme definida na reivindicação 20, ou a composição conforme definida na reivindicação 24; por exemplo, a célula ou linhagem celular ou sua progênie compreende: o complexo conforme definido na reivindicação 14, a composição conforme definida na reivindicação 21, ou a composição conforme definida na reivindicação 25; por exemplo, a célula ou linhagem celular ou sua progênie compreende: o complexo conforme definido na reivindicação 15, a composição conforme definida na reivindicação 22, ou a composição conforme definida na reivindicação 26; por exemplo, a célula é uma célula eucariótica; por exemplo, a célula é uma célula animal (por exemplo, uma célula de mamífero, tal como uma célula humana) ou uma célula vegetal; por exemplo, a célula é uma célula-tronco ou linhagem de célula- tronco.

46. Uso da proteína conforme definida em qualquer uma das reivindicações 1 a 5, do conjugado conforme definido na reivindicação 6, da proteína de fusão conforme definida na reivindicação 7, da molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11, do complexo conforme definido em qualquer uma das reivindicações 12 a 15, da molécula de ácido nucleico isolada conforme definida na reivindicação 16, do vetor conforme definido na reivindicação 17, da composição conforme definida em qualquer uma das reivindicações 19 a 30, ou do kit conforme definido na reivindicação 31, CARACTERIZADO pelo fato de ser para edição de ácido nucleico (por exemplo, edição de gene ou genoma); por exemplo, a edição de gene ou genoma inclui modificação de genes, desativação de genes, alteração da expressão de produtos genéticos, reparação de mutações, e/ou inserção de polinucleotídeos.

47. Uso da proteína conforme definida em qualquer uma das reivindicações 1 a 5, do conjugado conforme definido na reivindicação 6, da proteína de fusão conforme definida na reivindicação 7, da molécula de ácido nucleico isolada conforme definida em qualquer uma das reivindicações 8 a 11, do complexo conforme definido em qualquer uma das reivindicações 12 a 15, da molécula de ácido nucleico isolada conforme definida na reivindicação 16, do vetor conforme definido na reivindicação 17, da composição conforme definida em qualquer uma das reivindicações 19 a 30, ou do kit conforme definido na reivindicação 31, CARACTERIZADO pelo fato de ser para a preparação de uma formulação para: (i) a edição de gene ou genoma in vitro; (ii) a detecção de um DNA de filamento único isolado; (iii) edição da sequência alvo no locus alvo para modificar um organismo biológico ou não humano; (iv) o tratamento da doença causada por defeitos na sequência alvo no locus alvo.

proteína efetora pré-crRNA pré-crRNA crRNA maduro

Figura 1

Figura 2A

1/4

Figura 2B proteína efetora

Figura 3

2/4 espaçador sequência direta sequência reversa espaçador sequência direta sequência reversa espaçador sequência direta sequência reversa

Figura 4 temperatura não cortado clivagem

Figura 5

3/4

Sequência espaçadora não cortado clivagem

Figura 6

Sequência de repetição não cortado clivagem

Figura 7

Sequência espaçadora não cortado clivagem

Figura 8

4/4