BR112021002552A2 - proteína, e, método de desintoxicação de agentes organofosforados - Google Patents

proteína, e, método de desintoxicação de agentes organofosforados Download PDF

Info

Publication number
BR112021002552A2
BR112021002552A2 BR112021002552-9A BR112021002552A BR112021002552A2 BR 112021002552 A2 BR112021002552 A2 BR 112021002552A2 BR 112021002552 A BR112021002552 A BR 112021002552A BR 112021002552 A2 BR112021002552 A2 BR 112021002552A2
Authority
BR
Brazil
Prior art keywords
protein
pte
sequence
seq
activity
Prior art date
Application number
BR112021002552-9A
Other languages
English (en)
Inventor
Sarel Fleishman
Dan S. Tawfik
Olga Khersonsky
Original Assignee
Yeda Research And Development Co. Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yeda Research And Development Co. Ltd. filed Critical Yeda Research And Development Co. Ltd.
Publication of BR112021002552A2 publication Critical patent/BR112021002552A2/pt

Links

Classifications

    • AHUMAN NECESSITIES
    • A62LIFE-SAVING; FIRE-FIGHTING
    • A62DCHEMICAL MEANS FOR EXTINGUISHING FIRES OR FOR COMBATING OR PROTECTING AGAINST HARMFUL CHEMICAL AGENTS; CHEMICAL MATERIALS FOR USE IN BREATHING APPARATUS
    • A62D3/00Processes for making harmful chemical substances harmless or less harmful, by effecting a chemical change in the substances
    • A62D3/02Processes for making harmful chemical substances harmless or less harmful, by effecting a chemical change in the substances by biological methods, i.e. processes using enzymes or microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • AHUMAN NECESSITIES
    • A62LIFE-SAVING; FIRE-FIGHTING
    • A62DCHEMICAL MEANS FOR EXTINGUISHING FIRES OR FOR COMBATING OR PROTECTING AGAINST HARMFUL CHEMICAL AGENTS; CHEMICAL MATERIALS FOR USE IN BREATHING APPARATUS
    • A62D2101/00Harmful chemical substances made harmless, or less harmful, by effecting chemical change
    • A62D2101/02Chemical warfare substances, e.g. cholinesterase inhibitors
    • AHUMAN NECESSITIES
    • A62LIFE-SAVING; FIRE-FIGHTING
    • A62DCHEMICAL MEANS FOR EXTINGUISHING FIRES OR FOR COMBATING OR PROTECTING AGAINST HARMFUL CHEMICAL AGENTS; CHEMICAL MATERIALS FOR USE IN BREATHING APPARATUS
    • A62D2101/00Harmful chemical substances made harmless, or less harmful, by effecting chemical change
    • A62D2101/20Organic substances
    • A62D2101/26Organic substances containing nitrogen or phosphorus
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/20Fusion polypeptide containing a tag with affinity for a non-protein ligand
    • C07K2319/24Fusion polypeptide containing a tag with affinity for a non-protein ligand containing a MBP (maltose binding protein)-tag
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • C12Y301/08Phosphoric triester hydrolases (3.1.8)
    • C12Y301/08001Aryldialkylphosphatase (3.1.8.1), i.e. paraoxonase

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Toxicology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Emergency Management (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

PROTEÍNA, E, MÉTODO DE DESINTOXICAÇÃO DE AGENTES ORGANOFOSFORADOS É provida aqui uma biblioteca de enzimas fosfotriesterase (PTE) projetadas, exibindo uma atividade de hidrólise catalítica melhorada de vários substratos, incluindo agentes nervosos e um método geral de geração e uso dos mesmos.

Description

1 / 92 PROTEÍNA, E, MÉTODO DE DESINTOXICAÇÃO DE AGENTES
ORGANOFOSFORADOS PEDIDO RELACIONADO
[001] Este pedido reivindica o benefício de prioridade do Pedido de Patente israelense nº 261157 depositado em 14 de agosto de 2018, cujo conteúdo é aqui incorporado por referência em sua totalidade.
DECLARAÇÃO DE LISTAGEM DE SEQUÊNCIAS
[002] O arquivo ASCII, intitulado 78359 Sequence Listing.txt, criado em 14 de agosto de 2019, compreendendo 188.416 bytes, submetido simultaneamente com o depósito deste pedido é aqui incorporado por referência.
CAMPO E FUNDAMENTOS DA INVENÇÃO
[003] A presente invenção, em algumas modalidades da mesma, se refere a enzimologia e, mais particularmente, mas não exclusivamente, a variantes de fosfotriesterase projetadas por um método computacional designado para apresentar atividade catalítica em relação a uma ampla gama de organofosfatos e agentes nervosos de guerra química.
[004] Atualmente, tanto a profilaxia quanto os tratamentos pós- intoxicação do envenenamento por agente nervoso de guerra química (CWNA) são baseados em fármacos selecionados para neutralizar os sintomas causados pelo acúmulo de acetilcolina em neurônios colinérgicos. Os regimes antidotais atuais consistem no pré-tratamento com piridostigmina, e na terapia pós-exposição que envolve a administração de um coquetel contendo atropina, um reativador oxima e um fármaco anticonvulsivante como o diazepam. A abordagem multifármacos contra a toxicidade do CWNA foi adotada por muitos países e integrada em seus protocolos médicos civis e militares. No entanto, é comumente reconhecido que esses regimes de fármacos sofrem de várias desvantagens que exigem novas estratégias terapêuticas. A abordagem preferida é desintoxicar rapidamente o CWNA no sangue antes que ele tenha a
2 / 92 chance de atingir seus alvos fisiológicos. Uma forma de atingir esse objetivo é através do uso de biossequestrantes. No entanto, o uso do melhor biossequestrante estequiométrico atualmente disponível (butirilcolinesterase humana, hBChE) requer a administração de centenas de miligramas de proteína para conferir proteção contra doses tóxicas de CWNA.
[005] Uma estratégia de tratamento mais segura e eficaz pode ser alcançada usando um biossequestrante catalítico para degradar rapidamente o organofosfato (OP) intoxicante na circulação. As atividades promíscuas de hidrólise do agente nervoso da enzima fosfotriesterase (PTE) tornam-no um candidato principal tanto para o tratamento profilático quanto pós-exposição de intoxicações por agente nervoso. No entanto, a desintoxicação in vivo eficiente usando baixas doses de enzimas (≤ 50mg/70kg) após a exposição a doses tóxicas de agentes nervosos requer que as eficiências catalíticas (kcat/KM) de PTE de tipo selvagem para os isômeros do agente nervoso tóxico aumentem.
[006] Variantes de PTE que podem hidrolisar eficientemente agentes nervosos do tipo V foram descritas anteriormente [Cherney, I. et al., ACS Chem Biol, 2013, 8(11), pp. 2394-2403]. A atividade pós-exposição in vivo de uma dessas variantes (C23) foi demonstrada em cobaias intoxicadas com uma dose letal de VX [Worek, F. et al., Toxicol Lett, 2014, 231(1), pp. 45- 54].
[007] Os fundamentos da técnica adicionais relativos às variantes de PTE incluem a Patente dos Estados Unidos nº 8.735.124, WO2016/092555, WO2018/087759 e Roodveldt, C. and Tawfik, D.S., Protein Eng Des Sel., 2005, 18(1), pp. 51-8.
[008] As mutações que alteram os perfis de atividade enzimática são essenciais para a adaptação às necessidades de mudança de um organismo, como a metabolização de novos substratos. Essas mutações também são altamente desejadas em pesquisa básica, biotecnologia e biomedicina para
3 / 92 permitir soluções eficientes e ambientalmente seguras, por exemplo, na síntese de moléculas úteis ou na degradação de moléculas prejudiciais. A maioria das mutações, no entanto, são deletérias para a atividade e estabilidade das proteínas, restringindo o surgimento de variantes melhoradas por meio da evolução natural ou engenharia de proteínas. Além disso, devido à epistasia mutacional, o efeito de uma mutação na atividade depende se outras mutações foram ou não adquiridas anteriormente. No caso extremo, conhecido como epistasia de sinal, duas mutações que são individualmente deletérias intensificam a atividade quando combinadas, ou vice-versa. Na evolução natural, as mutações geralmente ocorrem uma de cada vez e, portanto, as combinações epistáticas de mutações devem se acumular em uma ordem específica, uma vez que todos os intermediários devem ser pelo menos tão ativos quanto seus predecessores ou seriam eliminados por seleção. A alta prevalência de epistasia de sinal em mutantes melhorados reduz ainda mais a probabilidade de obtenção de combinações benéficas. A evolução da proteína é adicionalmente restringida por efeitos de limite de estabilidade, em que mutações de intensificação de atividade podem desestabilizar a proteína e, portanto, se acumular apenas até um limite em que mutações adicionais não são mais toleradas. Para superar os efeitos do limite de estabilidade, as mutações de estabilização, tanto na proximidade da cavidade do sítio ativo quanto em regiões distantes, são essenciais para o acúmulo de mutações que intensificam a função.
[009] Devido à epistasia e aos efeitos do limite de estabilidade, a evolução de variantes com intensificação significativa na atividade de uma enzima exige múltiplas mutações de diferentes tipos e que afetam diferentes regiões da proteína. Experimentos de evolução em laboratório, por exemplo, podem compreender mais de uma dúzia de rodadas de diversificação genética e seleção para mutantes melhorados, e melhorias substanciais em três ordens de magnitude ou mais requerem em média dez mutações. A maioria dessas
4 / 92 mutações ocorre fora da cavidade catalítica e provavelmente afeta a atividade apenas indiretamente, intensificando a tolerância a mutações que intensificam a função. Outra complicação é que os experimentos de evolução em laboratório são trabalhosos e exigem uma triagem de alto rendimento ou mesmo ultra-alto (>106 variantes por rodada). Tais triagens, no entanto, são aplicáveis apenas a certas atividades enzimáticas e normalmente utilizam substratos de modelo sintético.
[0010] Em princípio, as estratégias de projeto computacional de proteínas poderiam contornar a necessidade de várias rodadas de otimização experimental, uma vez que não são restringidas por trajetórias mutacionais. As aplicações anteriores de projeto de proteína computaram mutantes pontuais favoráveis ou bibliotecas focadas para triagem experimental, rendendo ganhos limitados na atividade, e enzimas projetadas de novo apresentaram baixa eficiência catalítica. No geral, o projeto computacional de enzimas continua sendo um conhecimento especializado e ainda depende da evolução do laboratório para atingir eficiências comparáveis às observadas em enzimas naturais. Assim, lacunas substanciais permanecem na compreensão e controle dos princípios básicos do projeto de enzimas.
[0011] Os fundamentos da técnica adicionais relativos ao projeto computacional de variantes de proteínas incluem a Publicação do Pedido de Patente dos Estados Unidos nº 2017/0032079, Pedido de Patente Internacional nº WO 2017/017673, Fleishman, S.L. et al., PLoS One, 2011, 6(6), e Goldenzweig, A. et al. Mol Cell., 2016, 63(2), pp. 337-346.
SUMÁRIO DA INVENÇÃO
[0012] Melhorias substanciais na atividade enzimática exigem múltiplas mutações em posições espacialmente proximais no sítio ativo. Tais mutações, no entanto, frequentemente apresentam efeitos epistáticos (não aditivos) imprevisíveis na atividade. Aqui, a presente invenção provê um método automatizado para projetar mutações multiponto em sítios ativos de
5 / 92 enzima usando análise filogenética e cálculos de projeto de Rosetta, aqui chamado de FuncLib. FuncLib é demonstrado aqui usando fosfotriesterase; as variantes projetadas de PTE eram todas ativas e a maioria apresentava perfis de atividade que diferiam significativamente do tipo selvagem e uns dos outros. Várias dezenas de projetos com apenas 3 a 6 mutações no sítio ativo apresentaram eficiências 10 a 4.000 vezes mais altas com uma gama de substratos alternativos, incluindo a hidrólise dos agentes nervosos organofosforados tóxicos soman e ciclosarin. FuncLib também foi implementado como um servidor web (www(ponto)funclib(ponto)weizmann(ponto)ac(ponto)il); ele contorna triagens iterativas de alto rendimento e abre o caminho para projetar repertórios catalíticos altamente eficientes e diversos.
[0013] Dessa forma, de acordo com um aspecto de algumas modalidades da presente invenção, é provida uma proteína que tem uma sequência selecionada a partir do grupo que consiste em qualquer combinação de pelo menos 2 substituições de aminoácidos de um espaço de sequência proporcionado para fosfotriesterase (PTE) de Pseudomonas diminuta como uma proteína original, e listada na Tabela A: Tabela A Posição (numeração de acordo com a entrada do PDB: 1HZY 106 132 254 257 271 303 306 317 C/H/L/M L G/R Y/W I/R T I L
[0014] Em algumas modalidades, a proteína é uma proteína híbrida em que a combinação de substituições de aminoácidos é implementada em uma proteína PTE diferente da proteína original.
[0015] Em algumas modalidades, a proteína é distinguida por uma sequência selecionada a partir do grupo que consiste no apresentado na Tabela A apresentada abaixo.
[0016] Em algumas modalidades, a proteína é distinguida por uma
6 / 92 sequência selecionada a partir do grupo que consiste em PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), PTE_56 (SEQ ID NO: 56), e PTE_57 (SEQ ID NO: 57).
[0017] De acordo com um aspecto de algumas modalidades da presente invenção, é provido um método de desintoxicação e descontaminação de agentes organofosforados, que é efetuado pelo contato de uma área suspeita de estar contaminada com os agentes organofosforados com pelo menos uma das proteínas variantes PTE providas aqui de acordo com algumas modalidades da presente invenção.
[0018] Em algumas modalidades, a área é selecionada a partir do grupo que consiste em um piso, uma parede, um edifício ou uma parte do mesmo, um veículo, uma peça de roupa, uma peça de equipamento, uma planta, um animal e um objeto inanimado.
[0019] Em algumas modalidades, os agentes organofosforados são selecionados a partir do grupo que consiste em um agente nervoso do tipo G, um agente nervoso do tipo V e um agente nervoso do tipo GV.
[0020] De acordo com um aspecto de algumas modalidades da presente invenção, é provido um método que gera uma biblioteca de variantes de enzimas (projetos), com uma atividade catalítica aprimorada diversa em comparação com uma enzima original, o método é efetuado por: identificar um grupo de resíduos substituíveis (posições substituíveis) em uma primeira camada e uma segunda camada de um sítio ativo da enzima, e um grupo de resíduos fixos (posições fixas) nessas camadas; permutar mutações dos resíduos substituíveis de acordo com um regime de pontuação PSSM usando um software computacional que calcula parâmetros de estabilidade e classifica os mutantes permutados de acordo com seu valor de energia, obtendo assim uma lista de pontuação de estabilidade de variantes enzimáticas;
7 / 92 enumerar as variantes enzimáticas resultantes da etapa anterior; selecionar uma série de variantes resultantes (mutantes permutados) no topo da lista de pontuação de estabilidade, que têm pelo menos duas mutações nos resíduos substituíveis em comparação com a enzima original; e clonar e expressar aquele número de variantes com pontuação de estabilidade superior e pelo menos duas mutações em relação à enzima original.
[0021] Em algumas modalidades, o método de geração de uma biblioteca de variantes de enzimas inclui adicionalmente, antes de identificar resíduos substituíveis e fixos, prover uma variante estabilizada da enzima de tipo selvagem usando qualquer método de projeto para estabilidade (como PROSS), e usar essa variante como a enzima original.
[0022] A menos que seja definido de outra forma, todos os termos técnicos e/ou científicos aqui usados têm o mesmo significado que comumente entendido por um versado na técnica a que pertence esta invenção. Embora métodos e materiais semelhantes ou equivalentes aos aqui descritos possam ser usados na prática ou testes das modalidades da invenção, os métodos e/ou materiais exemplificativos são descritos abaixo. Em caso de conflito, o relatório descritivo da patente, incluindo definições, irá controlar. Além disso, os materiais, métodos e exemplos são apenas ilustrativos e não pretendem ser necessariamente limitativos.
[0023] A implementação do método e/ou sistema de modalidades da invenção pode envolver a execução ou conclusão de tarefas selecionadas manualmente, automaticamente ou uma combinação das mesmas. Além disso, de acordo com a instrumentação e o equipamento reais das modalidades do método e/ou sistema da invenção, várias tarefas selecionadas podem ser implementadas por hardware, por software ou por firmware ou por uma
8 / 92 combinação dos mesmos usando um sistema operacional.
[0024] Por exemplo, hardware para executar tarefas selecionadas de acordo com modalidades da invenção pode ser implementado como um chip ou circuito. Como software, as tarefas selecionadas de acordo com modalidades da invenção podem ser implementadas como uma pluralidade de instruções de software sendo executadas por um computador usando qualquer sistema operacional adequado. Em uma modalidade exemplificativa da invenção, uma ou mais tarefas de acordo com modalidades exemplificativas de método e/ou sistema, como descrito neste documento, são realizadas por um processador de dados, como uma plataforma de computação para executar uma pluralidade de instruções. Opcionalmente, o processador de dados inclui uma memória volátil para armazenar instruções e/ou dados e/ou um armazenamento não volátil, por exemplo, um disco rígido magnético e/ou meio removível, para armazenar instruções e/ou dados. Opcionalmente, uma conexão de rede também é provida. Um monitor e/ou um dispositivo de entrada do usuário, como um teclado ou mouse, também são providos opcionalmente.
BREVE DESCRIÇÃO DAS VÁRIAS VISTAS DOS DESENHOS
[0025] Algumas modalidades da invenção são aqui descritas, apenas a título de exemplo, com referência aos desenhos anexos. Com referência específica agora aos desenhos em detalhe, salienta-se que os pormenores mostrados são a título de exemplo e para fins de discussão ilustrativa de modalidades da invenção. A este respeito, a descrição feita com os desenhos torna evidente para os versados na técnica como as modalidades da invenção podem ser praticadas.
[0026] Nos desenhos: as FIGs. 1A-D ilustram as etapas principais no método de projeto computacional, usado para produzir um repertório de enzima fosfotriesterase funcional, a partir da estrutura da PTE bacteriana (entrada
9 / 92
PDB: 1HZY) e a sequência de uma variante estabilizada ou PTE, dPTE2 (SEQ ID NO: 1), em que a FIG. 1A apresenta a etapa na qual as posições do sítio ativo são selecionadas para o projeto e, em cada posição, o espaço da sequência é restringido pela análise de conservação evolutiva (PSSM) e cálculos de varredura mutacional (ΔΔG), a FIG. 1B apresenta a etapa em que os mutantes multiponto são exaustivamente enumerados usando cálculos de projeto atomístico Rosetta, a FIG. 1C apresenta a etapa em que os projetos são classificados por energia e a FIG. 1D apresenta a etapa em que as sequências são agrupadas para obter um repertório de diversos projetos de baixa energia (nomeadamente estáveis e pré-organizados) para testes experimentais, enquanto as posições projetadas são coloridas de forma consistente em todos os painéis; as FIGs. 2A-C apresentam alguns dos resultados do uso do método, de acordo com as modalidades da presente invenção, FuncLib, em que o repertório projetado de fosfotriesterases (PTE) apresenta melhorias de ordens de magnitude em uma gama de atividades promíscuas (números no eixo geométrico X da FIG. 2B e números no eixo geométrico Y na FIG. 2C representam o número da variante (PTE_X) e o SEQ ID NO: X); a FIG. 3 apresenta um diagrama que mostra que as mutações projetadas nas variantes de PTE providas neste documento, de acordo com algumas modalidades da presente invenção, apresentam relações epistáticas de sinal, em que cada círculo representa um mutante de dPTE2 (SEQ ID NO: 1), a área de cada círculo é proporcional à atividade específica da variante na hidrólise do aril éster 2-naftil acetato (2NA), e em que o PROSS projetou e estabilizou a sequência dPTE2 (SEQ ID NO: 1), que foi usada como o ponto de partida no método provido neste documento, apresenta baixa atividade específica e cada um dos mutantes pontuais apresenta atividade específica melhorada, a atividade específica declina nos mutantes duplos, e o mutante quad, projeto PTE_6 (SEQ ID NO: 6), melhora substancialmente a atividade
10 / 92 específica em relação a todos os mutantes simples ou duplos; e a FIG. 4 apresenta uma ilustração das propriedades estereoquímicas das cavidades de sítio ativo projetadas que fundamentam as mudanças de seletividade em variantes de PTE, providas neste documento de acordo com algumas modalidades da presente invenção, em que PTE_28 (SEQ ID NO: 28; denotada 28 na FIG. 4) e PTE_29 (SEQ ID NO: 29; denotada 29 na FIG. 4) apresentam uma cavidade de sítio ativo maior do que dPTE2 (SEQ ID NO: 1; denotada 1 na FIG. 4) e alta eficiência catalítica contra agentes nervosos volumosos do tipo V e G (no sentido horário a partir do canto superior esquerdo, renderizações moleculares são baseadas em entradas de PDB: 1HZY, 6GBJ, 6GBK, e 6GBL; esferas indicam íons do centro bimetálico.
DESCRIÇÃO DE MODALIDADES ESPECÍFICAS DA INVENÇÃO
[0027] A presente invenção, em algumas modalidades da mesma, se refere a enzimologia e, mais particularmente, mas não exclusivamente, a variantes de fosfotriesterase projetadas por um método computacional designado para apresentar atividade catalítica em relação a uma ampla gama de organofosfatos e agentes nervosos de guerra química.
[0028] Antes de explicar pelo menos uma modalidade da invenção em detalhes, deve ser entendido que a invenção não é necessariamente limitada em sua aplicação aos detalhes de cálculo, enumeração e os valores dos parâmetros computacionais e/ou métodos de laboratório estabelecidos na seguinte descrição e/ou ilustrada nos desenhos e/ou nos Exemplos. A invenção é capaz de outras modalidades ou de ser praticada ou realizada de várias maneiras.
[0029] Antes de explicar pelo menos uma modalidade da invenção em detalhe, deve ser entendido que a invenção não está necessariamente limitada na sua aplicação aos detalhes apresentados na descrição seguinte ou exemplificados pelos Exemplos. A invenção é capaz de outras modalidades ou
11 / 92 de ser praticada ou realizada de várias maneiras. Um método para projetar repertórios funcionalmente diversos de uma enzima:
[0030] Para abordar as lacunas que ainda assolam as abordagens de projeto de proteínas contemporâneas, conforme discutido na seção introdutória acima, os presentes inventores desenvolveram uma estratégia de projeto de proteínas que proporciona sequências de proteínas com redes estáveis de resíduos de interação no sítio ativo e seleciona um pequeno conjunto de diversos projetos adequados para triagem de baixo rendimento. Esse paradigma de projeto e estratégia prática, e as ferramentas computacionais correspondentes e métodos providos neste documento, abordam epistasia projetando redes densas e pré-organizadas de interação de mutantes multiponto de sítio ativo. Opcionalmente, a estratégia de projeto de proteína pode incluir adicionalmente o uso de PROSS que aborda os efeitos de limite de estabilidade, projetando primeiro um esqueleto de enzima estável. O método não tem como alvo a priori um substrato específico, pois isso exige modelos precisos do complexo de estado de transição da enzima, e esses modelos são raramente alcançáveis e, em sua maioria, aproximados. Em vez disso, o método (estratégia de projeto) provido neste documento, de acordo com algumas modalidades da presente invenção, resulta em um repertório de proteínas estáveis e altamente eficientes (por exemplo, enzimas, anticorpos etc.) que podem ser rastreados para as atividades de interesse.
[0031] Conforme apresentado neste documento, a partir de enzimas exemplificativos para fins demonstrativos, o método provido neste documento foi usado para projetar repertórios funcionalmente diversos compreendendo dezenas de enzimas que apresentaram melhorias de 10 a 4.000 vezes em uma gama de atividades. A robustez e eficácia da estratégia aqui apresentada, podem ser combinadas com o método provido anteriormente, implementado plataforma de estabilização de proteína publicamente disponível “PROSS”
12 / 92 (ver, Publicação de Pedido de Patente dos Estados Unidos nº 2017/0032079 e WO 2017/017673, cada um dos que é incorporado aqui por referência como se totalmente estabelecido aqui; e, por exemplo, www(ponto)pross(ponto)weizmann(ponto)ac(ponto)il/). O método, provido com este documento e chamado de “FuncLib” ou “AbLift”, também foi implementado como um servidor automatizado acessível pela web.
[0032] As principais diferenças entre PROSS e o método aqui provido e implementado em FuncLib e AbLift é que PROSS projeta a proteína fora do sítio ativo/de ligação, enquanto FuncLib e AbLift projeta os sítios ativo/de ligação, uma vez que o objetivo de PROSS é estabilizar a proteína, sem alterar sua atividade relacionada à estrutura. Essa distinção é de suma importância: Uma vez que existem muitas posições em qualquer proteína aberta ao projeto de variantes estáveis (> 90% da proteína não está diretamente relacionada à função), PROSS procura apenas as combinações mais seguras de mutações, usando um algoritmo de projeto combinatório que assume que a cadeia principal permanece fixa e resulta em uma combinação de mutações com um efeito principalmente aditivo na estabilidade. Em contraste, FuncLib/AbLift funcionam nas regiões do sistema de proteína onde as posições são altamente interdependentes (o sítio ativo/de ligação). Em tais regiões estruturais, há menos mutações permitidas (<=10% da proteína e conservação muito alta devido à restrição funcional) e quase todas as posições são dependentes umas das outras, portanto quase não há combinações “seguras” de mutações, em que cada mutação impacta a atividade de uma forma aditiva; todas elas são potencialmente deletérias e, de fato, os experimentos mostram que essas regiões são incrivelmente sensíveis a mutações, quanto mais mutações multiponto. Portanto, no método provido neste documento, e implementado como os procedimentos exemplificativos FuncLib e AbLift, o espaço de sequência tolerado é identificado em primeiro lugar, usando configurações mais relaxadas (limite de estabilidade energética) do que PROSS, de modo a
13 / 92 permitir mutações mesmo em posições conservadas, e em segundo lugar enumera todas as combinações possíveis, que são mantidas em números gerenciáveis para permitir um cálculo eficaz. Em cada instância de um mutante multiponto gerado pelo método provido neste documento (FuncLib/AbLift), a cadeia principal pode mudar de conformação, permitindo assim mutações, incluindo mutações de pequeno a grande porte que são consideradas muito difíceis para o projeto computacional e até mesmo combinações de mutações de pequeno a grande porte. Todos os mutantes multiponto enumerados são então classificados por energia para garantir que apenas redes de mutações estáveis e pré-organizadas sejam selecionadas. Foi surpreendentemente notado pelos inventores da presente invenção, que muitas vezes existem centenas ou mesmo milhares de sequências com energias mais baixas (mais estáveis) do que o tipo selvagem ou a sequência original/inicial, que nunca foi vista através da aplicação de simulações de projetos combinatórios diretos ou em resultados de PROSS. Assim, o método provido neste documento é baseado em uma amostragem rigorosa do espaço de sequência com menos suposições sobre a rigidez da proteína ou sobre a contribuição aditiva de mutações para a função ou estabilidade.
[0033] Embora FuncLib e AbLift compartilhem muitos componentes computacionais, a principal diferença entre as duas implementações do método de projeto de proteína computacional provido aqui é que FuncLib é aplicado principalmente a sítios ativos de enzimas, que são expostos a solvente e, portanto, potencialmente ainda tolerantes à mutação, enquanto AbLift é aplicado à interface entre duas cadeias de proteínas (por exemplo, interface de cadeia leve/pesada em anticorpos). Essa região de interface da cadeia é tão compacta quanto um núcleo de proteína e, portanto, potencialmente menos tolerante à mutação. Observa-se aqui que PROSS, o método provido anteriormente, normalmente falha em verificar mutações em tais regiões, e AbLift é designado para verificar facilmente centenas de
14 / 92 combinações multiponto com energia melhorada (estabilidade e pré- organização).
[0034] Portanto, o método provido aqui (FuncLib/AbLift) lida com o problema de como verificar mutantes multiponto favoráveis entre posições interdependentes em regiões altamente conservadas – um resultado que PROSS explicitamente tenta evitar, outro projeto computacional em geral tipicamente falha, e estratégias de evolução in vitro experimentais muitas vezes requerem múltiplas triagens passo a passo iterativas para alcançar.
[0035] Assim, de acordo com um aspecto de algumas modalidades da presente invenção, é provido um método para projetar computacionalmente uma biblioteca de proteínas (polipeptídeos), decorrentes de um modelo/proteína original (cadeia polipeptídica original), por exemplo, uma enzima, em que membros dessa biblioteca apresentam melhorias de 10 a 4.000 vezes em uma variedade de atividades e funcionalidades, em comparação com o modelo/proteína original. Em algumas modalidades, a proteína é uma enzima com uma atividade conhecida em termos de substrato/produto/taxa e a biblioteca, que é gerada de acordo com as modalidades da presente invenção, inclui enzimas com uma ou ambas as atividades conhecidas melhoradas e/ou novas atividades. É notado que, no contexto da presente invenção, uma nova atividade pode ser vista como uma atividade conhecida como baixa ou essencialmente nula, portanto, a descrição abaixo aborda atividades novas e melhoradas, uma vez que a melhoria pode começar essencialmente de nenhuma atividade até uma atividade intensificada, independentemente da atividade conhecida.
[0036] Em termos de valores de parâmetros e unidades de energia de Rosetta, o limite de estabilidade energética mais relaxado usado em FuncLib/AbLift inclui pontuação PSSM ≥ -2 ou -1 e pontuação ΔΔG ≤ +1, +2, +3, +4, +5 ou +6, em comparação com o limite de estabilidade energética usado no PROSS, que inclui pontuação PSSM ≥ 0 e pontuação ΔΔG ≤ -0,45, -
15 / 92 0,9, -2,0, -3,0 ou -4,0.
[0037] Para a demonstração do método, a enzima com uma estrutura cristalina publicamente disponível, fosfotriesterase contendo zinco (PTE) de Pseudomonas diminuta (entrada PDB 1HZY), foi selecionada. O método aqui apresentado foi efetivamente usado para prover cadeias polipeptídicas modificadas, começando com uma cadeia polipeptídica original, tal como verificada em uma proteína de tipo selvagem correspondente ou uma variante previamente engenheirada/projetada, em que vários resíduos de aminoácidos nas cadeias polipeptídicas originais foram substituídos de modo que uma proteína expressa para ter as cadeias polipeptídicas modificadas (uma proteína variante) apresenta atividade catalítica melhorada em relação a um determinado substrato, bem como estabilidade estrutural, em comparação com a proteína de tipo selvagem. O termo “variante”, tal como aqui usado, refere- se a uma proteína projetada obtida utilizando o método aqui apresentado. Aqui e ao longo, os termos “sequência de aminoácidos” e/ou “cadeia polipeptídica” são usados também como uma referência à proteína tendo essa sequência de aminoácidos e/ou essa cadeia polipeptídica; portanto, os termos “sequência de aminoácidos original” e/ou “cadeia de polipeptídeo original” são equivalentes ou se relacionam com os termos “proteína original” e “proteína de tipo selvagem” e os termos “sequência de aminoácidos modificada” e/ou “cadeia polipeptídica modificada” e/ou “polipeptídeo projetado” são equivalentes ou se referem aos termos “proteína projetada” e “variante”.
[0038] Em algumas modalidades, a cadeia polipeptídica original, ou a proteína original, é de ocorrência natural (tipo selvagem; WT) ou artificial (de ocorrência não natural feita pelo homem), ou uma cadeia polipeptídica projetada, isto é, um produto de um método computacional, tal como PROSS.
[0039] No contexto de algumas modalidades da presente invenção, o termo “projetado” e quaisquer inflexões gramaticais do mesmo refere-se a
16 / 92 uma sequência ou proteína que não ocorre naturalmente.
[0040] No contexto de algumas modalidades da presente invenção, o termo “sequência” é usado indistintamente com o termo “proteína” quando se refere a uma proteína particular com a sequência particular.
[0041] De acordo com um aspecto de algumas modalidades da presente invenção, é provido um método para projetar computacionalmente uma cadeia polipeptídica modificada a partir de uma cadeia polipeptídica original.
[0042] As FIGs. 1A-D é uma ilustração esquemática de um algoritmo exemplificativo para executar o método para projetar computacionalmente uma cadeia polipeptídica modificada a partir de uma cadeia polipeptídica original, de acordo com algumas modalidades da presente invenção. Requisitos do método e preparação de entrada:
[0043] Os requisitos básicos para implementar o método para projetar cadeias polipeptídicas modificadas para diversificação de atividades incluem: disponibilidade de informação estrutural relativa à cadeia polipeptídica original, tal como obtida a partir de uma estrutura cristalina determinada experimentalmente da cadeia polipeptídica original, ou uma estrutura cristalina de um homólogo próximo da mesma, tendo pelo menos 30 a 60% de identidade de sequência de aminoácidos ou informação estrutural derivada computacionalmente com base em uma estrutura determinada experimentalmente de um homólogo próximo da mesma; disponibilidade opcional de análise de mutação experimental, seja mutações pontuais, combinações de mutações ou varredura mutacional profunda; e disponibilidade de dados de sequência derivados de várias proteínas homólogas de qualificação, enquanto os critérios para uma sequência homóloga de qualificação são descritos abaixo (FIG. 1A). Em alguns casos de baixa disponibilidade de proteínas homólogas, o método
17 / 92 utiliza uma abordagem única para selecionar sequências homólogas de qualificação, conforme descrito abaixo.
[0044] No contexto das modalidades da presente invenção, o termo “% de identidade de sequência de aminoácidos” ou, em resumo, “% de identidade” é usado aqui, como na técnica, para descrever a extensão em que duas sequências de aminoácidos têm os mesmos resíduos em as mesmas posições em um alinhamento. É notado que o termo “% de identidade” também é usado no contexto de sequências de nucleotídeos.
[0045] É notado aqui que, em geral, o método apresentado neste documento (por exemplo, FuncLib) não requer um modelo estrutural de um estado de transição ou sua estrutura complexa. Em vez disso, calcula redes diversas, mas estáveis, de resíduos em interação na cavidade do sítio ativo, codificando assim diferentes complementaridades estereoquímicas para substratos/ligantes alternativos que não precisam ser definidos a priori. Espera-se, portanto, que o método proveja projetos que formem um repertório funcional, a partir do qual projetos individuais que alternem com eficiência vários substratos alvo possam ser isolados. Em aplicações que alvejam um substrato específico, por outro lado, o espaço de sequência pode ser ainda mais restrito projetando a enzima na presença do substrato ou modelo de estado de transição, e essa opção é ativada no servidor da web, aqui apresentado. Preparação de dados estruturais:
[0046] De acordo com algumas modalidades da invenção, as informações estruturais são um conjunto de coordenadas atômicas da cadeia polipeptídica original. Esse conjunto de coordenadas atômicas é referido neste documento como a “estrutura de modelo”, que é usado no método conforme discutido abaixo. Em algumas modalidades, a estrutura do modelo é uma estrutura cristalina da cadeia polipeptídica original e, em algumas modalidades, a estrutura do modelo é uma estrutura gerada
18 / 92 computacionalmente com base em uma estrutura cristalina de um homólogo próximo (mais de 30 a 60% de identidade) da cadeia polipeptídica original, em que a sequência de aminoácidos da cadeia polipeptídica original foi enroscada na mesma e submetida a ajuste ponderado para proporcionar a minimização de energia da mesma, conforme discutido abaixo.
[0047] Nos casos em que a proteína de interesse é um oligômero (tendo várias cadeias polipeptídicas), a cadeia de interesse, ou as cadeias polipeptídicas originais a serem modificadas, são definidas na estrutura do modelo. No caso de hetero-oligômeros, é necessário selecionar a cadeia que será submetida ao procedimento de projeto da sequência ou submeter ambas as cadeias a projeto simultâneo. Para homo-oligômeros é vantajoso selecionar a cadeia polipeptídica original contendo dados estruturais de mais ou melhor qualidade. Por exemplo, em alguns homo-oligômeros, os íons de ligação podem ser discerníveis em uma estrutura cristalina em algumas das cadeias e menos em outras. Além disso, é vantajoso definir resíduos-chave relacionados à função e atividade, como discutido a seguir. Refinamento da estrutura:
[0048] De acordo com algumas modalidades, antes de seu uso no método aqui apresentado, a estrutura do modelo é opcionalmente submetida a uma minimização de energia global, proporcionada pelo seu ajuste ponderado, conforme discutido abaixo.
[0049] De acordo com algumas modalidades da presente invenção, a estrutura do modelo é opcionalmente refinada por minimização de energia antes de usar suas coordenadas, enquanto fixa as conformações de resíduos de chave, conforme definido abaixo. O refinamento da estrutura é um procedimento de rotina em química computacional e normalmente envolve ajuste de peso com base na minimização de energia livre, sujeito a regras, como restrições harmônicas.
[0050] O termo “ajuste de peso”, de acordo com algumas modalidades
19 / 92 de qualquer modalidade da presente invenção, refere-se a um ou mais procedimentos ou operações de refinamento de estrutura computacional, visando otimizar critérios geométricos, espaciais e/ou de energia, minimizando funções polinomiais com base em pesos predeterminados, restrições e limitações (constantes) pertencentes a, por exemplo, pontuações de homologia de sequência, ângulos diédricos de cadeia principal e/ou posições atômicas (variáveis) da estrutura refinada. De acordo com algumas modalidades, um procedimento de ajuste de peso inclui um ou mais de uma modulação de comprimentos e ângulos de ligação, ângulos diédricos de cadeia principal (Ramachandran), empacotamento de cadeia lateral de aminoácidos (rotâmeros) e uma substituição iterativa de um aminoácido, enquanto os termos “modulação de comprimentos e ângulos de ligação”, “modulação de ângulos diédricos de cadeia principal”, “empacotamento de cadeia lateral de aminoácidos” e “mudança de sequência de aminoácidos” também são usados neste documento para se referir a, entre outros, procedimentos e operações de otimização bem conhecidos que são amplamente usados no campo da química e biologia computacional. Um procedimento de minimização de energia exemplificativo, de acordo com algumas modalidades da presente invenção, é a descida de coordenada cíclica (CCD), que pode ser implementada com a função de energia de todos os átomos padrão no pacote de software Rosetta™ para modelagem macromolecular. Para uma revisão das abordagens gerais de otimização, ver, por exemplo, “Encyclopedia of Optimization” de Christodoulos A. Floudas e Panos M. Pardalos, Springer Pub., 2008.
[0051] De acordo com algumas modalidades da presente invenção, uma plataforma computacional adequada para executar o método aqui apresentado é a plataforma do pacote de software Rosetta™, disponível publicamente em “Rosetta@home” no laboratório Baker, Universidade de Washington, EUA. Resumidamente, Rosetta™ é um pacote de software de modelagem molecular para a compreensão de estruturas de proteínas, projeto
20 / 92 de proteínas, encaixe de proteínas, interações proteína-DNA e proteína- proteína. O software Rosetta contém vários módulos funcionais, incluindo RosettaAbinitio, RosettaDesign, RosettaDock, RosettaAntibody, RosettaFragments, RosettaNMR, RosettaDNA, RosettaRNA, RosettaLigand, RosettaSymmetry e muito mais.
[0052] O ajuste de peso, de acordo com algumas modalidades, é efetuado sob um conjunto de restrições, limitações e pesos, referidos como regras. Por exemplo, ao refinar as posições atômicas da cadeia principal e os ângulos diédricos de qualquer segmento de polipeptídeo com uma primeira conformação, de modo a conduzir em direção a uma segunda conformação diferente enquanto tenta preservar os ângulos diédricos observados na segunda conformação tanto quanto possível, o procedimento computacional usaria restrições harmônicas que influenciam, por exemplo, as posições Cα, e restrições harmônicas que influenciam os ângulos diédricos de cadeia principal a se afastarem livremente daqueles observados na segunda conformação, permitindo assim que a mudança conformacional mínima ocorra por cada determinante estrutural enquanto conduz a cadeia principal geral para mudar para a segunda conformação.
[0053] Em algumas modalidades, uma minimização de energia global é vantajosa devido às diferenças entre a função de energia que foi usada para determinar e refinar a fonte da estrutura do modelo, e a função de energia usada pelo método aqui apresentado. Ao permitir que as mudanças ocorram na conformação da cadeia principal e na conformação do rotâmero por meio da minimização, a minimização de energia global alivia pequenas incompatibilidades e pequenos confrontos estéricos, reduzindo assim a energia livre total de algumas estruturas de modelo em uma quantidade significativa.
[0054] Em algumas modalidades, a minimização de energia pode incluir iterações de amostragem de rotâmero (reempacotamento) seguido por cadeia lateral e minimização de cadeia principal. Um protocolo de refinamento
21 / 92 exemplificativo é provido em Korkegian, A. et al., Science, 2005. Em algumas modalidades, a minimização de energia pode incluir minimização de energia mais substancial na cadeia principal da proteína.
[0055] Conforme usado neste documento, os termos “amostragem de rotâmero” e “reempacotamento” referem-se a um procedimento de ajuste de peso específico em que ângulos diédricos de cadeia lateral favoráveis são amostrados, conforme definido no pacote de software Rosetta. O reempacotamento normalmente introduz mudanças estruturais maiores na estrutura ajustada por peso, em comparação com a minimização de ângulos diédricos padrão, uma vez que este último mostra pequenas mudanças na conformação do resíduo, enquanto o reempacotamento pode oscilar uma corrente lateral em torno de um ângulo diédrico de modo que ocupe um espaço totalmente diferente na estrutura da proteína.
[0056] Em algumas modalidades, em que a estrutura do modelo é de uma proteína homóloga, a sequência de consulta é primeiro encadeada na estrutura do modelo da proteína usando procedimentos computacionais bem estabelecidos. Por exemplo, ao usar o pacote de software Rosetta, de acordo com algumas modalidades da presente invenção, as duas primeiras iterações são feitas com uma função de energia “suave” em que os raios do átomo são definidos como menores. O uso de valores de raio menores reduz as fortes forças de repulsão, resultando em uma paisagem de energia mais suave e permitindo que as barreiras de energia sejam cruzadas. As próximas iterações são feitas com a função de energia Rosetta padrão. Um termo de “restrição de coordenada” pode ser adicionado à função de energia padrão para permitir desvios substanciais das coordenadas Cα originais. O termo de restrição de coordenada se comporta harmonicamente (lei de Hooke), com um peso variando entre cerca de 0,05-0,4 r.e.u (unidades de energia de Rosetta), dependendo do grau de identidade entre a sequência de consulta e a sequência da estrutura do modelo. Durante o refinamento, os resíduos principais são
22 / 92 apenas submetidos a uma pequena minimização de alcance, mas não à amostragem do rotâmero. Preparação de dados de sequência:
[0057] Uma vez que uma cadeia polipeptídica original tenha sido identificada e uma estrutura de modelo correspondente tenha sido provida, o método requer a montagem de um banco de dados de sequências de aminoácidos homólogas qualificadas relacionadas com a sequência de aminoácidos da cadeia polipeptídica original. A sequência de aminoácidos da cadeia polipeptídica original pode ser extraída, por exemplo, de um arquivo FASTA que está tipicamente disponível para proteínas no banco de dados de proteínas (PDB) ou provida de outra forma. A pesquisa de sequências homólogas qualificantes é feita, de acordo com algumas modalidades da presente invenção, no banco de dados de proteínas não redundantes (nr), usando a sequência da cadeia polipeptídica original como uma consulta de pesquisa. Esse banco de dados nr normalmente contém sequências anotadas manual e automaticamente e, portanto, é muito maior do que bancos de dados que contêm apenas sequências anotadas manualmente.
[0058] Exemplos não limitativos de bancos de dados de sequência de proteínas incluem bancos de dados de sequência de nucleotídeos INSDC EMBL-Bank/DDBJ/GenBank, Ensembl, FlyBase (para a família de insetos Drosophilidae), Banco de Dados H-Invitational (H-Inv), International Protein Index (IPI), Protein Information Resource (PIR-PSD), Protein Data Bank (PDB), Protein Research Foundation (PRF), RefSeq, Banco de Dados de Genoma Saccharomyces (SGD), The Arabidopsis Information Resource (TAIR), TROME, UniProtKB/Swiss-Prot, Isoformas de proteínas UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Vertebrate and Genome Annotation Database (VEGA), WormBase, Instituto Europeu de Patentes (EPO), Escritório Japonês de Patentes (JPO) e Escritório de Patentes e Marcas dos Estados Unidos (USPTO).
23 / 92
[0059] Uma pesquisa em um banco de dados nr produz resultados variáveis dependendo da consulta de pesquisa (sequência de aminoácidos da cadeia polipeptídica original). Para proteínas com falta de dados de sequência, os resultados podem incluir menos de 10 acertos. Para proteínas comuns a todos os reinos da vida, os resultados podem incluir milhares de acertos. Para a maioria das proteínas, centenas a milhares de resultados são esperados na pesquisa em um banco de dados nr. Em todos os bancos de dados, incluindo um banco de dados nr e apesar do nome, pode haver redundância até certo ponto e os resultados podem ser verificados em grupos de sequências idênticas. O problema de redundância é abordado durante a edição dos dados de sequência.
[0060] Em algumas modalidades da invenção, os dados de sequência obtidos são opcionalmente filtrados e editados da seguinte forma: a) Sequências redundantes são agrupadas em uma única sequência representativa. O agrupamento é realizado com um limite predeterminado. Por exemplo, um limite de 0,97 significa que todas as sequências que compartilham pelo menos 97% de identidade entre si são agrupadas em uma única sequência representativa que é a média de todas as sequências que contribuem para o agrupamento; b) Sequências para as quais o comprimento do alinhamento é menor que um limite predeterminado (por exemplo, 60%) do comprimento da consulta de pesquisa são excluídas; e c) Sequências que apresentam menos de cerca de 28% a 34% de corte de identidade, por exemplo, com relação à consulta de pesquisa são excluídas, seguindo as diretrizes providas em outro lugar [Rost, B., Protein Eng, 1999, 12(2):85-94].
[0061] A escolha exata do parâmetro de identidade mínimo depende da riqueza dos dados da sequência. Portanto, de acordo com algumas modalidades da invenção, se o número de acertos de sequência
24 / 92 proporcionados sob um limite estrito for cerca de 50 ou menos, um limite menos estrito pode ser usado (% de identidade inferior). O efeito da sintonia do limite do parâmetro de identidade é demonstrado no projeto de uma fosfotriesterase de pseudomonas diminuta, onde a redução do limite de 30% para 28% de identidade aumentou o número de sequências homólogas de qualificação de 45 para 95.
[0062] Em algumas modalidades da invenção, o corte para a seleção de sequências homólogas de qualificação para um alinhamento de sequência múltipla é mais de 20%, 25%, 30%, 35%, 40% ou mais de 50% de identidade em relação à cadeia polipeptídica original.
[0063] É notado que o método não está limitado a qualquer banco de dados de sequência particular, método de pesquisa, algoritmo de determinação de identidade, e qualquer conjunto de critérios para sequências homólogas de qualificação. No entanto, a qualidade dos resultados obtidos pelo uso do método depende, em certa medida, da qualidade dos dados da sequência de entrada.
[0064] Uma vez que uma montagem de sequências homólogas de qualificação é obtida, um alinhamento de sequência múltipla (MSA) é gerado (FIG. 1A), normalmente usando um algoritmo de alinhamento de sequência múltipla designado, como aquele implementado em MUSCLE [Edgar, R.C., Nucleic Acids Res, 2004, 32(5): 1792-1797]. Alternativamente, uma Ferramenta Básica de Pesquisa de Alinhamento Local (BLAST) pode ser usada para gerar arquivos MSA. Casos de baixa disponibilidade de proteínas homólogas:
[0065] Geralmente, adicionar sequências que apresentam uma % de identidade abaixo de 20% a um MSA com dezenas de sequências homólogas de % de identidade mais alta pode contribuir com diversidade para o alinhamento; no entanto, adicionar esse tipo de sequências de baixa % de identidade aumenta o risco de erros (falsos positivos) significativamente,
25 / 92 embora não necessariamente melhore a diversidade em muito, uma vez que a maior parte dessa diversidade provavelmente será coberta pelas sequências de alta homologia que já faziam parte do MSA. Por outro lado, quando a proteína de interesse está mal representada no banco de dados de sequência, o uso de um homólogo de baixa % de identidade torna-se uma vantagem em vez de um risco.
[0066] Em alguns casos, a proteína de interesse está mal representada nas bases de dados de sequências de proteínas atualmente disponíveis em termos do número de sequências homólogas não redundantes. Por exemplo, no caso de uma pesquisa de homologia de sequência verificar apenas uma sequência homóloga com 60% de identidade de sequência com a proteína de interesse, isso significa que o método é limitado a zero substituições de aminoácidos em 60% das posições de sequência e fora do restantes 40%, teria sido difícil identificar uma posição com mais do que poucas alternativas de aminoácidos.
[0067] Em tais casos, os presentes inventores previram vários cenários onde métodos de pesquisa de homologia de sequência padrão podem resultar em diversidade de sequência baixa dentro do espaço de sequências homólogas (por exemplo, menos de 50%, menos de 40%, menos de 30%, menos de 25 % (a “zona crepuscular”) ou menos de 20% de identidade de sequência em relação à sequência de aminoácidos da proteína de interesse). Um exemplo para tal cenário é quando a dobra da proteína de interesse (a proteína alvo, também referida aqui como a cadeia polipeptídica original) é única ou filogeneticamente restrita a gêneros ou filos particulares, ou a função da proteína surgiu nos últimos milênios e a proteína de interesse tem, portanto, poucos homólogos. Foi imaginado pelos presentes inventores que em tal ou em outros casos de diversidade de sequência baixa, as seguintes etapas poderiam ser tomadas para aumentar a diversidade de sequência usada pelo método presentemente provido, enquanto minimiza o risco de introdução de
26 / 92 sequências não relacionadas.
[0068] Um subalgoritmo exemplificativo para o tratamento de tais casos é descrito na Publicação do Pedido de Patente dos Estados Unidos nº 2017/0032079, que é aqui incorporado por referência. O raciocínio geral por trás deste subalgoritmo é aumentar o número de sequências homólogas no MSA tanto quanto possível, minimizando o risco de incluir sequências não relacionadas; por exemplo, levando em consideração o fato de que a dobra da proteína de interesse é única e/ou filogeneticamente distante dos organismos típicos interrogados por esforços de sequenciamento.
[0069] Etapa 1: pesquisar sequências homólogas de baixa identidade de sequência (por exemplo, menos de 50%, menos de 40%, menos de 30%, menos de 25% ou menos de 20% de identidade de sequência; preferivelmente menos de 30% de identidade) em qualquer determinado banco de dados de sequência usando um algoritmo especializado na detecção de homólogos distantes (por exemplo, CSI-BLAST; ver PMIDs: 19234132, 18004781); Etapa 2: agrupar os resultados da Etapa 1 usando um limite de agrupamento de 90 a 100% (ver, por exemplo, PMID: 11294794); Etapa 3: remover sequências com cobertura abaixo de 40% em relação à cadeia polipeptídica original (proteína de interesse) e identidade de sequência menor que 15%; Etapa 4: inspecionar a anotação e o organismo de origem de cada sequência da lista resultante da Etapa 3 e excluir as sequências com alta chance de serem falsos positivos. Exemplos não limitativos são acertos que não têm anotação de função molecular (tipicamente estes são anotados como “proteína hipotética”), sequências de gêneros ou filos diferentes do gênero ou filo da proteína de interesse, ou proteínas que são anotadas com funções que são diferentes da função da proteína de interesse; Etapa 5 Excluir sequências que têm mais de 5%, mais de 4%, mais de 3%, mais de 2%, mais de 1% ou mais de 0,5% de lacunas (inserções
27 / 92 ou deleções, conhecidas pela sigla INDELs), preferivelmente menos de 5% de lacunas em um alinhamento de pares com a cadeia polipeptídica original (ver, por exemplo, PMID: 18048315); Etapa 6: Combinar as sequências resultantes da Etapa 5 com sequências de alta identidade de sequência (isto é, mais de 30% de identidade de sequência com a proteína de interesse) que foram coletadas e processadas usando qualquer protocolo de busca de identidade de sequência e gerar um alinhamento de sequência múltipla (MSA). Esse MSA pode então ser usado como entrada pelo método aqui apresentado, mesmo que contenha poucas (menos de 3 a 10) sequências.
[0070] A seguir está um exemplo mais específico, mas não limitativo: Etapa I: Usar o algoritmo de pesquisa CSI-BLAST em vez de BLASTP para identificar homólogos. O uso de um algoritmo de busca de sequência alternativo para verificar homólogos distantes, como usar CSI- BLAST (BLAST iterativo específico do contexto) com 3 iterações em vez de BLASTP é vantajoso em alguns casos, uma vez que CSI-BLAST constrói uma matriz de substituição diferente para calcular pontuações de alinhamento. A matriz CSI-BLAST é específica do contexto (isto é, cada probabilidade de posição depende também de 12 aminoácidos vizinhos), portanto, verifica 50% mais sequências homólogas do que BLAST com a mesma taxa de erro. O uso iterativo significa que esse processo é repetido e ao final de cada rodada a matriz de substituição é atualizada de acordo com a sequência de informações dos homólogos coletados até aquele ponto.
[0071] Etapa II: Usar limites mínimos de identidade de sequência de 19% e 15% para alinhamentos estritos e permissivos, respectivamente. Reduzir o limite mínimo de identidade de sequência para 15% (alinhamento permissivo) e 19% (alinhamento estrito) durante o uso de BLASTP pode ser sem sentido, uma vez que o BLASTP é ajustado para verificar sequências com maior identidade de sequência para o alvo. Em segundo lugar, estes limites
28 / 92 são escolhidos de acordo com os resultados obtidos na pesquisa CSI-BLAST; portanto, esses limites são definidos após a pesquisa CSI-BLAST e dependem do resultado; especificamente, os limites podem precisar ser ajustados para obter mais resultados positivos verdadeiros ou menos resultados positivos falsos, onde os positivos verdadeiros são resultados com uma anotação funcional e origem filogenética que correspondem aos requisitos da Etapa III, abaixo.
[0072] Etapa III: Excluir sequências de gêneros ou filos diferentes daquele correspondente à proteína de interesse se for esperado que a dobra ou função do alvo da proteína seja única para o gênero ou filo da proteína alvo. Se essa expectativa se mantiver, proteínas de gêneros e filos fora daqueles da proteína alvo provavelmente serão resultados falso positivos; isto é, proteínas que adotam diferentes dobras ou funções.
[0073] Etapa IV: Usar uma fração INDEL de até 1% para sequências que compartilham identidade de sequência abaixo de 19%, em alinhamento de pares com a consulta. No tratamento de lacunas/INDELs, pode ser necessário que a fração de INDELS de alinhamento em pares CSI-BLAST seja de até 1% para a sequência com % de identidade mínima abaixo de 19%. O raciocínio é que, para sequências de baixa homologia que compartilham uma identidade de sequência tão pequena para a consulta, o risco de inserir falsos positivos no MSA é muito alto, mas uma pequena fração de INDEL indica que essas são provavelmente acertos verdadeiros.
[0074] Etapa V: Usar o limite de cobertura de sequência para acertos relativos à proteína alvo no alinhamento a 50%. É provável que todas as sequências que passaram nos critérios estabelecidos nas Etapas II, III e IV apresentem uma cobertura de mais de 50%; no entanto, se o limite de cobertura for definido para 60%, como normalmente praticado na técnica, a maioria das sequências seria filtrada.
[0075] Etapa VI: Gerar MSA para as sequências restantes, conforme
29 / 92 praticado tipicamente na técnica. Regiões de alça variável:
[0076] Os algoritmos BLAST podem prover resultados que incluem sequências com comprimentos diferentes. As diferenças normalmente decorrem de diferentes comprimentos em regiões de alça, e alças com diferentes comprimentos podem refletir diferentes contextos bioquímicos. Como resultado, as colunas MSA que representam as posições da alça podem conter resíduos alinhados de alças com comprimento diferente, possivelmente degradando os dados com informações de diferentes contextos bioquímicos, possivelmente irrelevantes para o contexto bioquímico da proteína de interesse. Um acerto do BLAST pode, portanto, conter informações relevantes em algumas posições, enquanto contém informações não relevantes em outras posições. Para minimizar o nível de informação de sequência irrelevante para cada alça, a estrutura secundária da proteína original é identificada e um arquivo sub-MSA específico de contexto é criado para cada região de alça, e o sub-MSA contém apenas sequências de alça com o mesmo comprimento.
[0077] A identificação da estrutura secundária é feita através da identificação de padrões de ligações de hidrogênio na estrutura e isso é denominado “dicionário de estrutura secundária de proteínas” (DSSP). Existem vários pacotes de software disponíveis que oferecem essa análise, como, por exemplo, um módulo Rosetta™ para identificação de alça.
[0078] A saída do procedimento de identificação da estrutura secundária é normalmente uma cadeia (isto é, uma cadeia de saída) que tem o mesmo comprimento que a estrutura do modelo, em que cada caractere representa um resíduo em um elemento da estrutura secundária que pode ser H, E ou L, denotando um aminoácido que forma uma parte de uma hélice α, uma folha β ou uma alça.
[0079] De acordo com algumas modalidades da invenção, a sequência de aminoácidos das regiões de alça na estrutura da proteína original é
30 / 92 processada da seguinte forma: (a) As alças na estrutura do modelo são identificadas por inspeção automática ou manual de um modelo de estrutura e/ou por quaisquer algoritmos de análise de estrutura secundária. (b) As posições que representam cada alça na cadeia de saída são determinadas incluindo as hastes da alça (dois aminoácidos adicionais em cada extremidade da alça). Para contabilizar as hastes, duas posições são adicionadas a cada uma das extremidades da alça, a menos que a alça esteja em um dos terminais da cadeia principal. De acordo com algumas modalidades da invenção, é vantajoso incluir as hastes na definição de alça, uma vez que hastes que ancoram diferentes alças podem potencialmente apresentar diferentes conformações e formar diferentes contatos entre si ou com os resíduos de alça, e é vantajoso que os dados de sequência usados como entrada no método apresentado representem isso.
[0080] Por exemplo, se a cadeia de saída da estrutura secundária for:
LLLHHHHHHHLLLLLHHHHHLLLEEEE então as regiões de alça são definidas nas posições 1-5, 9-17 e 19-25 (caracteres em negrito).
[0081] (c) As posições que representam cada alça são identificadas na sequência de consulta no MSA. As posições da alça no MSA podem ser diferentes das posições da alça na sequência original da etapa anterior, pois no MSA a consulta está alinhada com outras sequências e pode, portanto, conter caracteres de aminoácidos e hifens, representando lacunas.
[0082] (d) Depois que as posições da alça foram localizadas na sequência de consulta no MSA, um padrão de caractere é definido para cada alça. Por exemplo, um padrão pode compreender o caractere “X” para representar um aminoácido e “-” (hífen) para representar uma lacuna.
[0083] (e) Por último, um arquivo sub-MSA específico de contexto é gerado para cada alça, excluindo todas as sequências que não compartilham o
31 / 92 mesmo padrão de caractere para essa alça, isto é, sub-MSA específico de contexto contém sequências em que a alça tem o mesmo comprimento, lacunas incluídas.
[0084] Por exemplo, as posições 4-10 em uma proteína original hipotética são reconhecidas como uma alça com a sequência hipotética “APTESVV” incluindo hastes. A alça é identificada na proteína de consulta no arquivo MSA e o padrão é considerado “A--PTESVV”. O arquivo sub- MSA específico do contexto que será gerado para essa alça com todas as sequências no arquivo MSA conterá o padrão “X--XXXXX”.
[0085] Assim, de acordo com algumas modalidades da presente invenção, para regiões de alça, o alinhamento de sequência compreende sequências de aminoácidos com comprimento de sequência igual a uma alça correspondente na cadeia polipeptídica original. Por conseguinte, os alinhamentos de sequência, que são relevantes no contexto das regiões de alça, são referidos neste documento como “sub-MSA específico do contexto”. Regras para substituições:
[0086] O método exige a identificação de resíduos substituíveis. A seleção de resíduos substituíveis pode depender de decisões guiadas por especialistas sobre as posições de mutação. Essas posições são tipicamente posições no sítio ativo de uma enzima que não são cruciais para a atividade catalítica central, mas estão nas proximidades (primeira camada) do substrato ou nas proximidades das posições da primeira camada (segunda camada), etc.
[0087] Em algumas modalidades da presente invenção, um conjunto de restrições, limitações e pesos são usados como regras que regem alguns dos procedimentos computacionais. No contexto de algumas modalidades da presente invenção, essas regras são aplicadas no método aqui apresentado para determinar qual das posições na cadeia polipeptídica original será permitida permutar (ser substituída) e a qual alternativa de aminoácido. Essas regras também podem ser usadas para preservar, pelo menos até certo ponto, algumas
32 / 92 posições na sequência da cadeia polipeptídica original.
[0088] Uma das regras utilizadas nas alterações da sequência de aminoácidos provém de padrões de sequência altamente conservados em posições específicas, que são tipicamente apresentados em famílias de proteínas estruturalmente similares. De acordo com algumas modalidades da presente invenção, as regras pelas quais uma substituição de aminoácidos é ditada durante um procedimento de projeto de sequência incluem valores de matriz de pontuação específicos de posição, ou PSSMs.
[0089] Uma “matriz de pontuação específica de posição” (PSSM), também conhecida na técnica como matriz de peso de posição (PWM), ou uma matriz de peso específico de posição (PSWM), é uma representação comumente usada de padrões recorrentes em sequências biológicas, com base na frequência de aparecimento de um personagem (monômero; aminoácido; ácido nucleico, etc.) em uma determinada posição ao longo da sequência. Assim, PSSM representa a probabilidade logarítmica de observar mutações em qualquer um dos 20 aminoácidos em cada posição. Os PSSMs são frequentemente derivados de um conjunto de sequências alinhadas que são consideradas estrutural e funcionalmente relacionadas e se tornaram amplamente usadas em muitas ferramentas de software para revelação de motivos computacionais. No contexto das sequências de aminoácidos, um PSSM é um tipo de matriz de pontuação usada em pesquisas de proteína BLAST nas quais as pontuações de substituição de aminoácidos são dadas separadamente para cada posição em um alinhamento de sequência múltipla de proteína. Assim, uma substituição Tyr-Trp na posição A de um alinhamento pode receber uma pontuação muito diferente do que a mesma substituição na posição B, sujeita a diferentes níveis de conservação de aminoácidos nas duas posições. Isso está em contraste com as matrizes independentes de posição, como as matrizes PAM e BLOSUM, nas quais a substituição de Tyr-Trp recebe a mesma pontuação, independentemente da
33 / 92 posição em que ocorre. As pontuações PSSM são geralmente mostradas como números inteiros positivos ou negativos. Pontuações positivas indicam que a dada substituição de aminoácidos ocorre com mais frequência no alinhamento do que o esperado ao acaso, enquanto pontuações negativas indicam que a substituição ocorre com menos frequência do que o esperado. Pontuações positivas grandes geralmente indicam resíduos funcionais críticos, que podem ser resíduos do sítio ativo ou resíduos necessários para outras interações intermoleculares ou intramoleculares. Os PSSMs podem ser criados usando a Ferramenta de Pesquisa de Alinhamento Local Básico Iterativa de Posição Específica (PSI-BLAST) [Schäffer, A.A. et al., Nucl. Acids Res., 2001, 29(14), pp. 2994-3005], que verifica sequências de proteínas similares a uma sequência de consulta e, em seguida, constrói um PSSM a partir do alinhamento resultante. Alternativamente, os PSSMs podem ser recuperados do banco de dados de domínios conservados do National Center for Biotechnology Information (NCBI CDD), uma vez que cada domínio conservado é representado por um PSSM que codifica as substituições observadas nos alinhamentos de sementes. Esses registros de CD podem ser verificados por pesquisa de texto em Entrez Conserved Domains ou usando BLAST específico de posição reversa (RPS-BLAST), também conhecido como CD-Search, para localizar esses domínios em uma sequência de proteína de entrada.
[0090] No contexto de algumas modalidades da presente invenção, um arquivo de dados PSSM pode estar na forma de uma tabela de números inteiros, cada um indicando quão evolutivamente conservado é qualquer um dos 20 aminoácidos em qualquer posição possível na sequência da proteína projetada. Como indicado acima, um número inteiro positivo indica que um aminoácido é mais provável na posição dada do que seria em uma posição aleatória em uma proteína aleatória, e um número inteiro negativo indica que um aminoácido é menos provável na posição dada do que seria em uma
34 / 92 proteína aleatória. Em geral, as pontuações PSSM são determinadas de acordo com uma combinação das informações no MSA de entrada e informações gerais sobre as substituições de aminoácidos na natureza, conforme introduzidas, por exemplo, pela matriz BLOSUM62 [Eddy, S.R., Nat Biotechnol, 2004, 22(8), pp. 1035-6].
[0091] Em geral, o método aqui apresentado pode usar a saída PSSM de um pacote de software PSI-BLAST para derivar um PSSM para o MSA original e todos os arquivos sub-MSA. Um arquivo de entrada PSSM final, de acordo com algumas modalidades da presente invenção, inclui as linhas relevantes de cada arquivo PSSM. Para posições de sequência que representam uma estrutura secundária, as linhas relevantes são copiadas do PSSM derivado do MSA completo original. Para cada alça, as linhas relevantes são copiadas do PSSM derivado do arquivo sub-MSA que representa essa alça. Assim, de acordo com algumas modalidades da presente invenção, um arquivo de entrada PSSM final é uma representação quantitativa dos dados de sequência, que é incorporado nos cálculos estruturais, conforme discutido a seguir.
[0092] De acordo com algumas modalidades da presente invenção, as regras baseadas em MSA e PSSM determinam as posições insubstituíveis e as posições substituíveis na sequência de aminoácidos da cadeia polipeptídica original e determinam ainda quais das alternativas de aminoácidos servirão como alternativas candidatas na etapa de varredura de posição única do método, como discutido abaixo. Resíduos-chave:
[0093] O método, de acordo com algumas modalidades da presente invenção, permite a incorporação de informações sobre a cadeia polipeptídica original e/ou a proteína de tipo selvagem. Essa informação, que pode ser provida por várias fontes, é incorporada ao método como parte das regras pelas quais as substituições de aminoácidos são regidas durante o
35 / 92 procedimento de projeto. Embora opcional, a adição de tal informação é vantajosa, pois reduz a probabilidade do método prover resultados que incluem substituições de dobra e/ou anulação de função. Nos exemplos apresentados na seção Exemplo abaixo, informações valiosas sobre a atividade foram utilizadas com sucesso como parte das regras.
[0094] O termo “resíduos-chave” refere-se a posições na sequência projetada que são definidas nas regras como fixas (invariáveis), pelo menos até certo ponto. Posições de sequência que são ocupadas por resíduos-chave opcionalmente constituem uma parte das posições não substituíveis.
[0095] As informações relativas aos resíduos-chave podem ser extraídas, por exemplo, da estrutura da cadeia polipeptídica original (ou da estrutura do modelo) ou de outras estruturas altamente similares, quando disponíveis. Critérios exemplificativos que podem auxiliar na identificação de resíduos-chave e fundamentar o raciocínio para a fixação de um tipo de aminoácido ou identidade em qualquer posição dada, incluem:
[0096] No método de projeto de estabilização de proteína provido anteriormente, PROSS, quando usado para prover variantes de enzima estabilizadas, os resíduos-chave são selecionados dentro de um raio de cerca de 5 a 8 Å em torno do sítio de ligação do substrato, como pode ser inferido a partir de estruturas cristalinas complexas compreendendo um substrato, um análogo de substrato, um inibidor e similares. Da mesma forma, ao usar PROSS para prover proteínas de ligação de metal estabilizadas, os resíduos- chave são selecionados dentro de cerca de 5 a 8 Å em torno de um átomo de metal. Outros resíduos-chave podem ser designados na interface de proteína que envolve a cadeia de interesse em um oligômero, uma vez que as cadeias de interação estão frequentemente envolvidas em interfaces de dimerização, ligantes de aglutinação ou interações proteína-substratos. Da mesma forma, os resíduos-chave podem ser designados a uma certa distância das cadeias de DNA/RNA que interagem com a proteína de interesse, a uma certa distância
36 / 92 de uma região de epítopo e similares.
[0097] É notado que a forma e o tamanho do espaço dentro do qual os resíduos-chave são selecionados não se limitam a uma esfera com um raio de 5 a 8 Å; o espaço pode ter qualquer tamanho e forma que corresponda à sequência, função e estrutura da proteína original. É adicionalmente notado que resíduos-chave específicos podem ser providos por qualquer fonte externa de informação (por exemplo, um pesquisador).
[0098] No contexto da presente invenção, os resíduos-chave são selecionados com moderação (≤10 posições, e mais tipicamente 0 a 3 posições), mesmo e particularmente em e em torno das regiões da atividade que o método está tentando diversificar ou melhorar. Essa estratégia permite que as regiões determinantes da atividade se diversifiquem enquanto a estabilidade da proteína não é sacrificada.
[0099] Quando a estrutura do modelo, o arquivo PSSM (que é baseado no MSA completo e em qualquer sub-MSA específico de contexto opcional) e a identificação de resíduos-chave, posições insubstituíveis e posições substituíveis são providos, o método aqui apresentado pode usar esses dados para prover a cadeia polipeptídica modificada a partir da cadeia polipeptídica original. Principais etapas do método:
[00100] O objetivo do método provido neste documento (FuncLib/AbLIFT) é projetar um pequeno conjunto de mutantes de sítio ativo multiponto estáveis, eficientes e funcionalmente diversos adequados para testes experimentais de baixo rendimento. A estratégia de projeto é geral e pode ser aplicada, em princípio, a qualquer enzima natural ou proteína projetada, usando sua estrutura molecular e um conjunto diversificado de sequências homólogas.
[00101] De acordo com algumas modalidades da presente invenção, o método aqui apresentado inclui uma etapa que determina quais das posições
37 / 92 na sequência de aminoácidos da cadeia polipeptídica original serão submetidas à substituição de aminoácidos e quais alternativas de aminoácidos serão avaliadas. (referidas aqui como posições substituíveis), e em que posições na sequência de aminoácidos da cadeia polipeptídica original o aminoácido não será submetido a substituição de aminoácidos (referidas aqui como posições insubstituíveis).
[00102] Em uma etapa seguinte, (etapa de varredura de posição única), uma pontuação de estabilidade de posição específica é dada a cada uma das alternativas de aminoácidos permitidas em cada posição substituível. Nos casos de repertório de enzimas, os resíduos do sítio ativo foram definidos para serem projetados por exame visual das estruturas moleculares da enzima. As pontuações de conservação evolutiva foram calculadas a partir de PSSMs e os valores ΔΔG foram calculados essencialmente como descrito anteriormente [Goldenzweig, A. et al. Mol Cell., 2016, 63(2), pp. 337-346]. As identidades de aminoácidos toleradas no sítio ativo de PTE foram filtradas de acordo com os seguintes limites: PSSM ≥ -2 e ΔΔG ≤ +6 R.e.u.
[00103] É notado que a descrição detalhada do método aqui apresentado está usando alguns termos, unidades e procedimentos que são comuns ou exclusivos ao pacote de software Rosetta™, no entanto, deve ser entendido que o método é capaz de ser implementado usando outros módulos e pacotes de software, e outros termos, unidades e procedimentos são, portanto, contemplados dentro do escopo da presente invenção.
[00104] É também notado que a descrição detalhada do método aqui apresentado está usando as proteínas e variáveis apresentadas na seção de Exemplos, que não devem ser vistas como limitativos de qualquer forma, uma vez que o método é aplicável para qualquer proteína e sequência de cadeia polipeptídica para que os dados necessários estão disponíveis.
[00105] De acordo com algumas modalidades da presente invenção, a seguinte etapa do método é uma enumeração exaustiva de todas as
38 / 92 combinações possíveis de pelo menos 3 e até 5, 6, 7, 8, 9, 10 ou mais seis mutações na cadeia polipeptídica original (por exemplo, de PTE). Cada mutante foi modelado em Rosetta, incluindo empacotamento combinatório de cadeia lateral, e a cadeia principal e cadeias laterais de todos os resíduos foram minimizadas energeticamente, sujeitas a restrições harmônicas nas coordenadas Cα de toda a proteína (sendo composta por uma cadeia polipeptídica ou mais). Todas as cadeias polipeptídicas projetadas (proteínas projetadas ou “projetos” para abreviar) foram classificadas de acordo com a energia de todos os átomos, e os projetos com classificação superior foram escolhidos para análise experimental após a remoção de projetos com menos de duas mutações em relação uma à outra.
[00106] Conforme declarado acima, uma das principais diferenças entre o PROSS e o método provido neste documento é a etapa de projeto combinatório em PROSS que está sendo substituída por uma etapa de enumeração abrangente no método instantâneo. No estudo exemplificativo apresentado aqui, o teste em pequena escala do método provido neste documento (FuncLib/AbLift) provou ser suficiente para identificar variantes que apresentaram mudanças de ordens de magnitude nos perfis de atividade enzimática sem perda na estabilidade aparente da proteína. O método pode, portanto, ser usado para otimizar rapidamente atividades específicas ou gerar repertórios funcionais de enzimas que não são passíveis de triagem de alto rendimento. Considerando que as estratégias convencionais de projeto de sítio ativo dependem da modelagem de estado de transição, o método provido neste documento calcula redes diversas e estáveis de mutações de sítio ativo em interação, permitindo o projeto mesmo nos casos discutidos aqui, para os quais os modelos de estado de transição de enzima são incertos. Embora as mutações projetadas conservem a estrutura de cadeia principal de tipo selvagem, alguns projetos apresentam relações epistáticas de sinais, o que torna esses projetos quase inacessíveis às trajetórias mutacionais graduais.
39 / 92 Assim, o espaço de sequência de um sítio ativo de enzima provê um vasto recurso de diversidade funcional que desafia a exploração pela evolução natural e laboratorial, mas agora pode ser acessado por meio do projeto de proteína computacional.
[00107] De acordo com algumas modalidades da presente invenção, o método é implementado de forma eficaz para cadeias polipeptídicas originais que compreendem mais de 100 aminoácidos (aa). Em algumas modalidades, as cadeias polipeptídicas originais compreendem mais de 110 aa, mais de 120 aa, mais de 130 aa, mais de 140 aa, mais de 150 aa, mais de 160 aa, mais de 170 aa, mais de 180 aa, mais de 190 aa, mais de 200 aa, mais de 210 aa, mais de 220 aa, mais de 230 aa, mais de 240 aa, mais de 250 aa, mais de 260 aa, mais de 270 aa, mais de 280 aa, mais de 290 aa, mais de 300 aa, mais de 350 aa, mais de 400 aa, mais de 450 aa, mais de 500 aa, mais de 550 aa ou mais de 600 aminoácidos.
[00108] De acordo com algumas modalidades da presente invenção, o método aqui apresentado provê cadeias polipeptídicas modificadas com mais de 2 substituições de aminoácidos (mutações), mais de 3 substituições, mais de 4 substituições, mais de 5 substituições de aminoácidos, mais de 6 substituições, mais de 7 substituições, mais de 8 substituições, mais de 9 substituições, mais de 10 substituições, mais de 11 substituições ou mais de 12 substituições em comparação com a cadeia polipeptídica original inicial. Espaço de sequência:
[00109] De acordo com algumas modalidades da presente invenção, após filtrar os resíduos-chave e impor um limite de aceitação de energia livre, o número de posições substituíveis em uma determinada sequência é grandemente reduzido, provendo assim um espaço de sequência combinatória amplo, mas gerenciável, a partir do qual as sequências projetadas podem ser selecionadas. Assim, o termo “espaço de sequência” se refere a um conjunto de posições substituíveis, cada uma com pelo menos uma substituição
40 / 92 opcional sobre o aminoácido original/WT na posição dada.
[00110] Um espaço de sequência é, portanto, o resultado de um certo limite de aceitação; cada limite de aceitação produz um espaço de sequência diferente, onde espaços de sequência definidos por limites de aceitação mais rígidos estão contidos em espaços de sequência maiores definidos por limites de aceitação mais permissivos. Conforme discutido acima, a fim de evitar falsos positivos, o limite de aceitação pode ser pequeno e deve ser negativo, em que -2 r.e.u é considerado altamente restritivo (estrito) e +6 r.e.u é altamente permissivo. O espaço de sequência obtido usando o limite de aceitação de +6 r.e.u será inevitavelmente maior (permissivo) do que um espaço de sequência obtido usando o limite de aceitação de -2,00 r.e.u (estrito). O uso experimental do método aqui apresentado para produzir proteínas reais mostrou que um limite de aceitação intermediário produz um espaço de sequência ideal. Na verdade, o espaço de sequência é um subespaço do espaço mais amplo definido pelas regras do PSSM.
[00111] Um meio exemplificativo e geral para apresentar um espaço de sequência está em uma lista de posições de sequência com base na numeração de sequência de tipo selvagem, P1, P2, P3, ..., Pn, em que cada posição é designada como um resíduo-chave, isto é, um aminoácido como verificado no WT, AAWT; ou uma posição que pode tomar qualquer um dos aminoácidos de uma lista limitada compreendendo pelo menos um aminoácido alternativo com base no PSSM e na análise de minimização de energia, AAm, em que m é um número que denota um dos aminoácidos de ocorrência natural, por exemplo, A = 1, R = 2, N = 3, D = 4, C = 5, Q = 6, E = 7, G = 8, H = 9, L = 10, I = 11, K = 12, M = 13, F = 14, P = 15, S = 16, T = 17, W = 18, Y = 19 e V = 20 (uma numeração é arbitrária e usada aqui para demonstrar uma representação geral de um espaço de sequência.
[00112] Por exemplo, o espaço de sequência pode ser apresentado como:
41 / 92 P1: AAWT, AA5, AA8, e AA12; P2: AAWT; P3: AAWT e AA16; P4: AAWT, AA1, AA3, AA6, AA10, e AA14; P5: AAWT, AA4, AA8, e AA11; … Pn: AAWT, AAm, AAm, AAm, AAm, e AAm,; enquanto nesse exemplo geral, P1 tem quatro aminoácidos alternativos, P2 é um resíduo-chave e assim por diante.
[00113] De acordo com algumas modalidades da presente invenção, o espaço de sequência pode ser ainda mais limitado pela imposição de um limite de aceitação mais rígido ou expandido pela imposição de um limite de aceitação mais permissivo. Em geral, o valor de +2 r.e.u foi considerado adequadamente permissivo; no entanto, o espaço de sequência com base em um limite de aceitação maior que +2 r.e.u (por exemplo, +6 r.e.u) ou com base em um limite de aceitação menor que -2,00 r.e.u (por exemplo, -2,1 r.e.u) também são contemplados.
[00114] Na seção de Exemplos que se segue abaixo, um espaço de sequência com base no limite de aceitação de +6 r.e.u é apresentado para algumas das proteínas exemplificativas nas quais o método foi demonstrado. Qualquer sequência projetada tendo qualquer escolha de quaisquer 2 ou mais substituições em relação à sequência de tipo selvagem/inicial que são selecionadas a partir do espaço de sequência apresentado e que apresenta, pelo menos, uma atividade catalítica melhorada, é contemplada dentro do escopo da presente invenção.
[00115] Observa-se aqui que as modalidades da presente invenção abrangem todas e quaisquer combinações possíveis de alternativas de aminoácidos em qualquer dado espaço de sequência proporcionado pelo método aqui apresentado (todas as variantes possíveis decorrentes do espaço
42 / 92 de sequência como aqui definido).
[00116] É adicionalmente notado que em algumas modalidades da presente invenção, o espaço de sequência resultante da implementação do método aqui apresentado em uma proteína original pode ser aplicado em outra proteína que é diferente da proteína original, desde que a outra proteína apresente pelo menos 30%, pelo menos 40% ou pelo menos 50% de identidade de sequência e superior. Por exemplo, um conjunto de alternativas de aminoácidos, retirado de um espaço de sequência proporcionado pela implementação do método aqui apresentado em uma proteína humana, pode ser usado para modificar uma proteína não humana pela produção de uma variante da proteína não humana com um substituições de aminoácido nas posições de sequência equivalente. A variante resultante da proteína não humana, aqui referida como uma “variante híbrida”, teria então “substituições de aminoácidos humanos” (selecionadas a partir de um espaço de sequência proporcionado para uma proteína humana) em posições que se alinham com a posição correspondente na proteína humana. Em algumas modalidades da presente invenção, qualquer variante híbrida, tendo pelo menos 2 substituições que correspondem às alternativas de aminoácidos em qualquer determinado espaço de sequência proporcionado pelo método aqui apresentado (todas as variantes possíveis decorrentes do espaço de sequência conforme definido neste documento), é contemplada e englobada no escopo da presente invenção. Servidor web FuncLib:
[00117] Um servidor web FuncLib foi construído para implementar várias melhorias no método aqui apresentado. Ao projetar as variantes de enzima PTE exemplificativas, como aqui apresentado, um alinhamento de sequência múltipla (MSA) foi calculado para toda a sequência de proteína e sempre que alças foram observadas na estrutura de consulta, qualquer sequência alinhada que apresentou lacunas em relação à consulta foi eliminada
43 / 92 para reduzir a ambiguidade de alinhamento (ver [Goldenzweig, A. et al.. Mol Cell., 2016, 63(2), pp. 337-346]). No servidor web FuncLib, por outro lado, todos os elementos da estrutura secundária estão sujeitos a essa filtragem, resultando em uma precisão PSSM aprimorada, particularmente na cavidade do sítio ativo. Além disso, o servidor web implementa modelagem atomística e pontuação mais precisas: ele usa a função de energia Rosetta recente [Park, H. et al., J Chem Theory Comput., 2016, 12(12), pp. 6201-6212] com potenciais de solvatação e eletrostática aprimorados em relação às funções de energia Rosetta anteriores; implementa restrições de coordenadas harmônicas em átomos de cadeia lateral de resíduos de aminoácidos essenciais na cavidade catalítica para garantir sua pré-organização; restringe o refinamento a aminoácidos dentro de 8 Å (ou dentro da faixa de 6 a 10 Å) das posições projetadas em vez de refinar a proteína inteira; permite ao usuário modificar o espaço de sequência tolerado (por exemplo, com base em análises experimentais e estruturais anteriores); e permite a modelagem de ligantes de moléculas pequenas ou complexos de estado de transição. Repertório diversificado de fosfotriesterase:
[00118] A evolução natural e laboratorial das atividades alteradas depende do acúmulo gradual de mutações, cada uma das quais deve ser pelo menos neutra em termos de aptidão. Após algumas mutações, no entanto, as melhorias na atividade geralmente se estabilizam devido a epistasia ou efeitos de limite de estabilidade. Trajetórias evolutivas típicas que levam de uma enzima altamente eficiente a outra são, portanto, demoradas e muitas vezes compreendem dezenas de mutações ativas fora do sítio ativo, a maioria das quais apenas contribui para a atividade indiretamente, por exemplo, estabilizando a enzima. A estratégia apresentada aqui racionaliza e acelera a geração de enzimas estáveis apresentando atividades alteradas: ela começa projetando variantes de enzimas estáveis e altamente expressas, usando um método provido anteriormente (PROSS) e, em seguida, projeta dezenas de
44 / 92 variantes que codificam redes pré-organizadas de mutantes de sítio ativo apresentando diferentes características estereoquímicas. A combinação de análise de conservação evolucionária e modelagem atomística Rosetta concentra os cálculos de projeto em constelações de sítios ativos estáveis, pré- organizados e funcionais.
[00119] Consequentemente, os presentes inventores implementaram o procedimento FuncLib a fim de enumerar variantes de PTE com atividades catalíticas intensificadas em relação aos substratos, para os quais WT PTE é menos eficaz, visto que tais variantes de PTE podem servir como um agente de desintoxicação contra vários agentes nervosos/organofosforados, também para aumentar a atividade catalítica de PTE em relação a substratos de PTE conhecidos, como o agente nervoso do tipo VX. Usando uma sequência estabilizada por PROSS [WO 2017/017673; Goldenzweig, A. et al.. Mol Cell., 2016, 63(2), pp. 337-346] dPTE2 (SEQ ID NO: 1), que é uma variante de PTE que continha 20 mutações fora da cavidade do sítio ativo e decorrentes de PTE-S5 [Roodveldt, C. and Tawfik, D.S., Protein Eng Des Sel., 2005, 18(1), pp. 51-8], e usando a estrutura cristalina de WT PTE (entrada PDB: 1HZY), as variantes projetadas obtidas pelo método aqui apresentado apresentaram atividade de amplo espectro com atividade de milhares de vezes em relação a WT PTE.
[00120] Dessa forma, de acordo com um aspecto da invenção, é provida uma proteína que tem uma sequência selecionada a partir do grupo que consiste em qualquer combinação de pelo menos 2 substituições de aminoácidos de um espaço de sequência proporcionado para fosfotriesterase (PTE) de Pseudomonas diminuta como uma proteína original, e listada na Tabela A abaixo, enquanto as posições de tipo selvagem, I106, F132, H254, H257, L271, L303, F306 e M317, não são mostradas na mesma. Tabela A Posição (numeração de acordo com a entrada do PDB: 1HZY
45 / 92 106 132 254 257 271 303 306 317 C/H/L/M L G/R Y/W I/R T I L
[00121] A proteína, de acordo com algumas modalidades da presente invenção, pode ser selecionada a partir da lista apresentada na Tabela A aqui apresentada. Em algumas modalidades, a proteína tem uma sequência selecionada a partir do grupo que consiste em PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), PTE_56 (SEQ ID NO: 56), e PTE_57 (SEQ ID NO: 57).
[00122] De acordo com algumas modalidades, a proteína pode ser uma proteína isolada, uma fusão com outro domínio, como Fc, ou uma mistura de proteínas e outros agentes, carreadores de fatores e similares, desde que inclua pelo menos uma das proteínas projetadas por PTE, conforme definido na Tabela A.
[00123] A proteína original pode ser qualquer enzima da família PTE tendo o EC No. 3.1.8.1 (EC: 3.1.8.1), incluindo PTE de tipo selvagem de Pseudomonas diminuta ou qualquer outro biológico, ou qualquer projetado de PTE artificial, incluindo variantes de PTE obtidas usando um método computacional, tal como, mas não limitado a, PROSS. A fim de identificar os resíduos de aminoácidos para substituição de qualquer proteína original, a sequência da proteína original é alinhada com a sequência da fosfotriesterase (PTE) de Pseudomonas diminuta, conforme apresentado na entrada do PDB: 1HZY.
[00124] Tal como aqui usado, o termo “fosfotriesterase” abreviado neste documento para PTE, também referido como paration hidrolase (EC:
3.1.8.1), refere-se a uma enzima pertencente à superfamília da amido- hidrolase. As fosfotriesterases deste aspecto da presente invenção são fosfotriesterases bacterianas que têm uma atividade catalítica intensificada para organofosfonatos do tipo V devido a uma sequência de aminoácidos de alça estendida 7, em comparação com outras fosfotriesterases. Essas
46 / 92 fosfotriesterases foram identificadas em Brevundimonas diminuta, Flavobacterium sp. (PTEflavob) e Agrobacterium sp.
[00125] Tal como aqui usado, um “agente nervoso” refere-se a um composto de organofosfato (OP), tal como tendo uma atividade inibidora da acetilcolinesterase. A toxicidade de um composto de OP depende da taxa de sua inibição da acetilcolinesterase com a liberação concomitante do grupo de saída, como fluoreto, alquiltiolato, cianeto ou grupo arióxi. O agente nervoso pode ser uma composição racêmica ou um enantiômero purificado (por exemplo, Sp ou Rp). No contexto das modalidades da presente invenção, os termos “organofosfato” ou “agente nervoso” abrangem agente nervoso do tipo V (Amiton), agentes nervosos do tipo G (Trilon) e agentes nervosos do tipo GV (Novichok). No contexto das modalidades da presente invenção, o termo “agente nervoso” inclui, sem limitação, agentes do tipo G, tais como Tabun (GA), Sarin (GB), Clorossarina (GC), Soman (GD), Etilsarina (GE), e Ciclosarina (GF), agentes do tipo V, como EA-3148, VE, VG, VM, VP, VR, VS, R/S-VX, CVX e RVX, e do tipo GV, como agentes Novichok e GV (2- [dimetilamino(fluoro)fosforil]-N,N-dimetiletanamina). Um método de desintoxicação de organofosfatos:
[00126] De acordo com um aspecto da presente invenção, as proteínas projetadas, ou variantes de PTE providas neste documento, podem ser usadas para descontaminação de equipamentos, roupas e ambiente por hidrólise de um amplo espectro de agentes organofosforados, incluindo agentes nervosos do tipo G, V e agentes nervosos do tipo GV e, assim, desintoxicar um objeto ou uma área que se suspeita estar contaminada com tais agentes. A área pode ser um objeto inanimado, um solo, uma peça de equipamento, uma peça de roupa e uma superfície corporal.
[00127] Em algumas modalidades, as proteínas projetadas, ou variantes de PTE providas neste documento, podem ser administradas in vivo a um indivíduo suspeito de envenenamento por agente nervoso. Em tais usos, a
47 / 92 proteína é administrada como uma composição farmacêutica e pode incluir um carreador farmaceuticamente aceitável, bem como outros ingredientes ativos e excipientes.
[00128] Espera-se que durante a vida de uma patente que amadurece a partir deste pedido, muitas variantes de PTE projetadas relevantes com hidrólise de ampla especificidade de organofosfatos serão desenvolvidas e o escopo da frase “variantes de PTE projetadas” se destina a incluir todas essas novas tecnologias a priori.
[00129] Como usado aqui, o termo “cerca de” refere-se a ± 10 %.
[00130] Os termos “compreende”, “compreendendo”, “inclui”, “incluindo”, “tendo” e seus conjugados significam “incluindo, mas não limitado a”.
[00131] O termo “consistindo em” significa “incluindo e limitado a”.
[00132] Tal como aqui usado, as frases “substancialmente desprovido de” e/ou “essencialmente desprovido de” no contexto de uma determinada substância, referem-se a uma composição que é totalmente desprovida desta substância ou inclui menos do que cerca de 5, 1, 0,5 ou 0,1 por cento da substância por peso total ou volume da composição. Alternativamente, as frases “substancialmente desprovido de” e/ou “essencialmente desprovido de” no contexto de um processo, um método, uma propriedade ou uma característica, referem-se a um processo, uma composição, uma estrutura ou um artigo que é totalmente desprovido de uma determinada etapa de processo/método, ou uma certa propriedade ou uma certa característica, ou um processo/método em que a determinada etapa de processo/método é efetuada a menos do que cerca de 5, 1, 0,5 ou 0,1 por cento em comparação com um determinado processo/método padrão, ou propriedade ou uma característica distinguida por menos que cerca de 5, 1, 0,5 ou 0,1 por cento da propriedade ou característica, em comparação com um determinado padrão.
[00133] Como usada aqui, a forma singular “um”, “uma”, “o” e “a”
48 / 92 inclui referências plurais, a menos que o contexto dite claramente o contrário. Por exemplo, o termo “um composto” ou “pelo menos um composto” pode incluir uma pluralidade de compostos, incluindo misturas dos mesmos.
[00134] Ao longo deste pedido, várias modalidades desta invenção podem ser apresentadas em um formato de intervalo. Deve ser entendido que a descrição em formato de intervalo é meramente por conveniência e brevidade e não deve ser interpretada como uma limitação inflexível no escopo da invenção. Por conseguinte, a descrição de um intervalo deve ser considerada como tendo descrito especificamente todos os possíveis subintervalos, bem como valores numéricos individuais dentro desse intervalo. Por exemplo, a descrição de um intervalo de 1 a 6 deve ser considerada como tendo subintervalos especificamente descritos, como de 1 a 3, de 1 a 4, de 1 a 5, de 2 a 4, de 2 a 6, a de 3 a 6 etc., bem como números individuais dentro desse intervalo, por exemplo, 1, 2, 3, 4, 5 e 6. Isso se aplica independentemente da amplitude do intervalo.
[00135] Sempre que um intervalo numérico é aqui indicado, pretende- se incluir qualquer numeral citado (fracionário ou integral) dentro do intervalo indicado. As expressões “variando/varia entre” um primeiro número de indicação e um segundo número de indicação e “variando/varia de” um primeiro número de indicação “a” um segundo número de indicação são usadas aqui de forma intercambiável e devem incluir o primeiro e segundo números indicados e todos os numerais fracionários e integrais entre os mesmos.
[00136] Como usado aqui, o termo “método” refere-se a maneiras, meios, técnicas e procedimentos para realizar uma dada tarefa incluindo, mas não limitado a maneiras, meios, técnicas e procedimentos conhecidos ou prontamente desenvolvidos a partir de maneiras, meios, técnicas e procedimentos conhecidos por profissionais das técnicas químicas, farmacológicas, biológicas, bioquímicas e médicas.
49 / 92
[00137] Como usado aqui, o termo “tratamento” inclui a anulação, inibição substancial, retardamento ou reversão da progressão de uma condição, melhorando substancialmente sintomas clínicos ou estéticos de uma condição ou substancialmente impedindo o aparecimento de sintomas clínicos ou estéticos de uma condição.
[00138] Quando é feita referência a listagens particulares de sequências, tal referência deve ser entendida como incluindo também sequências que substancialmente correspondem à sua sequência complementar como incluindo pequenas variações de sequência, resultantes, por exemplo, de erros de sequenciamento, erros de clonagem ou outras alterações resultando na substituição de bases, deleção de bases ou adição de bases, desde que a frequência dessas variações seja menor que 1 em 50 nucleotídeos, alternativamente, menor que 1 em 100 nucleotídeos, alternativamente, menor que 1 em 200 nucleotídeos, alternativamente, menor que 1 em 500 nucleotídeos, alternativamente, menor que 1 em 1000 nucleotídeos, alternativamente, menor que 1 em 5.000 nucleotídeos, alternativamente, menor que 1 em 10.000 nucleotídeos.
[00139] Entende-se que qualquer Número de Identificação de Sequência (SEQ ID NO) descrito no presente pedido pode se referir a uma sequência de DNA ou a uma sequência de RNA, dependendo do contexto em que esse SEQ ID NO é mencionado, mesmo se esse SEQ ID NO for expresso apenas em um formato de sequência de DNA ou um formato de sequência de RNA. Por exemplo, o SEQ ID NO: # é expresso em um formato de sequência de DNA (por exemplo, recitando T para timina), mas pode se referir a uma sequência de DNA que corresponde a uma sequência de ácido nucleico # ou a sequência de RNA de uma sequência de ácido nucleico de molécula de RNA. Da mesma forma, embora algumas sequências sejam expressas em um formato de sequência de RNA (por exemplo, recitando U para uracila), dependendo do tipo real de molécula que está sendo descrito, ela pode se
50 / 92 referir a qualquer sequência de uma molécula de RNA compreendendo um dsRNA, ou a sequência de uma molécula de DNA que corresponde à sequência de RNA mostrada. Em qualquer caso, ambas as moléculas de DNA e RNA com as sequências descritas com quaisquer substitutos são consideradas.
[00140] É reconhecido que certas características da invenção, que são, por clareza, descritas no contexto de modalidades separadas, podem também ser providas em combinação em uma única modalidade. Inversamente, várias características da invenção, que são, por brevidade, descritas no contexto de uma única modalidade, podem também ser providas separadamente ou em qualquer subcombinação das adequada ou como adequado em qualquer outra modalidade descrita da invenção. Determinados recursos descritos no contexto de várias modalidades não devem ser considerados recursos essenciais dessas modalidades, a menos que a modalidade seja inoperante sem esses elementos.
[00141] Várias modalidades e aspectos da presente invenção como aqui delineados e como reivindicados na seção de reivindicações abaixo verificam suporte experimental ou calculado nos exemplos seguintes.
EXEMPLOS
[00142] É feita referência agora aos seguintes exemplos, os quais, juntamente com as descrições acima, ilustram algumas modalidades da invenção de uma forma não limitativa. Exemplo 1 Método computacional
[00143] As modalidades da presente plataforma, também denominada como FuncLib, visam projetar um pequeno conjunto de mutantes de sítio ativo multiponto estáveis, eficientes e funcionalmente diversos adequados para testes experimentais de baixo rendimento. A estratégia de projeto é geral e pode ser aplicada, em princípio, a qualquer enzima natural usando sua estrutura molecular e um conjunto diversificado de sequências homólogas
51 / 92 (FIGs. 1A-D). Ferramentas computacionais:
[00144] O pacote de software Rosetta para projeto biomolecular foi usado como estrutura para a parte computacional do método e está disponível para download em www(ponto)rosettacommons(ponto)org. Especificamente, o Rosetta GitHub versão 627f7dd22223c3074594934b789abb4f4e2e3b10 foi usado para todas as simulações. Toda a modelagem e projeto do Rosetta foram feitos usando RosettaScripts [Fleishman, S.L. et al., PLoS One, 2011, 6(6)], que estão disponíveis com suas linhas de comando e arquivos de sinalização abaixo. Todos os cálculos de projeto usaram a função de energia de todos os átomos Rosetta talaris14, que é dominada por empacotamento de van der Waals, ligações de hidrogênio, solvatação e eletrostática. Estratégia de projeto FuncLib:
[00145] O objetivo do método provido neste documento (FuncLib) era projetar um pequeno conjunto de variantes (mutantes) de sítio ativo multiponto estáveis, eficientes e funcionalmente diversos adequados para testes experimentais de baixo rendimento. A estratégia de projeto que foi usada é geral e pode ser aplicada a qualquer enzima natural ou proteína projetada, usando sua estrutura molecular e um conjunto diversificado de sequências homólogas.
[00146] As FIGs. 1A-C apresenta um fluxograma esquemático que ilustra as etapas principais no método para a produção de uma biblioteca de projetos funcionais de uma determinada enzima. Por exemplo, apenas e sem limitação, as FIGs. 1A-C ilustram as etapas na geração de um repertório de enzimas fosfotriesterase (PTE) a partir da estrutura cristalina de uma fosfotriesterase bacteriana (PTE; entrada PDB: 1HZY) e a sequência de uma variante estabilizada com PROSS de PTE, dPTE2 (SEQ ID NO: 1). Especificamente, a FIG. 1A mostra a etapa em que as posições do sítio ativo são selecionadas para o projeto e, em cada posição, o espaço da sequência é
52 / 92 restringido pela análise de conservação evolutiva (PSSM) e cálculos de varredura mutacional (ΔΔG). A FIG. 1B mostra a etapa em que os mutantes multiponto são exaustivamente enumerados usando cálculos de projeto atomístico Rosetta. No exemplo apresentado para fins demonstrativos, o sítio ativo de PTE compreende um centro bimetálico (esferas cinza) de íons Zn2+ que são coordenados por seis resíduos altamente conservados (bastões cinza); oito resíduos adicionais (bastões coloridos) compreendem a parede do sítio ativo e são menos conservados. A FIG. 1C mostra a etapa em que os projetos são classificados por energia e a FIG. 1D mostra a etapa em que as sequências são agrupadas para obter um repertório de diversos projetos de baixa energia para testes experimentais. As posições projetadas são coloridas de forma consistente ao longo das FIGs. 1A-C.
[00147] Como visto na FIG. 1C, cada uma das estruturas projetadas é submetida a uma minimização de energia global, com base nas regras apresentadas acima, e uma pontuação de energia minimizada é determinada para cada uma das estruturas projetadas em relação à energia livre total da estrutura do modelo. De acordo com algumas modalidades da presente invenção, as estruturas projetadas são classificadas de acordo com a pontuação de energia minimizada.
[00148] Uma das razões para selecionar metaloenzima fosfotriesterase (PTE) de Pseudomonas diminuta para a demonstração do método aqui apresentado é que, além da hidrólise altamente eficiente do pesticida organofosforado paraoxon (kcat/KM aproximadamente 108 M-1s-1), PTE promiscuamente hidrolisa ésteres, lactonas e diversos organofosfatos, incluindo agentes nervosos tóxicos, como VX, Russian VX, soman (GD) e ciclosarina (GF), embora com valores de kcat/KM que são ordens de magnitude menores do que para o paraoxon.
[00149] A desintoxicação de organofosforados eficaz para proteção in vivo, no entanto, exige alta eficiência catalítica, com um kcat/KM mínimo de
53 / 92 107 M-1min-1, motivando assim vários esforços recentes de engenharia de enzima que visam a PTE. Além disso, a ameaça de uma nova geração de agentes nervosos (“Novichoks”), semelhante em estrutura a VX e GF, reforça a necessidade de hidrolases de agente nervoso de amplo espectro.
[00150] As FIGs. 2A-C apresentam alguns dos resultados do uso do método FuncLib, de acordo com as modalidades da presente invenção, em que o repertório projetado de fosfotriesterases (PTE) apresenta melhorias de ordens de magnitude em uma gama de atividades promíscuas. Especificamente, a FIG. 2A mostra que a PTE bacteriana é uma paraoxonase que apresenta atividades de hidrolase promíscuas adicionais, em que as linhas tracejadas indicam as ligações que a PTE hidrolisa em cada um dos substratos testados neste estudo e os asteriscos indicam centros quirais. A FIG. 2B mostra uma melhoria X vezes maior na eficiência catalítica (kcat/KM) dos projetos FuncLib superiores em relação a PTE-S5, mostrando uma melhoria notável > 1.000 vezes na eficiência de hidrólise do agente nervoso em vários projetos, enquanto o número de mutações no sítio ativo é indicado acima das barras. A FIG. 2C mostra os perfis de atividade dos principais projetos de PTE, em que vários projetos, mais proeminentemente PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), e PTE_56 (SEQ ID NO: 56), apresentam seletividade de substrato substancialmente ampliada em relação à enzima da sequência original. Os dados para agentes nervosos são mostrados para os estereoisômeros Sp mais tóxicos. Os dados são representados como média ± desvio padrão de medições duplicadas; N.D. - não determinado. Números no eixo geométrico X da FIG. 2B e números no eixo geométrico Y na FIG. 2C representam o número da variante (PTE_X) e o SEQ ID NO: X).
[00151] Uma vez que as mutações do sítio ativo muitas vezes prejudicam a estabilidade da proteína, os cálculos do projeto do sítio ativo podem ser iniciados a partir de uma cadeia polipeptídica de um projeto estabilizado da cadeia polipeptídica original, isto é, um projeto provido por
54 / 92 um método como o PROSS (ver acima). No exemplo usado para demonstrar o método provido neste documento, os inventores utilizaram dPTE2 (SEQ ID NO: 1), que é uma variante de PTE-S5 [Roodveldt, C. and Tawfik, D.S., Protein Eng Des Sel., 2005, 18(1), pp. 51-8] com 20 mutações de estabilização fora da cavidade do sítio ativo que foi projetada anteriormente usando o algoritmo de projeto de estabilidade PROSS [Goldenzweig, A. et al.. Mol Cell., 2016, 63(2), pp. 337-346]. dPTE2 de sequência original (SEQ ID NO: 1) apresentou maior estabilidade e rendimentos de expressão bacteriana cinco vezes maiores do que PTE-S5, enquanto retinha níveis de atividade de tipo selvagem.
[00152] Oito posições de sítio ativo que compreendem a parede de sítio ativo de PTE (primeira camada) foram selecionadas para o método de projeto, no entanto, é notado que o número de posições iniciais variam dependendo do assunto do método e das informações disponíveis do mesmo. O método, usando FuncLib, começou definindo um espaço de sequência compreendendo mutações pontuais de sítio ativo que são previstas para serem toleradas individualmente (ver, FIG. 1A). Primeiro, foram mantidas apenas mutações com pelo menos uma probabilidade modesta de ocorrência na diversidade natural de acordo com um alinhamento de sequência múltipla de homólogos. Em segundo lugar, foram eliminadas as mutações pontuais que desestabilizam substancialmente a sequência original (também referidas aqui e ao longo do documento como “tipo selvagem”; “modelo inicial”; “estrutura original”; ou “sequência modelo”) de acordo com a modelagem atomística Rosetta. Aplicado à cavidade de sítio ativo de PTE, nenhuma mutação foi permitida em seus resíduos quelantes de Zn2+ (posições não substituíveis ou fixas), enquanto outras posições de primeira camada foram permitidas (posições substituíveis), mesmo mutações radicais (ver, FIGs. 1A-B). A filtragem de duas etapas reduziu drasticamente o espaço combinatório de mutantes multiponto nas oito posições do sítio ativo de 1010 mutantes, se todos os 20
55 / 92 aminoácidos fossem permitidos em cada posição, para <105. A partir desse conjunto filtrado, todos os mutantes multiponto que compreendiam 3 a 5 mutações em relação à sequência original foram modelados e refinados em Rosetta, incluindo minimização de cadeia lateral e cadeia principal (ver, FIG. 1B). Depois disso, todos os mutantes multiponto foram classificados de acordo com sua estabilidade prevista (ver, FIG. 1C). Assim, os projetos com melhor classificação foram previstos para apresentar cavidades de sítio ativo estáveis e reorganizados - um pré-requisito para alta eficiência catalítica. Surpreendentemente, foi verificado que centenas de projetos de sítios ativos únicos apresentaram pontuações de energia que eram tão favoráveis quanto ou melhores do que a sequência inicial de PTE, sugerindo que um espaço muito grande de mutantes multiponto potencialmente tolerados no sítio ativo era acessível por projeto computacional. De acordo com algumas modalidades, o método inclui adicionalmente uma etapa em que os projetos foram agrupados (ver FIG. 1D), eliminando assim projetos que diferiam por menos de duas mutações no sítio ativo uma da outra ou do tipo selvagem. Neste estudo exemplificativo usando PTE, os 49 projetos principais foram selecionados para teste experimental in vitro (ver Tabela 1). Resultados do método e espaço de sequência:
[00153] A Tabela 1 apresenta os resultados obtidos usando FuncLib conforme descrito acima, a partir da sequência original de PTE, dPTE2 (SEQ ID NO: 1), e representa, pelo menos em certa medida, o espaço de sequência de variantes de PTE projetadas para reatividade melhorada em relação a um amplo espectro de substratos. Marcadas em negrito estão as variantes PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), PTE_56 (SEQ ID NO: 56), e PTE_57 (SEQ ID NO: 57), que apresentaram seletividade de substrato substancialmente ampliada em relação à enzima da sequência original. Tabela 1 Variante SEQ ID Posição (numeração de acordo com a entrada do PDB: 1HZY (PTE_X) NO:
56 / 92
106 132 254 257 271 303 306 317 Espaço de sequência M/ I/C/H/L/M F/L H/G/R H/Y/W L/I/R L/T F/I por posição L dPTE2 1 I F H H L L F M
2 2 I F H H I T I L
3 3 I F G H R T I L
4 4 I F G Y L T I M
5 5 I F G Y I T F L
6 6 I F R W L T F L
7 7 I L H W L T I L
8 8 C F H H R L F L
9 9 C F H W L T F L
10 10 C F H W R L F M
11 11 C F H Y I L F.
M
12 12 C F G H L T I L
13 13 C F G H I T F M
14 14 C F R H L L F L
15 15 C F R H R T I M
16 16 C F R W L T F M
17 17 H F H H R T I L
18 18 H F H Y L T I L
19 19 H F G H I L F M
20 20 H F G W I T F M
21 21 H F R H L T I L
22 22 H F R W L T I M
23 23 L F H H L T I L
24 24 L F H H R T F M
25 25 L F H W I L F L
26 26 L F H W I T F M
27 27 L F H Y R L I L
28 28 L F G H L L F L
29 29 L F G W L T F M
57 / 92
30 30 L F G Y I T F M
31 31 L F R H I L I L
32 32 L F R H I T I M
33 33 L F R W R L F M
34 34 L F R Y L L F L
35 35 L F R Y L L I M
36 36 L L H W L L F M
37 37 L L R W L T F M
38 38 M F H H L L I L
39 39 M F H H R T F L
40 40 M F H H R T I M
41 41 M F H W L T F M
42 42 M F H Y L L F L
43 43 M F G H L T I M
44 44 M F G W L L F M
45 45 M F R H L T F M
46 46 M F R H R L F L
47 47 M F R W L L F L
48 48 M L H H L T F M
49 49 M L H W L T F L
50 50 M L R W L L F M
51 51 L F G W L T I L
52 52 L F G W L T I M
53 53 I F G H L T F M
54 54 I F G W L L F M
55 55 I F G W L T F L
56 56 I F G W L T F M
57 57 I F G W L T I M
58 58 M F G H L T F M
59 59 M F G H L T I L
60 60 M F G W L L I L
58 / 92 61 61 M F G W L T F L 62 62 M F G W L T F M 63 63 M F G W L T I M RosettaScripts xml e arquivos de sinalizadores: Refinamento
[00154] refine.xml <ROSETTASCRIPTS> <SCOREFXNS> <ScoreFunction name=“ref_full” weights=“ref2015”> <Reweight scoretype=“coordinate_constraint” weight=“0.1”/> <Reweight scoretype=“res_type_constraint” weight=“0.1”/> </ScoreFunction> <ScoreFunction name=“soft_rep_full” weights=“soft_rep”> <Reweight scoretype=“coordinate_constraint” weight=“0.1”/> <Reweight scoretype=“res_type_constraint” weight=“0.1”/> </ScoreFunction> <ScoreFunction name=“ref_no_pssm” weights=“ref2015”> <Reweight scoretype=“coordinate_constraint” weight=“0.1”/> </ScoreFunction> <ScoreFunction name=“ref_pure” weights=“ref2015”/> </SCOREFXNS> <RESIDUE_SELECTORS> <Index name=“ress_fix” resnums=“%%res_to_fix%%”/> </RESIDUE_SELECTORS> <TASKOPERATIONS> <InitializeFromCommandline name=“init”/> <RestrictToRepacking name=“rtr”/>
59 / 92
<OperateOnResidueSubset name=“fix_res” selector=“ress_fix”>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
<OperateOnResidueSubset name=“not_to_cst_sc”>
<Not selector=“ress_fix”/>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
</TASKOPERATIONS>
<MOVERS> <AtomCoordinateCstMover name=“fix_res_sc_cst” coord_dev=“0.5”
bounded=“false” sidechain=“true” task_operations=“not_to_cst_sc”/>
<PackRotamersMover name=“soft_repack” scorefxn=“soft_rep_full”
task_operations=“init,rtr,fix_res”/>
<PackRotamersMover name=“hard_repack” scorefxn=“ref_full”
task_operations=“init,rtr,fix_res”/>
<RotamerTrialsMinMover name=“RTmin” scorefxn=“ref_full”
task_operations=“init,rtr,fix_res”/>
<TaskAwareMinMover name=“soft_min” scorefxn=“soft_rep_full” chi=“1” bb=“1” jump=“0” task_operations=“init,fix_res”/>
<TaskAwareMinMover name=“hard_min” scorefxn=“ref_full” chi=“1”
bb=“1” jump=“0” task_operations=“init,fix_res”/>
<ConstraintSetMover name=“add_CA_cst”
cst_file=“%%cst_full_path%%”/>
<ParsedProtocol name=“refinement_block”>
<Add mover_name=“soft_repack”/>
<Add mover_name=“soft_min”/>
<Add mover_name=“soft_repack”/>
<Add mover_name=“hard_min”/>
60 / 92
<Add mover_name=“hard_repack”/>
<Add mover_name=“hard_min”/>
<Add mover_name=“hard_repack”/>
<Add mover_name=“RTmin”/>
<Add mover_name=“RTmin”/>
<Add mover_name=“hard_min”/>
</ParsedProtocol>
<LoopOver name=“iter4” mover_name=“refinement_block”
iterations=“4”/>
</MOVERS>
<FILTERS>
<ScoreType name=“stability_score_full” scorefxn=“ref_full”
score_type=“total_score” confidence=“0” threshold=“0”/>
<ScoreType name=“stability_without_pssm” scorefxn=“ref_no_pssm”
score_type=“total_score” confidence=“0” threshold=“0”/>
<ScoreType name=“stability_pure” scorefxn=“ref_pure”
score_type=“total_score” confidence=“0” threshold=“0”/>
<Rmsd name=“rmsd” confidence=“0”/> <Time name=“timer”/>
</FILTERS>
<PROTOCOLS>
<Add filter_name=“timer”/>
<Add mover_name=“add_CA_cst”/>
<Add mover_name=“fix_res_sc_cst”/>
<Add mover_name=“iter4”/>
<Add filter_name=“stability_score_full”/>
<Add filter_name=“stability_without_pssm”/>
61 / 92
<Add filter_name=“stability_pure”/>
<Add filter_name=“rmsd”/>
<Add filter_name=“timer”/>
</PROTOCOLS>
<OUTPUT scorefxn=“ref_full”/>
</ROSETTASCRIPTS> refine.flags -use_input_sc
-extrachi_cutoff 5
-ignore_unrecognized_res
-chemical:exclude_patches LowerDNA UpperDNA Cterm_amidation
SpecialRotamer VirtualBB ShoveBB VirtualDNAPhosphate VirtualNTerm
CTermConnect sc_orbitals pro_hydroxylated_case1 pro_hydroxylated_case2 ser_phosphorylated thr_phosphorylated tyr_phosphorylated tyr_sulfated lys_dimethylated lys_monomethylated lys_trimethylated lys_acetylated glu_carboxylated cys_acetylated tyr_diiodinated N_acetylated C_methylamidated MethylatedProteinCterm
-linmem_ig 10
-ignore_zero_occupancy false
-s # path to structure file
-out:path:pdb pdbs
-out:path:score scores
-parser:protocol refine.xml
-parser:script_vars res_to_fix= # comma separated list of positions
-parser:script_vars cst_full_path= # path to Rosetta CST file of CA atoms
Filterscan
62 / 92 filterscan.xml <ROSETTASCRIPTS>
<SCOREFXNS>
<ScoreFunction name=“scorefxn_full” weights=“ref2015”>
<Reweight scoretype=“coordinate_constraint” weight=“0.1”/>
<Reweight scoretype=“res_type_constraint” weight=“0.1”/>
</ScoreFunction>
</SCOREFXNS>
<RESIDUE_SELECTORS>
<Index name=“ress_fix” resnums=“%%res_to_fix%%”/> </RESIDUE_SELECTORS>
<TASKOPERATIONS>
<InitializeFromCommandline name=“init”/>
<DesignAround name=“des_around” design_shell=“0.1”
resnums=“%%current_res%%” repack_shell=“8.0”/>
<SeqprofConsensus name=“pssm_cutoff”
filename=“%%pssm_full_path%%” min_aa_probability=“-2”
probability_larger_than_current=“0” convert_scores_to_probabilities=“0”
keep_native=“1” debug=“1” ignore_pose_profile_length_mismatch=“0”/> <OperateOnResidueSubset name=“fix_res” selector=“ress_fix”>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
<OperateOnResidueSubset name=“not_to_cst_sc”>
<Not selector=“ress_fix”/>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
</TASKOPERATIONS>
<FILTERS>
<ScoreType name=“stability_score_full” scorefxn=“scorefxn_full”
63 / 92 score_type=“total_score” threshold=“0.0”/>
<Delta name=“delta_score_full” filter=“stability_score_full” upper=“1”
lower=“0” range=“0.5”/>
<FilterScan name=“filter_scan” scorefxn=“scorefxn_full”
relax_mover=“min_all” keep_native=“1”
task_operations=“init,des_around,pssm_cutoff,fix_res” delta_filters=“delta_score_full”
delta=“true” resfile_name=“resfiles/res_%%current_res%%” report_all=“1”
delta_filter_thresholds=“0.0,0.5,1.0,1.5,2.0,2.5,3.0,3.5,4.0,4.5,5.0,5.5,6.0”
score_log_file=“scores/res%%current_res%%_score_full.log” dump_pdb=“1”/>
</FILTERS> <MOVERS>
<AtomCoordinateCstMover name=“fix_res_sc_cst” coord_dev=“0.5”
bounded=“false” sidechain=“true” task_operations=“not_to_cst_sc”/>
<ConstraintSetMover name=“add_CA_cst”
cst_file=“%%cst_full_path%%”/>
<FavorSequenceProfile name=“FSP” scaling=“none” weight=“1”
pssm=“%%pssm_full_path%%” scorefxns=“scorefxn_full” />
<MinMover name=“min_all” scorefxn=“scorefxn_full” chi=“1” bb=“1”
jump=“0”/> </MOVERS>
<PROTOCOLS>
<Add mover_name=“add_CA_cst”/>
<Add mover_name=“fix_res_sc_cst”/>
<Add mover=“FSP”/>
<Add filter=“filter_scan”/>
</PROTOCOLS>
<OUTPUT scorefxn=“scorefxn_full”/>
</ROSETTASCRIPTS>
64 / 92 filterscan.flags -use_input_sc
-extrachi_cutoff 5
-ignore_unrecognized_res
-chemical:exclude_patches LowerDNA UpperDNA Cterm_amidation
SpecialRotamer VirtualBB ShoveBB VirtualDNAPhosphate VirtualNTerm
CTermConnect sc_orbitals pro_hydroxylated_case1 pro_hydroxylated_case2 ser_phosphorylated thr_phosphorylated tyr_phosphorylated tyr_sulfated lys_dimethylated lys_monomethylated lys_trimethylated lys_acetylated glu_carboxylated cys_acetylated tyr_diiodinated N_acetylated C_methylamidated MethylatedProteinCterm -linmem_ig 10
-ignore_zero_occupancy false
-s # path to structure file
-out:path:pdb pdbs
-out:path:score scores
-parser:protocol filterscan.xml
-parser:script_vars current_res= # a position to mutational ddG for
-parser:script_vars res_to_fix= # comma separated list of positions
-parser:script_vars cst_full_path= # path to Rosetta CST file of CA atoms -parser:script_vars pssm_full_path= # path to pssm file
Fazendo os projetos mutate.xml <ROSETTASCRIPTS>
<SCOREFXNS>
<ScoreFunction name=“scorefxn_full” weights=“ref2015”>
<Reweight scoretype=“coordinate_constraint” weight=“0.1”/>
</ScoreFunction>
<ScoreFunction name=“soft_rep_full” weights=“soft_rep”>
65 / 92
<Reweight scoretype=“coordinate_constraint” weight=“0.1”/>
<Reweight scoretype=“res_type_constraint” weight=“0.1”/>
</ScoreFunction>
</SCOREFXNS>
<RESIDUE_SELECTORS>
<Index name=“ress_fix” resnums=“%%res_to_fix%%”/>
</RESIDUE_SELECTORS>
<TASKOPERATIONS> <RestrictToRepacking name=“rtr”/>
<OperateOnResidueSubset name=“fix_not_neighbor”>
<Not>
<Neighborhood distance=“8”>
<Index resnums=“%%all_ress%%”/>
</Neighborhood>
</Not>
<PreventRepackingRLT/>
</OperateOnResidueSubset> <InitializeFromCommandline name=“init”/>
<IncludeCurrent name=“include_curr”/>
<OperateOnResidueSubset name=“fix_res” selector=“ress_fix”>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
<OperateOnResidueSubset name=“not_to_cst_sc”>
<Not selector=“ress_fix”/>
<PreventRepackingRLT/>
</OperateOnResidueSubset>
</TASKOPERATIONS>
66 / 92
<MOVERS>
<MutateResidue name=“mutres0” new_res=“%%new_res0%%”
target=“%%target0%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres1” new_res=“%%new_res1%%”
target=“%%target1%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres2” new_res=“%%new_res2%%”
target=“%%target2%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres3” new_res=“%%new_res3%%”
target=“%%target3%%” preserve_atom_coords=“true”/> <MutateResidue name=“mutres4” new_res=“%%new_res4%%”
target=“%%target4%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres5” new_res=“%%new_res5%%”
target=“%%target5%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres6” new_res=“%%new_res6%%”
target=“%%target6%%” preserve_atom_coords=“true”/>
<MutateResidue name=“mutres7” new_res=“%%new_res7%%”
target=“%%target7%%” preserve_atom_coords=“true”/>
<ConstraintSetMover name=“add_CA_cst” cst_file=“%%cst_full_path%%”/>
<AtomCoordinateCstMover name=“fix_res_sc_cst” coord_dev=“0.5”
bounded=“false” sidechain=“true” task_operations=“not_to_cst_sc”/>
<PackRotamersMover name=“prm”
task_operations=“init,include_curr,rtr,fix_not_neighbor,fix_res”
scorefxn=“scorefxn_full”/>
<RotamerTrialsMinMover name=“rtmin”
task_operations=“init,include_curr,rtr,fix_not_neighbor,fix_res”
scorefxn=“scorefxn_full”/>
<MinMover name=“min” bb=“1” chi=“1” jump=“0”
67 / 92 scorefxn=“scorefxn_full”/>
<PackRotamersMover name=“soft_repack” scorefxn=“soft_rep_full”
task_operations=“init,include_curr,rtr,fix_not_neighbor,fix_res”/>
</MOVERS>
<PROTOCOLS>
<Add mover=“add_CA_cst”/>
<Add mover=“fix_res_sc_cst”/>
<Add mover=“mutres0”/>
<Add mover=“mutres1”/> <Add mover=“mutres2”/>
<Add mover=“mutres3”/>
<Add mover=“mutres4”/>
<Add mover=“mutres5”/>
<Add mover=“mutres6”/>
<Add mover=“mutres7”/>
<Add mover=“soft_repack”/>
<Add mover=“min”/>
<Add mover=“prm”/> <Add mover=“min”/>
</PROTOCOLS>
<OUTPUT scorefxn=“scorefxn_full”/>
</ROSETTASCRIPTS> mutate.flags -use_input_sc
-extrachi_cutoff 5
-ignore_unrecognized_res
-chemical:exclude_patches LowerDNA UpperDNA Cterm_amidation
68 / 92
SpecialRotamer VirtualBB ShoveBB VirtualDNAPhosphate VirtualNTerm
CTermConnect sc_orbitals pro_hydroxylated_case1 pro_hydroxylated_case2 ser_phosphorylated thr_phosphorylated tyr_phosphorylated tyr_sulfated lys_dimethylated lys_monomethylated lys_trimethylated lys_acetylated glu_carboxylated cys_acetylated tyr_diiodinated N_acetylated C_methylamidated MethylatedProteinCterm
-linmem_ig 10
-ignore_zero_occupancy false
-s # path to structure file
-parser:protocol mutate.xml
-parser:script_vars res_to_fix= # comma separated list of positions -parser:script_vars cst_full_path= # path to Rosetta CST file of CA atoms
-parser:script_vars all_ress= # comma separated list of all library positions
Arquivo de trabalho exemplificativo: job.xml <JobDefinitionFile>
<Job>
<Input>
<PDB filename=“1hzy.pdb”/>
</Input>
<Output>
<PDB filename=“0101010101010101” path=“/dev/null”
pdb_gz=“true”/>
</Output>
<Options>
<parser__script_vars value=“target0=72A new_res0=ILE target1=98A new_res1=PHE target2=220A new_res2=HIS target3=223A new_res3=HIS target4=237A new_res4=LEU target5=269A new_res5=LEU target6=272A new_res6=PHE target7=283A new_res7=MET”/>
69 / 92 <out__file__scorefile value=“scores/1.sc”/> </Options> </Job> </JobDefinitionFile> Linha de comando
[00155] rosetta_scripts_jd3.default.linuxgccrelease @mutate.flags - in:file:job_definition_file job.xml Exemplo 2 Preparação de biblioteca funcional Materiais:
[00156] Os substratos foram sintetizados conforme publicado anteriormente: 5-tiobutil butirolactona (TBBL) [Khersonsky, O. and Tawfik, D.S., Chembiochem, 2006, 7, pp. 49–53]; fosfonatos com grupo de saída de cianocumarina, etilmetilfosfocianocumarina (EMP), isopropilmetilfosfocianocumarina (IMP), ciclo-hexilmetilfosfocianocumarina (CMP) e pinacolilmetilfosfocianocumarina (PMP) [Ashani, Y. et al., Chemico-Biological Interactions, 2010, 187(1-3), pp. 362–369]; e enantiômeros VX e RVX [Berman, H.A. and Leonard, K., J. Biol. Chem., 1989, 264, pp. 3942–3950].
[00157] Todos os outros reagentes (paraoxon, malation, p-nitrofenil acetato, p-nitrofenil octanoato, 2-naftil acetato, lactona γ-nonanoica, DTNB, m-cresol, acetato de sódio, ácido propiônico, ácido butírico, ácido isobutírico, ácido valérico, ácido isovalérico, lactato de sódio, ácido caproico, NADH, lactato desidrogenase, fosfoenol piruvato, piruvato quinase, adenosina 3- fosfato, coenzima A) foram adquiridos da Sigma-Aldrich, e a mioquinase de levedura foi adquirida da Merck. Clonagem:
[00158] Os genes sintéticos para a enzima original e as variantes projetadas foram otimizados por códons para a expressão eficiente de E. coli e
70 / 92 sintetizados como fragmentos lineares pela Twist Bioscience. Os genes dos projetos de PTE foram amplificados e clonados no vetor pMal C2 com etiqueta de fusão MBP N-terminal através dos sítios de restrição EcoRI e PstI. Os plasmídeos foram transformados em células E. coli BL21 DE3 e o DNA foi extraído para sequenciamento Sanger para validar a precisão. Os plasmídeos com genes de projetos ativos foram depositados na AddGene (depósito número 75507). Expressão de proteínas:
[00159] 2 ml de meio 2YT suplementado com 100 μg/ml de ampicilina (e 0,1 mM de ZnCl2 no caso de PTE) foram inoculados com uma única colônia e cultivados a 37°C por cerca de 15 horas. 10 ml de meio 2YT suplementado com 50 μg/ml de canamicina (e 0,1 mM de ZnCl2 no caso de PTE) foram inoculados com 0,2 ml de cultura durante a noite e cultivados a 37°C para um OD600 de cerca de 0,6. A superexpressão foi induzida com IPTG 0,2 mM e as culturas foram cultivadas por cerca de 24 horas a 20°C. Após centrifugação e armazenamento a -20°C, os glóbulos foram ressuspensos em tampão de lise e lisados por sonicação. Purificação de PTE:
[00160] Tampão de lise de PTE: Tris 50 mM (pH 8,0), NaCl 100 mM, NaHCO3 10 mM, ZnCl2 0,1 mM, benzonase e lisozima 0,1 mg/ml. A proteína foi ligada a resina de amilose (NEB), lavada com Tris 50 mM com NaCl 100 mM e ZnCl2 0,1 mM, e as proteínas foram eluídas com tampão de lavagem contendo maltose 10 mM. A fração de eluição foi usada para gel SDS-PAGE e antes dos ensaios de atividade as proteínas foram dialisadas em tampão de lavagem. Para a cristalização, as variantes de PTE foram reclonadas no vetor pETMBPH contendo um marcador 6xHis N-terminal e fusão MBP [Peleg, Y. and Unger, T., Methods Mol. Biol., 2008, 426, pp. 197–208] e a expressão foi realizada com 500 ml de cultura. Após a purificação, a proteína foi digerida com a protease TEV para remover o marcador de fusão MBP (1:20 TEV, 1
71 / 92 mM DTT, 24-48h/RT). A fusão MBP foi removida por ligação à resina Ni2+- NTA e a proteína foi purificada por filtração em gel (coluna de grau preparativo HiLoad 26/600 Superdex75, GE). Medições cinéticas:
[00161] As medições cinéticas dos projetos de PTE foram realizadas com proteínas purificadas em tampão de atividade (Tris 50 mM pH 8,0 com NaCl 100 mM e ZnCl2 0,1 mM). Uma gama de concentrações de enzima foi usada, dependendo da atividade. A atividade dos projetos de PTE foi testada colorimetricamente com fosfotriésteres (paraoxon (0,5 mM), malation (0,25 mM), EMP, IMP, CMP, PMP (0,1 mM cada), ésteres (p-nitrofenil acetato (0,5 mM), p-nitrofenil octanoato (0,1 mM), acetato de 2-naftila (0,3 mM) e lactonas (TBBL) (0,5 mM), lactona γ-nonanoica (0,5 mM, ensaio sensível ao pH, monitorando a absorbância do indicador m-cresol em 577 nm). As medições cinéticas foram realizadas em placas de 96 poços (comprimento óptico - 0,5 cm) e as taxas de hidrólise de fundo foram subtraídas.
[00162] A taxa de hidrólise dos agentes nervosos do tipo V na presença de hidrolases organofosforadas (OP) foi realizada conforme descrito [Cherny, I. et al., ACS Chem Biol., 2013, 8(11), pp. 2394-403]. A conversão in situ dos substitutos cumarínicos para os agentes nervosos G correspondentes em soluções aquosas diluídas e o monitoramento da taxa de desintoxicação dos agentes G por hidrolases OP foram realizados conforme descrito anteriormente [Ashani, Y. et al., Toxicology Letters, 2011, 206, pp. 24–28; e Gupta, R.D. et al., Nat Chem Biol., 2011, 7(2), pp. 120-5]. Deve-se observar que a concentração dos agentes G e V gerados in situ não é perigosa principalmente porque a síntese in situ foi realizada em uma escala pequena (mg) em soluções aquosas diluídas. No entanto, devido à sua alta potência como inibidores da AChE, todos os requisitos de segurança foram estritamente observados.
[00163] As eficiências catalíticas (kcat/KM) foram determinadas para os
72 / 92 projetos de PTE mais ativos medindo a atividade em várias concentrações de substrato baixas na região de cinética de primeira ordem aproximada da equação de Michaelis-Menten. Todos os valores relatados representam as médias ± desvios padrão com base em pelo menos duas medições independentes. Determinação da estrutura e refinamento das estruturas de projetos de PTE:
[00164] Cristais de PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) foram obtidos usando o método de difusão de vapor de gota suspensa com um robô Mosquito (TTP LabTech). Todos os conjuntos de dados foram coletados a 100 K em um único cristal em raios-X RIGAKU RU-H3R internos. Cristais de PTE_6 (SEQ ID NO: 6) foram cultivados a partir de sulfato de lítio 0,85 M e HEPES 0,05 M pH=7,0. Os cristais formados no grupo espacial P43212, com um dímero por unidade assimétrica e difratados para resolução de 1,63 Å. Cristais de PTE_28 (SEQ ID NO: 28) foram cultivados a partir de 0,1 M de MgCl2*6H2O, 10% de PEG 4000 e 0,05 M de Tris, pH=7,5. Os cristais formados no grupo espacial C2, com um dímero por unidade assimétrica e difratados para resolução de 1,9 Å. Cristais de PTE_29 (SEQ ID NO: 29) foram cultivados a partir de 0,1 M de Mg(OAC)2*4H2O, 8 % de PEG 8000 e 0,05 M de cacodilato de Na, pH=6,4. Os cristais formados no grupo espacial C2, com um dímero por unidade assimétrica e difratados para resolução de 1,95 Å.
[00165] Imagens de difração de PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) foram indexadas e integradas usando o programa Mosflm, e as reflexões integradas foram colocadas em escala usando o programa SCALA. As amplitudes do fator de estrutura foram calculadas usando TRUNCATE do pacote de programas CCP4. As estruturas de PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) foram resolvidos por substituição molecular com o programa PHASER. O modelo usado para resolver as estruturas de PTE_6 (SEQ ID
73 / 92 NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) foi a hidrolase organofosforada projetada (entrada PDB: 1QW7).
[00166] Todas as etapas de refinamento atômico foram realizadas com o programa CCP4/REFMAC5 e pelo Phenix refine. Os modelos foram construídos em mapas 2mFobs - DFcalc, and mFobs - DFcalc usando o programa COOT. Detalhes das estatísticas de refinamento das estruturas de PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) são descritos na Tabela 1. As coordenadas de PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28) e PTE_29 (SEQ ID NO: 29) foram depositadas no Banco de Dados de Proteínas RCSB com os códigos de acesso 6GBJ, 6GBK e 6GBL, respectivamente. As estruturas serão descritas no momento da publicação. Exemplo 3 Caracterização de biblioteca funcional
[00167] Todos os projetos de PTE retiveram níveis detectáveis de atividade de paraoxonase (ver Tabela 2 abaixo), demonstrando que seu sítio ativo estava intacto e funcional, apesar da alta diversidade de sequência. Variantes de PTE e paraoxon/malation:
[00168] A Tabela 2 apresenta a atividade específica de variantes de PTE (μM produto/min para mg de proteína) com paraoxon (0,5 mM) e malation (0,25 mM) de fosfotriésteres. Tabela 2 Paraoxon Malation Variante SEQ ID (PET_X) NO: Atividad Atividade e Atividade Melhoria Atividade Melhoria específica específic específica X vezes específica X vezes desv. pad. a, desv. pad. dPTE2 1 1831689 399922 1 12,3 0,13 1 2 2 19382 12563 0,011 NDa ND ND
74 / 92
3 3 24852 6865 0,0114 3,2 0,01 0,265
4 4 423802 83879 0,231 3,4 0,07 0,275
5 5 416265 105364 0,227 19,7 1,77 1,61
6 6 24100 896 0,013 5,8 0,45 0,476
7 7 4840 1037 0,003 ND ND ND
8 8 272243 18654 0,149 6,7 0,39 0,547
9 9 159772 9847 0,087 ND ND ND
10 10 131744 59833 0,072 20,6 2,31 1,683
11 11 363910 236417 0,199 5,5 0,94 0,448
12 12 14401 5901 0,008 0,9 0,13 0,070
13 13 158957 35117 0,087 3,1 0,34 0,256
14 14 251386 28715 0,137 12,4 1,54 1,008
15 15 2562 475 0,001 1,0 0,05 0,0081
16 16 6600 1163 0,004 1,4 0,26 0,117
17 17 8 7 0,000005 ND ND ND
18 18 60 42 0,000033 ND ND ND
19 19 3030 502 0,002 ND ND ND
20 20 330 22 0,00018 ND ND ND
21 21 331 81 0,00018 ND ND ND
22 22 8 1 0,000005 ND ND ND
23 23 18276 1338 0,010 3,2 0,01 0,26
24 24 8585 1463 0,005 ND ND ND
25 25 120540 4312 0,066 23,9 0,87 1,95
26 26 7971 482 0,004 4,5 0,50 0,366
27 27 7589 279 0,004 14,7 0,98 1,199
28 28 283534 27113 0,155 20,1 1,52 1,641
29 29 129516 38476 0,071 7,5 0,71 0,614
30 30 776019 105049 0,424 34,7 3,16 2,831
31 31 75590 1229 0,041 15,8 0,21 1,288
32 32 32664 9138 0,018 1,5 0,06 0,123
33 33 30701 1009 0,017 175,8 44,84 14,34
75 / 92 34 34 51106 8465 0,028 20,0 1,58 1,634 35 35 28392 9499 0,016 22,1 1,37 1,799 36 36 17941 510 0,010 ND ND ND 37 37 6800 2869 0,004 1,0 0,12 0,085 38 38 12457 487 0,007 0,6 0,02 0,046 39 39 272 139 0,00015 ND ND ND 40 40 16 6 0,00001 ND ND ND 41 41 1703 523 0,001 ND ND ND 42 42 51358 1581 0,028 0,5 0,13 0,037 43 43 10180 2911 0,006 ND ND ND 44 44 6685 2698 0,004 3,7 0,52 0,301 45 45 101739 34943 0,056 ND ND ND 46 46 14532 5650 0,008 3,8 0,37 0,311 47 47 5126 2140 0,003 1,2 0,08 0,098 48 48 10532 1765 0,006 ND ND ND 49 49 917 97 0,001 ND ND ND 50 50 2265 41 0,001 ND ND ND
[00169] As atividades específicas das variantes foram medidas com substratos promíscuos alternativos, incluindo fosfotriésteres diferentes de paraoxon, fosfonodiésteres, carboxi-ésteres e lactonas (ver, FIG. 2A). Seguindo essa triagem inicial, as eficiências catalíticas dos projetos mais ativos foram determinadas. A maioria dos projetos apresentou ganhos de eficiência com relação a pelo menos um substrato: 10 projetos apresentaram eficiências melhoradas na hidrólise do pesticida malation em até 14 vezes, 15 mostraram níveis similares de melhoria (até 16 vezes) na eficiência da lactonase e 35 apresentaram ganhos notáveis de até 1.000 vezes na eficiência da esterase (ver, FIGs. 2B-C, Tabela 3 e Tabela 5). Variantes de PTE e fosfotriésteres com cumarina:
[00170] A Tabela 3 apresenta a atividade específica de variantes de PTE (produto μM/min para mg de proteína) com fosfotriésteres com grupo de
76 / 92 saída cumarina (0,1 mM). O negrito indica enantiosseletividade relaxada (nenhum comportamento bifásico característico de diferentes taxas de hidrólise dos dois estereoisômeros foi observado). Tabela 3
EMP IMP CMP PMP
SEQ Variante ID Ativida Ativi- Ativi- Ativi- Ativi- Ativi- Ativi- Ativi- (PET_X) NO: de dade dade dade dade dade dade dade específi especí especí especí- especí- especí- especí- especí- ca -fica -fica fica fica fica desv. fica fica desv. desv. pad. desv. pad. pad. pad. 330677 12092 31771 4923 142793 3566 13943 1239 dPTE2 1 8 14010 587 2465 8 166006 30451 1558 39 2 2 25702 514 1779 71 12138 439 2864 76 3 3 92338 8890 30437 1899 17015 193 8185 5 4 4 28367 994 18075 476 8477 41 886 27 5 5 6534 54 2190 277 691 44 100 2 6 6 9304 557 724 9 3131 164 1549 72 7 7 31084 1763 20177 536 47759 748 1478 56 8 8 76404 581 26780 1015 18068 734 940 9 9 9 67124 1060 33897 1832 2344 221 1785 127 10 10 49016 1503 38416 2134 29633 34692 226 11 11 11 5751 20 1380 13 26958 2 1072 13 12 12 16701 291 13500 641 7211 20 1075 0 13 13 36002 266 27008 1966 42811 2289 159 7 14 14 420 31 45 2 1055 94 17 1 15 15 2475 110 310 1 224 8 13 3 16 16 16 1 3 0,1 66 1 ND ND 17 17 112 0,01 23 1 149 9 5 0,1 18 18 5153 166 7293 42 5976 17 171 1 19 19 1234 100 694 18 767 66 18 3 20 20
77 / 92 37 2 15 0,2 3513 25 5 0,1 21 21 8 0,2 3 0,1 19 0,02 ND ND 22 22 6291 93 4347 113 123657 12869 784 7 23 23 4822 97 4408 138 43103 1140 612 11 24 24 178909 16868 14540 8815 23822 233 1666 19 25 25 2 45693 643 15769 540 39817 149 329 9 26 26 3603 199 2749 59 10074 22 1115 11 27 27 136012 2644 31577 2726 2501 363 10662 26 28 28 69759 4337 40942 384 13061 94 2022 76 29 29 8951 1963 8812 220 3063 153 328 15 30 30 18568 1053 18288 20 155709 8495 1523 39 31 31 4339 169 3989 70 57811 2260 652 40 32 32 45044 3338 9703 157 1880 179 187 10 33 33 9479 201 3124 131 1260 38 95 4 34 34 4410 223 1005 36 360 17 13 1 35 35 34534 112 5548 110 402 15 137 4 36 36 967 57 294 13 1400 5 13 2 37 37 9735 349 11207 37 84039 9193 331 3 38 38 318 4 194 10 8489 325 48 1 39 39 35 1 14 1 127 2 5 0,2 40 40 13306 190 7461 244 4715 167 102 7 41 41 42443 494 23941 865 26543 309 423 5 42 42 4086 41 1856 20 15879 1119 437 13 43 43 77219 1393 31165 274 3435 97 240 22 44 44 5969 126 4320 91 6659 49 68 5 45 45 2488 71 1562 16 7348 175 68 6 46 46 1554 38 540 4 40 0,2 3 0,1 47 47 3774 132 4034 146 23786 313 93 17 48 48 2503 21 1375 14 3729 214 18 0,4 49 49 605 2 111 2 22 1 3 0,03 50 50
Variantes de PTE e ésteres:
78 / 92
[00171] A Tabela 4 apresenta a atividade específica de variantes de PTE (produto μM/min para mg de proteína) com ésteres. ND = abaixo do limite de detecção. Tabela 4 P-nitro- P-nitro- acetato de naftila (0,3 acetato de fenila (0,5 mM) fenil octanoato (0,1 mM) mM) Vari-
SEQ ante
ID (PET Ativi- Ativi- Ativi- NO: _X) Ativi- dade Ativi- dade Ativi- dade Melho- Melho- Melho dade específi dade especí- dade especí- ria X ria X -ria X espec ca especí- fica espec fica vezes vezes vezes ífica desv. fica desv. í-fica desv. pad. pad. pad.
dPTE 1 94 7,0 1 5,0 0,1 1 180,1 0,4 1 2 1299, 2 2 239 24,3 2,55 60,1 0,6 11,92 12,2 7,22 9 6970, 3 3 263 20,1 2,80 203,1 14,4 40,31 724,0 38,72 3 4 4 79 6,8 0,84 18,2 0,1 3,61 139,3 44,9 0,77 5 5 101 17,0 1,07 8,8 0,1 1,75 429,1 66,3 2,38 8215 456,4 6 6 6041 1042,6 64,27 17,2 0,0 3,42 7041,5 5,1 2 7751, 7 7 536 47,2 5,70 241,0 30,0 47,82 689,5 43,06 5 8 8 67 0,9 0,71 1,1 0,1 0,22 295,3 43,9 1,64 1113 9 9 1469 33,0 15,62 385,1 56,7 76,41 2549,9 61,86 5,5 1583, 10 10 770 7,0 8,20 0,9 0,2 0,18 118,0 8,80 9 11 11 34 1,2 0,37 ND ND ND 127,1 24,4 0,71 12 12 51 1,6 0,54 17,7 0,6 3,52 57,7 22,7 0,32 13 13 60 0,7 0,64 77,3 2,8 15,34 189,3 52,9 1,05 1624, 14 14 649 22,5 6,90 3,9 0,1 0,78 22,4 903 8 4091, 15 15 226 1,5 2,41 9,4 0,2 1,87 1109,7 22,73 4 1664 16 16 2197 275,8 23,37 1,6 0,1 0,32 5797,5 92,47 4,7 17 17 NDa ND ND 0,6 0,0 0,12 62,5 60,1 0,35 18 18 4 0,2 0,04 0,7 0,1 0,14 32,7 13,2 0,18
79 / 92
19 19 ND ND ND 1,1 0,1 0,21 7,7 6,7 0,04
20 20 4 0,2 0,04 1,6 0,2 0,31 16,0 8,6 0,09
21 21 17 0,4 0,18 2,9 0,0 0,57 120,2 8,2 0,67
22 22 19 0,1 0,20 ND ND ND 185,9 6,5 1,03 1633, 23 23 1662 149,6 17,68 128,1 3,2 25,42 64,0 9,07 0 2053, 24 24 304 1,8 3,24 12,4 0,2 2,46 92,9 11,41 3 1914 106,3 25 25 8623 16,6 91,74 51,5 0,4 10,23 2641,7 6,8 7 5159 1378 26 26 1961,9 548,87 580,7 47,7 115,21 27687 766,1 3 94 2562, 27 27 2689 364,6 28,61 28,1 1,9 5,58 88,4 14,24 4 1857, 28 28 3243 33,4 34,50 123,1 1,6 24,43 23,4 10,32 4 3186 177,0 29 29 2575 58,0 27,40 206,3 13,4 40,93 7843,9 8,6 5 1448 30 30 1897 21,7 20,18 17,2 0,5 3,42 3140,2 80,49 7,8 1172 31 31 1887 23,9 20,07 748,6 38,6 148,52 2369,0 65,16 7,9 1763 32 32 313 9,6 3,33 429,7 1,1 85,27 4869,2 97,98 6,9 1966 109,2 33 33 2445 59,8 26,01 18,2 0,4 3,61 527,1 0,3 2 7899, 34 34 859 22,2 9,14 6,9 0,3 1,36 2119,4 43,88 2 35 35 528 30,7 5,62 105,4 15,9 20,92 375,1 91,9 2,08 1553 36 36 2949 9,7 31,37 14,6 0,4 2,89 627,5 86,33 8,8 1007 8388 466,0 37 37 5927,9 1071,7 11,7 0,1 2,33 6978,5 38 7,1 4 38 38 203 4,6 2,16 26,3 0,4 5,22 310,0 34,7 1,72
39 39 13 0,1 0,13 2,2 0,1 0,44 222,5 8,3 1,24
40 40 ND ND ND 1,3 0,0 0,26 146,6 7,2 0,81 2414, 41 41 656 11,3 6,98 41,1 3,4 8,16 235,6 13,41 6 42 42 10 0,5 0,11 ND ND ND 65,3 18,4 0,36
43 43 52 4,7 0,56 39,1 0,1 7,75 152,1 23,4 0,85
44 44 52 2,5 0,55 3,1 0,1 0,62 142,6 2,0 0,79 1270, 45 45 197 2,9 2,10 12,4 0,5 2,45 153,7 7,06 8 1605, 46 46 128 4,3 1,36 ND ND ND 21,8 8,92 7 47 47 67 0,2 0,71 3,1 0,3 0,61 164,1 1,2 0,91 1224, 48 48 101 2,4 1,08 9,4 0,1 1,86 156,7 6,80 6
80 / 92 3774, 49 49 552 37,9 5,87 158,9 7,4 31,52 283,7 20,97 7 50 50 78 2,6 0,83 5,1 0,2 1,01 110,2 22,2 0,61 Variantes de PTE e lactonas:
[00172] A Tabela 5 apresenta a atividade específica de variantes de PTE (produto μM/min para mg de proteína) com lactonas. ND = abaixo do limite de detecção. Tabela 5 TBBL (0,5 mM) Lactona γ-Nonanoica (0,5 mM) Variante SEQ (PET_X) ID NO: Atividade Atividade Atividade Melhoria Atividade Melhoria específica específica específica X vezes específica X vezes desv. pad. desv. pad.
dPTE2 1 3016 497,9 1 126,6 1,35 1 2 2 389 160,8 0,13 ND 3 3 69 16,2 0,02 ND 4 4 134 49,9 0,04 368,2 105,0 2,91 5 5 200 116,5 0,07 ND 6 6 112 1,3 0,04 ND 7 7 31 8,5 0,01 ND 8 8 6847 1549,6 2,27 276,0 97 2,18 9 9 21 0,1 0,01 ND 10 10 5426 1325,2 1,80 ND 11 11 5871 3171,8 1,95 ND 12 12 32 19,2 0,01 ND 13 13 56 7,1 0,02 ND 14 14 14438 3271,7 4,79 854,3 7,3 6,75 15 15 1340 532,3 0,44 ND 16 16 157 69,5 0,05 ND 17 17 32 1,6 0,01 ND
81 / 92
18 18 82 27,6 0,03 ND
19 19 80 19,1 0,03 ND
20 20 15 5,9 0,01 ND
21 21 1100 244,6 0,36 126,0 0,99
22 22 128 6,7 0,04 ND
23 23 538 87,3 0,18 ND
24 24 1825 107,9 0,61 ND
25 25 15299 168,9 5,07 ND
26 26 912 279,1 0,30 ND
27 27 20173 501,7 6,69 184,3 41,8 1,456
28 28 8739 296,2 2,90 1570,3 391,3 12,40
29 29 360 51,0 0,12 ND
30 30 4471 1804,8 1,48 402,2 174,1 3,18
31 31 10243 2150,1 3,40 2923,3 574,2 23,09
32 32 2068 38,6 0,69 375,9 16,7 2,99
33 33 20622 3688,8 6,84 7022,1 1065,5 55,47
34 34 12126 155,5 4,02 854,9 294,9 6,75
35 35 8988 1767,6 2,98 1196,9 413,7 9,45
36 36 443 141,4 0,15 ND
37 37 1240 143,5 0,41 ND
38 38 3933 1040,5 1,30 322,6 41,0 2,55
39 39 196 108,9 0,07 ND
40 40 38 17,1 0,01 ND
41 41 18 5,1 0,01 ND
42 42 985 11,0 0,33 ND
43 43 920 193,8 0,31 ND
44 44 342 244,4 0,11 ND
45 45 467 75,1 0,15 130,9 1,03
46 46 4101 1261,2 1,36 2646,4 126,5 20,90
47 47 675 251,3 0,22 ND
48 48 80 33,1 0,03 ND
82 / 92 49 49 12 3,1 0,004 ND 50 50 683 265,1 0,23 ND
[00173] Além de apresentar eficiências catalíticas melhoradas contra uma gama de substratos, as variantes de PTE aqui apresentadas, de acordo com algumas modalidades da presente invenção, também mostraram grandes mudanças na seletividade de substrato. Por exemplo, PTE-S5 é seletivo para paraoxon sobre o éster acetato de 2-naftila (2NA) em 3x104 vezes. Por meio de apenas cinco mutações de sítio ativo, a seletividade foi revertida na variante PTE_37 (SEQ ID NO: 37) a 0,04; uma troca de seletividade de quase um milhão. Da mesma forma, PTE-S5 favorece paraoxon sobre a lactona sintética tetrabutil butirolactona (TBBL) por 103 vezes, enquanto no projeto PTE_27 (SEQ ID NO: 27) a seletividade é alterada para 0,1 (ver a Tabela 6 abaixo). Eficiência catalítica de variantes de PTE:
[00174] A Tabela 6 apresenta mudanças de especificidade (como razões de eficiência catalítica, kcat/KM) em variantes de PTE. Tabela 6 Troca de Troca de Paraoxon/ Variante especificidade Paraoxon/ especificidade SEQ ID NO: acetato de 2- (PET_X) em relação a TBBL em relação a naftila dPTE2 dPTE2 dPTE2 1 31048,6 1 1406,5 1 6 6 3,41 9104 98,7 14 14 14 1149,3 27 15,7 90 25 25 25,65 1210 7,6 186 26 26 0,13 246732 5,2 272 27 27 4,61 6737 0,1 11219 28 28 1454,3 21 8,8 161 29 29 7,60 4086 148,0 10 37 37 0,04 741664 4,1 347
83 / 92 54 54 591 53 1206,5 1
[00175] Notavelmente, esses projetos retiveram atividade de paraoxonase substancial (kcat/KM ≥104 M-1s-1), demonstrando que alguns dos projetos ampliaram o reconhecimento do substrato em vez de apenas trocar uma atividade por outra (ver, FIG. 2C). Consistente com essa conclusão, vários projetos apresentaram eficiência aumentada em relação ao estereoisômero desfavorecido de fosfonatos de metil cumarina em relação ao tipo selvagem, enquanto retinham alta eficiência contra o estereoisômero nativamente favorecido (ver, Tabela 3).
[00176] Em seguida, a eficiência catalítica dos projetos que retiveram alta atividade de fosfotriesterase com os agentes nervosos tóxicos VX, Russian VX (RVX), Soman (GD) e Ciclosarina (GF) foi medida (ver, Tabela 7 e Tabela 8).
[00177] A Tabela 7 apresenta a atividade de variantes de PTE com agentes nervosos do tipo V, kcat/KM s-1M-1. Tabela 7
VX RVX Variante SEQ ID (PTE_X) NO: Isômero S Isômero R Isômero S Isômero R 157±12 113±3 10,0±1,6 333±22 PTE S5 - 317±67 400±12 217±67 1833±167 dPTE2 1 141,7 40 1650 <16 4 4 250,0 110 1567 <16 5 5 <16 30 18 <16 8 8 35 183 23 <16 10 10 60 72 18 <16 11 11 152±1 62 50 500 14 14 116±10 650±47 100 NM 25 25 <16 18 <16 <16 27 27
11.000±2333 4000±167 333±166 11.500±100 28 28 0
84 / 92 700±50 <25 15.500±116 <25 29 29 7 666±166 333±166 5500±500 210 30 30 33 27 122 31 31 <16 133 <16 <16 33 33 <16 <16 <16 34 34 <16 <16 <16 35 35 35 283 <33 51 51 750 1133 <33 52 52 917 7500 833 53 53 4833 467 <33 54 54 483 8167 <33 55 55 717±100 <25 14670±1500 <25 56 56 250±50 <25 2667±117 <33 57 57 138 3000 <33 58 58 20 300 <33 59 59 45 67 <33 60 60 80 2667 <33 61 61 90 8167 <33 62 62 40 900 <33 63 63
[00178] A Tabela 8 apresenta a comparação da atividade dos melhores projetos de PTE com agentes nervosos com aquela de variantes de PTE obtidas por evolução direcionada; kcat/KM,x106 M-1min-1, medida em Tris 50 mM com NaCl 50 mM a pH 8, 25°C. Tabela 8 Variante SEQ ID NO: GF GD S-VX S-RVX 0,048±0,008a 0,98±0,31 0,0094a 0,0006a PTE-S5a - (0,11±0,03)a,b 0,124±0,009c 0,099±0,005c 0,01c 0,0009c
85 / 92 0,29±0,06 dPTE2 1 0,170±0,003 0,019±0,004 0,013±0,004 (0,10±0,01) PTE_28 28 1,06±0,11 0,11±0,017 0,66 ±0,14 0,02±0,01 PTE_29 29 191±36 3,9±0,2 0,042±0,003 0,93±0,07 31,2 ±14,0 PTE_56 56 159±19 0,043 ±0,006 0,88±0,09 (6,2±1,2) 119,5±4,9 PTE_57 57 136±18 0,015±0,003 0,16±0,7 (20,5±13,4) C23c 1,74±0,23 2,64±0,16 5,95±0,16 0,45±0,01 IV-A1c 1,86±0,18 1,53±0,05 2,53±0,11 5,27±0,16 d1-IVA1d PROSS 3,8 3,5 12 estabilizado (1,1)b 10-2-C3d 1,4 estabilizado 50 3,2 ( 0,2)b a Dados para wt-PTE-S5 retirados de Cherny et al. [Cherny, I. et al., ACS Chem Biol., 2013, 8(11), pp. 2394-403]. Determinado a 25°C, tanto pelo uso do DTNB quanto pela perda dos protocolos anti-AChE. b Em alguns casos, a desintoxicação dos dois enantiômeros S de GD foi bifásica, o que é atribuído aos dois isômeros tóxicos, SpCR e SPCS. Os parâmetros para a fase lenta são dados entre parênteses. c Dados de Goldsmith et al. [Goldsmith, M. et al., Arch. Toxicol., 2016, 90, pp. 2711–2724.]. Todas as entradas foram determinadas com agentes nervosos autênticos a 37°C usando o protocolo de monitoramento da perda de ani-AChE dos OPs. d Dados de Goldsmith et al. [Goldsmith, M. and Tawfik, D.S., Curr. Opin. Struct. Biol., 2017, 47, pp. 140–150].
[00179] Como pode ser visto na Tabela 8, PTE_28 (SEQ ID NO: 28) apresentou um aumento de 66 vezes na eficiência de hidrólise VX em relação ao PTE de tipo selvagem e PTE_29 (SEQ ID NO: 29) apresentou ganhos notáveis em eficiência de 1.550 e 3.980 vezes na hidrólise de RVX e GF, respectivamente.
[00180] A partir de PTE_28 (SEQ ID NO: 28), uma segunda rodada de projeto foi iniciada, dessa vez direcionando FuncLib para modelar todas as combinações de 3 a 5 mutações que ocorreram nas melhores hidrolases de agente nervoso testadas na primeira rodada e eliminando projetos que foram previstos como instáveis (>8 Unidades de energia Rosetta em relação a PTE_28 (SEQ ID NO: 28)). Os 14 projetos resultantes foram testados experimentalmente, verificando que os projetos PTE_56 (SEQ ID NO: 56) e
86 / 92 PTE_57 (SEQ ID NO: 57) apresentaram atividades aumentadas para GD (32 vezes e 122 vezes, respectivamente), e ambos os projetos apresentaram um aumento de 3.000 vezes na hidrólise de GF. Essas variantes, com kcat/kM ≥ 107 M-1min-1 para os agentes nervosos altamente tóxicos RVX, GD e GF, podem ser adequadas para desintoxicação in vivo.
[00181] Como pode ser visto na Tabela 8, os ganhos de eficiência observados testando 63 variantes foram comparáveis às melhores variantes da aplicação de mais de uma dúzia de rodadas de diversificação e teste experimental de milhares de variantes usando estratégias convencionais de evolução de laboratório. Além disso, os experimentos de evolução em laboratório exigem campanhas de seleção separadas para cada substrato, enquanto o repertório projetado compreendia dezenas de enzimas com eficiência aprimorada para cada um dos substratos testados. Além disso, todas as variantes mostraram níveis de expressão bacteriana comparáveis à sequência inicial de dPTE2 altamente expresso (SEQ ID NO: 1) (> 300 mg de proteína por litro de cultura).
[00182] Esses resultados demonstram que a combinação de PROSS e FuncLib pode não exibir os obstáculos do limite de estabilidade que restringiram a evolução laboratorial de muitas enzimas, incluindo PTE. Assim, FuncLib resulta em um repertório pequeno, mas funcionalmente altamente diverso de enzimas estáveis e eficientes e pode, em alguns casos, ignorar a necessidade de triagens de alto rendimento. Espaço de sequência para PTE:
[00183] A Tabela B apresenta o espaço de sequência de substituições de aminoácidos (mutações) resultantes do método aqui apresentado (FuncLib), impondo os resíduos-chave descritos acima e permitindo que os resíduos do sítio ativo sejam substituídos. O espaço de sequência tem 8 posições de substituição de aminoácidos, cada uma com pelo menos uma substituição opcional sobre o aminoácido WT (ou sequência inicial) na
87 / 92 posição dada, em que o aminoácido original (tipo selvagem) na posição é marcado por negrito e é o primeiro da esquerda. Tabela B Posição (numeração de acordo com a entrada do PDB: 1HZY 106 132 254 257 271 303 306 317 I/C/H/L/M F/L H/G/R H/Y/W L/I/R L/T F/I M/L Exemplo 4 Bases estruturais de eficiência e seletividade catalítica
[00184] Para entender quais fatores moleculares estão por trás dos altos ganhos na eficiência catalítica em algumas variantes obtidas pela implementação do método de projeto provido neste documento, a cristalografia de raios-X foi usada para determinar as estruturas moleculares de PTE_6 (SEQ ID NO: 6) (atividade melhorada 280 vezes com 2NA), PTE_28 (SEQ ID NO: 28) (atividade melhorada 65 vezes com TBBL e atividade melhorada 103 vezes com S-VX), e PTE_29 (SEQ ID NO: 29) (atividade melhorada 3.980 vezes com GF), e os resultados são apresentados na FIG. 3 e Tabela 9.
[00185] A FIG. 3 apresenta um diagrama que mostra que as mutações projetadas nas variantes de PTE providas neste documento, de acordo com algumas modalidades da presente invenção, apresentam relações epistáticas de sinal, em que cada círculo representa um mutante de dPTE2 (SEQ ID NO: 1), a área de cada círculo é proporcional à atividade específica da variante na hidrólise do aril éster 2-naftil acetato (2NA), e em que o PROSS projetou e estabilizou a sequência dPTE2 (SEQ ID NO: 1), que foi usada como o ponto de partida no método provido neste documento, apresenta baixa atividade específica e cada um dos mutantes pontuais apresenta atividade específica melhorada, a atividade específica declina nos mutantes duplos, e o mutante quad, projeto PTE_6 (SEQ ID NO: 6), melhora substancialmente a atividade específica em relação a todos os mutantes simples ou duplos.
88 / 92
[00186] A Tabela 9 apresenta a coleta de dados cristalográficos e estatísticas de refinamento para os projetos de PTE, em que os valores entre parênteses se referem aos dados da camada de resolução superior correspondente. Tabela 9 PTE_6 PTE_28 PTE_29 Variante (SEQ ID NO: 6) (SEQ ID NO: 28) (SEQ ID NO: 29) ID de entrada de PDB 6GBJ 6GBK 6GBL Grupo de espaço P43212 C2 C2 Dimensões da célula: a, b, c (Å) 69,49, 69,49, 186,02 156,75, 53,09, 89,23 55,80, 53,56, 89,34 α, β, γ (˚) 90, 90, 90 90, 106,81,90 90, 107,21, 90 Nº de cópias em a.u. 1 1 1 Resolução (Å) 38,65 -1,63 41,47-1,9 41,61-1,95 Camada de resolução 1,69 -1,63 1,97 -1,9 2,02-1,95 superior (Å) Reflexos únicos 57.720 (5.611) 55.705 (5.523) 45.387 (3.967) Integralidade (%) 99,70 (98,79) 99,91 (99,87) 87,83 (77,54) Multiplicidade 7,4 (7,3) 3,3 (3,2) 7,4(7,3) Média I/σ(I) 13,5 (2,8) 5,56 (1,49) 10,91 (3,05) Rsym (I) (%) 0,0338 (0,262) 0,09026 (0,4785) 0,0456 (0,224) Refinamento: Faixa de resolução (Å) 38,65 -1,63 41,47-1,9 41,61-1,95 Nº de reflexos (I/σ(I) >
57.716 55.668 45.382 0) Nº de reflexos em
2.886 2.783 2.272 conjunto de teste R-funcionamento (%) / 0,1696/0,1891 0,2010/0,2182 0,1833/0,2253 R-livre (%)
89 / 92 Nº de átomos de
2.558 5.064 5063 proteína Nº de moléculas de 330 659 660 água Fator B médio geral 18,54 11,32 18,61 (Å2) Desvios quadráticos médios: - comprimento da 0,025 0,011 0,018 ligação (Å) - ângulo da ligação (°) 2,36 1,53 1,85 Gráfico de Ramachandran: Mais favorecido (%) 96,95 96,47 96,31 Adicionalmente 3,05 3,53 3,69 permitido (%) 0,0 Não permitido (%) 0,0 0,0 Insights estruturais:
[00187] A inspeção visual e a análise de posição das estruturas cristalinas verificaram que todas as três estruturas mostraram alta precisão em relação aos seus respectivos modelos (desvio quadrático médio [rmsd] <0,5 Å sobre a cadeia principal e 0,3 Å RMSD de todos os átomos em resíduos de sítio ativo mutado), confirmando que o processo de projeto resultou em cavidades de sítio ativo precisas e pré-organizadas conforme necessário para a catálise de alta eficiência.
[00188] As estruturas cristalinas também foram comparadas às estruturas obtidas em simulações de acoplamento molecular, que foram geradas para modelar os estereoisômeros Sp tóxicos de VX, RVX e GD nas cavidades de sítio ativo de PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), e PTE_56 (SEQ ID NO: 56), respectivamente. Os modelos resultantes indicaram que as cavidades de sítio ativo projetadas eram grandes o suficiente para acomodar os agentes nervosos volumosos e formar contatos diretos com eles, principalmente devido a duas substituições de grande para pequeno
90 / 92 porte, His254Gly e Leu303Thr (ver, FIG. 3). Esses contatos diretos também podem ser a base da alta enantiosseletividade observada em alguns projetos (> 104 para o projeto de PTE_29 (SEQ ID NO: 29); ver Tabela 7). Além disso, várias esterases e lactonases melhoradas (PTE_14-16 (SEQ ID NOs: 14-16), 31-35 (SEQ ID NOs: 31-35), e 37 (SEQ ID NO: 37)) codificou a mutação His254Arg, que mudou a organização estérica e eletrostática da cavidade do sítio ativo, como também relatado em estudos de evolução em laboratório que intensificaram essas atividades. Conclui-se, portanto, que as mutações projetadas por FuncLib afetaram principalmente a estrutura da cavidade do sítio ativo, que o repertório projetado codificava diversidade estereoquímica substancial no sítio ativo levando a grandes mudanças de seletividade, e que um punhado de mutações do sítio ativo era suficiente para efetuar melhorias de ordens de magnitude na eficiência catalítica e seletividade contra vários substratos. Epistasia de sinal entre mutações projetadas:
[00189] Em cada variante de PTE, de acordo com algumas modalidades da presente invenção, as mutações são agrupadas espacialmente. Foi, portanto, antecipado que alguns projetos mostrariam relações epistáticas complexas, por meio das quais os efeitos de mutantes multiponto não poderiam ser simplesmente previstos com base nos efeitos dos mutantes de ponto único. As atividades específicas de todos os mutantes de ponto único e duplo compreendendo três dos melhores projetos foram, portanto, medidas: PTE_6 (SEQ ID NO: 6), PTE_28 (SEQ ID NO: 28), e PTE_33 (SEQ ID NO: 33) com quatro, três e quatro mutações no sítio ativo em relação ao PTE, respectivamente (ver, FIG. 4). Na PTE_6 (SEQ ID NO: 6) e PTE_33 (SEQ ID NO: 33), as mutações pontuais melhoraram a eficiência catalítica em relação ao tipo selvagem, mas alguns mutantes duplos apresentaram eficiências que eram substancialmente mais baixas do que as do tipo selvagem.
[00190] A FIG. 4 apresenta uma ilustração das propriedades
91 / 92 estereoquímicas das cavidades de sítio ativo projetadas que fundamentam as mudanças de seletividade em variantes de PTE, providas neste documento de acordo com algumas modalidades da presente invenção, em que PTE_28 (SEQ ID NO: 28; denotada 28 na FIG. 4) e PTE_29 (SEQ ID NO: 29; denotada 29 na FIG. 4) apresentam uma cavidade de sítio ativo maior do que dPTE2 (SEQ ID NO: 1; denotada 1 na FIG. 4) e alta eficiência catalítica contra agentes nervosos volumosos do tipo V e G (no sentido horário a partir do canto superior esquerdo, renderizações moleculares são baseadas em entradas de PDB: 1HZY, 6GBJ, 6GBK, e 6GBL; esferas indicam íons do centro bimetálico.
[00191] Como pode ser visto na FIG. 4, PTE_6 (SEQ ID NO: 6; denotada 6 na FIG. 4) proveu um caso convincente de epistasia de sinal, em que todas as mutações pontuais melhoraram a atividade específica com o éster 2NA. Todos os mutantes duplos, no entanto, foram piores do que o His257Trp de ponto único, e três dos mutantes duplos foram ainda piores do que o ponto de partida dPTE2 (SEQ ID NO: 1; denotada 1 na FIG. 4). Mais revelador, a combinação de dois mutantes duplos que apresentaram atividades específicas mais baixas do que dPTE2 (SEQ ID NO: 1; denotada 1 na FIG. 4), His254Arg/His257Trp e Leu303Thr/Met317Leu, resultou no projeto mais ativo PTE_6 (SEQ ID NO: 6; denotada 6 na FIG. 4), que melhorou a atividade específica em duas ordens de magnitude em relação a dPTE2 (SEQ ID NO: 1; denotada 1 na FIG. 4) e em três ordens de magnitude em relação ao mutante duplo Leu303Thr/Met317Leu. Além disso, no nível do DNA, as mutações pontuais His→Trp e Leu→Thr requerem três e duas trocas de nucleotídeos, respectivamente, reduzindo drasticamente as chances de surgimento de PTE_6 (SEQ ID NO: 6; denotada 6 na FIG. 4) através da acumulação gradual de mutações. Uma análise anterior das trajetórias mutacionais que levam à intensificação da aptidão em mutantes β-lactamase clinicamente isolados observou a difusão da epistasia de sinal na evolução; no
92 / 92 entanto, uma fração das trajetórias naquele caso mostrou uma melhoria monótona e, portanto, evolutivamente selecionável, na atividade. Para PTE_6 (SEQ ID NO: 6; denotada 6 na FIG. 4), em contraste, a análise atualmente apresentada não sugeria nem mesmo uma única trajetória mutacional de atividade monotonamente crescente. Portanto, o método provido neste documento (FuncLib) pode acessar mutantes que não podem ser obtidos por meio do acúmulo gradual de mutações benéficas que é um pré-requisito para a evolução natural ou de laboratório.
[00192] Embora a invenção tenha sido descrita em conjunto com modalidades específicas da mesma, é evidente que muitas alternativas, modificações e variações serão evidentes para os versados na técnica. Consequentemente, pretende-se abranger todas essas alternativas, modificações e variações que se enquadram no espírito e no escopo amplo das reivindicações anexas.
[00193] Todas as publicações, patentes e pedidos de patente mencionados neste relatório descritivo são aqui incorporados na sua totalidade por referência no relatório descritivo, na mesma extensão como se cada publicação individual, patente ou pedido de patente fosse especificamente e individualmente indicado para ser aqui incorporado por referência. Além disso, a citação ou identificação de qualquer referência neste pedido não deve ser interpretada como uma admissão de que tal referência está disponível como técnica anterior à presente invenção. Na medida em que os cabeçalhos de seção são usados, eles não devem ser interpretados como necessariamente limitativos.
[00194] Além disso, qualquer documento(s) de prioridade deste pedido é/são aqui incorporado(s) por referência em sua totalidade.

Claims (8)

REIVINDICAÇÕES
1. Proteína, caracterizada pelo fato de que tem uma sequência selecionada a partir do grupo que consiste em qualquer combinação de pelo menos 2 substituições de aminoácidos de um espaço de sequência proporcionado para fosfotriesterase (PTE) de Pseudomonas diminuta como uma proteína original, e apresentada na Tabela A: Tabela A Posição (numeração de acordo com a entrada do PDB: 1HZY 106 132 254 257 271 303 306 317 C/H/L/M L G/R Y/W I/R T I L
2. Proteína de acordo com a reivindicação 1, caracterizada pelo fato de ser uma proteína híbrida em que a dita combinação de substituições de aminoácidos é implementada em uma proteína PTE diferente da dita proteína original.
3. Proteína de acordo com a reivindicação 2, caracterizada pelo fato de que tem uma sequência selecionada a partir do grupo que consiste no apresentado na Tabela A apresentada acima.
4. Proteína de acordo com a reivindicação 3, caracterizada pelo fato de que tem uma sequência selecionada a partir do grupo que consiste em PTE_28 (SEQ ID NO: 28), PTE_29 (SEQ ID NO: 29), PTE_56 (SEQ ID NO: 56), e PTE_57 (SEQ ID NO: 57).
5. Método de desintoxicação de agentes organofosforados, caracterizado pelo fato de que compreende o contato de uma área suspeita de estar contaminada com os ditos agentes organofosforados com pelo menos uma proteína como definida em qualquer uma das reivindicações 1 a 4.
6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que a dita área é um objeto inanimado ou uma parte do mesmo, selecionado a partir do grupo que consiste em um piso, uma parede, um edifício, um veículo, uma peça de roupa e uma peça de equipamento, e uma parte de qualquer um dos anteriores.
7. Método de acordo com a reivindicação 5, caracterizado pelo fato de que a dita área é selecionada a partir do grupo que consiste em uma planta, um animal e uma parte de qualquer um dos anteriores.
8. Método de acordo com qualquer uma das reivindicações 5 a 7, caracterizado pelo fato de que os ditos agentes organofosforados são selecionados a partir do grupo que consiste em um agente nervoso do tipo G, um agente nervoso do tipo V e um agente nervoso do tipo GV.
A.
Espaço de sequência de sítio ativo de computação
Petição 870210028488, de 26/03/2021, pág. 102/107 C.
Classificação por energia D.
Agrupamento de sequência 1/4
B.
Enumeração exaustiva Energia de mutantes multiponto
Agrupamento
Acetato de 2-naftila 5-tiobutil butirolactona lactona γ-nonanoica
Petição 870210028488, de 26/03/2021, pág. 103/107 VX Russa (RVX) (Ciclosarina) Fosfonatos de metil cumarina R=etila, isopropila, ciclo-hexila, pinacolila 2/4
Vezes de melhora proteína
BR112021002552-9A 2018-08-14 2019-08-14 proteína, e, método de desintoxicação de agentes organofosforados BR112021002552A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IL261157 2018-08-14
IL261157A IL261157A (en) 2018-08-14 2018-08-14 Enzymes are designed to efficiently hydrolyze a wide range of organophosphates
PCT/IL2019/050916 WO2020035865A1 (en) 2018-08-14 2019-08-14 Designed, efficient and broad-specificity organophosphate hydrolases

Publications (1)

Publication Number Publication Date
BR112021002552A2 true BR112021002552A2 (pt) 2021-05-11

Family

ID=66624844

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021002552-9A BR112021002552A2 (pt) 2018-08-14 2019-08-14 proteína, e, método de desintoxicação de agentes organofosforados

Country Status (7)

Country Link
US (1) US20210178207A1 (pt)
EP (1) EP3837360A1 (pt)
CN (1) CN113166751A (pt)
BR (1) BR112021002552A2 (pt)
CA (1) CA3109660A1 (pt)
IL (2) IL261157A (pt)
WO (1) WO2020035865A1 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220049081A1 (en) * 2020-08-12 2022-02-17 United States Of America As Represented By The Secretary Of The Army Hydrogel-enzyme systems and methods
CN112342223A (zh) * 2020-11-09 2021-02-09 上海市农业科学院 一种在大肠杆菌中表达的有机磷水解酶基因组及其应用
WO2022256087A2 (en) * 2021-04-16 2022-12-08 Ginkgo Bioworks, Inc. Organophosphorus nerve agent hydrolyzing enzymes

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005059125A1 (en) * 2003-12-16 2005-06-30 Commonwealth Scientific And Industrial Research Organisation Variants of phosphotriesterases with enhanced and/or altered substrate specificity
US8735124B2 (en) 2009-09-17 2014-05-27 Yeda Research And Development Co. Ltd. Isolated PON1 polypeptides, polynucleotides encoding same and uses thereof in treating or preventing organophosphate exposure associated damage
WO2015196106A1 (en) * 2014-06-20 2015-12-23 The Texas A&M University System Variants of phosphotriesterase for the hydrolysis and detoxification of nerve agents
WO2016092555A2 (en) 2014-12-11 2016-06-16 Yeda Research And Development Co. Ltd. Isolated phosphotriesterase polypeptides, polynucleotides encoding same and uses thereof in treating or preventing organophosphate exposure associated damage
US10468119B2 (en) 2015-07-28 2019-11-05 Yeda Research And Development Co. Ltd. Stable proteins and methods for designing same
WO2017017673A2 (en) 2015-07-28 2017-02-02 Yeda Research And Development Co. Ltd. Stable proteins and methods for designing same
EP3538651A1 (en) 2016-11-10 2019-09-18 Yeda Research and Development Co., Ltd. Phosphotriesterases for treating or preventing organophosphate exposure associated damage

Also Published As

Publication number Publication date
IL280855A (en) 2021-04-29
US20210178207A1 (en) 2021-06-17
IL261157A (en) 2020-02-27
CA3109660A1 (en) 2020-02-20
CN113166751A (zh) 2021-07-23
EP3837360A1 (en) 2021-06-23
WO2020035865A1 (en) 2020-02-20

Similar Documents

Publication Publication Date Title
Frick et al. Molecular basis for ADP-ribose binding to the Mac1 domain of SARS-CoV-2 nsp3
Ben-David et al. Catalytic versatility and backups in enzyme active sites: the case of serum paraoxonase 1
BR112021002552A2 (pt) proteína, e, método de desintoxicação de agentes organofosforados
Davis et al. Structural and biochemical characterization of the human cyclophilin family of peptidyl-prolyl isomerases
US20180121597A1 (en) Methods to Prepare and Employ Binding Site Models for Modulation of Phosphatase Activity and Selectivity Determination
Mehrabi et al. Substrate-based allosteric regulation of a homodimeric enzyme
Ni et al. Structural insights into plasticity and discovery of remdesivir metabolite GS-441524 binding in SARS-CoV-2 macrodomain
Otyepka et al. Functionally relevant motions of haloalkane dehalogenases occur in the specificity‐modulating cap domains
Zhang et al. A method to rationally increase protein stability based on the charge–charge interaction, with application to lipase LipK107
Lee et al. Large-scale conformational dynamics of the HIV-1 integrase core domain and its catalytic loop mutants
Dalal et al. Quantum mechanics/molecular mechanics studies on the catalytic mechanism of a novel esterase (FmtA) of Staphylococcus aureus
Andreeva et al. Widespread presence of" bacterial-like" PPP phosphatases in eukaryotes
Garces et al. Molecular architecture of the Mn2+-dependent lactonase UlaG reveals an RNase-like metallo-β-lactamase fold and a novel quaternary structure
Maryam et al. The molecular organization of human cGMP specific phosphodiesterase 6 (PDE6): structural implications of somatic mutations in cancer and retinitis pigmentosa
Markova et al. Decoding the intricate network of molecular interactions of a hyperstable engineered biocatalyst
Holliday et al. Structure and dynamics of GeoCyp: A thermophilic cyclophilin with a novel substrate binding mechanism that functions efficiently at low temperatures
Floor et al. X‐ray crystallographic validation of structure predictions used in computational design for protein stabilization
Yogavel et al. Structure of 6-hydroxymethyl-7, 8-dihydropterin pyrophosphokinase–dihydropteroate synthase from Plasmodium vivax sheds light on drug resistance
Shu et al. Potential inhibitors for targeting Mpro and Spike of SARS-CoV-2 based on sequence and structural pharmacology analysis
Rajpoot et al. In-silico design of a novel tridecapeptide targeting spike protein of SARS-CoV-2 variants of concern
Dechene et al. Multiple solvent crystal structures of ribonuclease A: an assessment of the method
Babkova et al. Structures of hyperstable ancestral haloalkane dehalogenases show restricted conformational dynamics
Jamir et al. Applying polypharmacology approach for drug repurposing for SARS-CoV2
Wang et al. Emerging variants of SARS-CoV-2 NSP10 highlight strong functional conservation of its binding to two non-structural proteins, NSP14 and NSP16
Schulte‐Sasse et al. Structural, thermodynamic and catalytic characterization of an ancestral triosephosphate isomerase reveal early evolutionary coupling between monomer association and function

Legal Events

Date Code Title Description
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 5A ANUIDADE.