BR112016006285B1 - Método implementado usando um sistema de computador, meio de armazenamento legível por computador, e, sistema - Google Patents

Método implementado usando um sistema de computador, meio de armazenamento legível por computador, e, sistema Download PDF

Info

Publication number
BR112016006285B1
BR112016006285B1 BR112016006285-0A BR112016006285A BR112016006285B1 BR 112016006285 B1 BR112016006285 B1 BR 112016006285B1 BR 112016006285 A BR112016006285 A BR 112016006285A BR 112016006285 B1 BR112016006285 B1 BR 112016006285B1
Authority
BR
Brazil
Prior art keywords
substrate
enzyme
variants
active site
variant
Prior art date
Application number
BR112016006285-0A
Other languages
English (en)
Other versions
BR112016006285A2 (pt
Inventor
Xiyun Zhang
Russell Javiniar Sarmiento
Donald Scott Baskerville
Gjait W. Huisman
Original Assignee
Codexis, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Codexis, Inc filed Critical Codexis, Inc
Publication of BR112016006285A2 publication Critical patent/BR112016006285A2/pt
Publication of BR112016006285B1 publication Critical patent/BR112016006285B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Ecology (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

MÉTODO IMPLEMENTADO USANDO UM SISTEMA DE COMPUTADOR, PRODUTO DE PROGRAMA DE COMPUTADOR, E, SISTEMA. São descritos métodos para identificar biomoléculas com propriedades desejadas (ou que são mais adequadas para uma rodada de evolução direcionada) de bibliotecas de biomolécula complexas ou conjuntos de tais bibliotecas. Algumas modalidades da presente descrição proveem métodos para virtualmente triar proteínas para propriedades benéficas. Algumas modalidades da presente descrição proveem métodos para virtualmente triar enzimas para atividade desejada e/ou seletividade para reações catalíticas que envolvem substratos particulares. Algumas modalidades combinam triagem e evolução direcionada para projetar e desenvolver proteínas e enzimas tendo propriedades desejadas. Sistemas e produtos de programa de computador implementando os métodos também são providos.

Description

REFERÊNCIA CRUZADA AOS PEDIDOS RELACIONADOS
[001] Este pedido reivindica benefício sob 35 U.S.C. § 119(e) para o Pedido de Patente Provisório U.S. No. No. 61/883.838, intitulado: AUTOMATED SCREENING OF ENZYME VARIANTS, depositado em 27 de setembro de 2013, que está aqui incorporado pela referência na sua íntegra para todos os propósitos.
FUNDAMENTOS
[002] Projeto de proteína tem sido há muito conhecido por ser uma difícil tarefa pelo simples motivo da explosão combinatorial de possíveis moléculas que constituem espaço de sequência pesquisável. O espaço de sequência de proteínas é imenso e é impossível explorar exaustivamente usando métodos atualmente conhecidos na técnica, que são frequentemente limitados pelo tempo e custo exigidos para identificar polipeptídeos úteis. Parte do problema surge do grande número de variantes de polipeptídeo que têm que ser sequenciadas, triadas e ensaiadas. Métodos de evolução direcionada aumentam a eficiência de focar a atenção nas biomoléculas candidatas tendo propriedades vantajosas. Atualmente, a evolução direcionada de proteínas é dominada por vários formatos de triagem e recombinação de alta produtividade, frequentemente realizadas iterativamente.
[003] Várias técnicas computacionais também têm sido propostas para explorar espaço de atividade de sequência. De uma forma geral, essas técnicas estão no seu começo e avanços significantes são ainda necessários. Dessa maneira, novos métodos para melhorar a eficiência de triagem, sequenciamento e ensaio de biomoléculas candidatas são altamente desejáveis.
SUMÁRIO
[004] A presente descrição se refere aos campos de biologia molecular, evolução molecular, bioinformática e sistemas digitais. Sistemas, incluindo sistemas digitais, e sistema software para realizar esses métodos são também providos. Métodos da presente descrição têm utilidade na otimização de proteínas para uso industrial e terapêutico. Os métodos e sistemas são especialmente úteis para projetar e desenvolver enzimas tendo atividade e seletividade desejada para reações catalíticas de substratos particulares.
[005] Certos aspectos da presente descrição se referem a métodos para virtualmente triar proteínas tendo propriedades benéficas e/ou guiar programas de evolução direcionada. A descrição apresenta métodos para identificar biomoléculas com propriedades desejadas (ou que são mais adequadas para evolução direcionada para tais propriedades) de bibliotecas de biomoléculas complexas ou conjuntos de tais bibliotecas. Algumas modalidades da presente descrição proveem métodos para virtualmente triagem enzimas para atividade e seletividade desejada para reações catalíticas em substratos particulares. Algumas modalidades combinam triagem e evolução direcionada para projetar e desenvolver proteínas e enzimas tendo propriedades desejadas. Sistemas e produtos programa de computador que implementam os métodos são também providos.
[006] Algumas modalidades da descrição proveem métodos para triar uma pluralidade de diferentes variantes de enzima quanto à atividade com um substrato. Em algumas modalidades, o método é implementado usando um sistema de computador que inclui um ou mais processadores e memória do sistema. O método inclui: (a) para cada variante de enzima, ancorar, pelo sistema de computador, uma representação computacional do substrato em uma representação computacional de um sítio ativo da variante de enzima, em que ancoragem (i) gera uma pluralidade de posturas do substrato no sítio ativo, e (ii) identificar posturas energeticamente favoráveis do substrato no sítio ativo; (b) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o substrato passar por catálise no sítio ativo; e (c) selecionar pelo menos uma das variantes de enzima determinadas por ter uma ou mais posturas ativas.
[007] Em algumas modalidades, as restrições incluem um ou mais dos seguintes: posição, distância, ângulo, e torção restrições. Em algumas modalidades, as restrições incluem uma distância entre uma fração particular no substrato e um resíduo particular ou fração de resíduo no sítio ativo. Em algumas modalidades, as restrições incluem uma distância entre uma fração particular no ligante e um ligante nativo idealmente posicionado no sítio ativo.
[008] Em algumas modalidades, a representação computacional do substrato representa uma espécie ao longo da coordenada da reação para a atividade enzimática. A espécie é selecionada do substrato, um intermediário da reação do substrato, ou um estado de transição do substrato. Em algumas modalidades, as variantes triadas são selecionadas de um painel de enzimas que pode inverter múltiplos substratos e em que os elementos do painel possuem pelo menos uma mutação relativa a uma sequência de referência. Em algumas modalidades, pelo menos uma mutação é uma mutação de um único resíduo. Em algumas modalidades, pelo menos uma mutação é no sítio ativo da enzima. Em algumas modalidades, a pluralidade de variantes inclui uma ou mais enzimas que podem catalisar uma reação química selecionada de redução de cetona, transaminação, oxidação, hidrólise de nitrila, redução de imina, redução de enona, hidrólise de acila, e dealogenação de haloidrina. Em algumas modalidades, a enzima é selecionada de cetona redutase, transaminase, citocromo P450, mono-oxigenase de Baeyer-Villiger, monoamina oxidase, nitrilase, imina redutase, enona redutase, acrilase, e haloidrina dealogenase. Entretanto, não se pretende que a presente invenção seja limitada a nenhuma enzima ou classe de enzima particular, já que qualquer enzima adequada encontra uso nos métodos da presente invenção. Em algumas modalidades, as variantes são elementos de biblioteca produzidos por uma ou mais rodadas de evolução direcionada in vitro e/ou in silico.
[009] Em algumas modalidades, o método tria pelo menos cerca de dez variantes diferentes. Em outras modalidades, o método tria pelo menos cerca de uma centena de diferentes variantes.
[0010] Em algumas modalidades, as representações computacionais de sítios ativos são providas de modelos de homologia 3-D para a pluralidade de variantes. Em algumas modalidades, métodos são providos para produzir os modelos de homologia 3-D para variantes de proteína. Em algumas modalidades, o método é aplicado para triar uma pluralidade de substratos.
[0011] Algumas modalidades proveem método para identificar as restrições para o substrato passar pela transformação química catalisada identificando uma ou mais posturas de um substrato nativo, um intermediário da reação do substrato nativo, ou um estado de transição do substrato nativo quando o substrato nativo passa pela transformação química catalisada por uma enzima tipo selvagem.
[0012] Algumas modalidades proveem método para aplicar um conjunto de uma ou mais restrições de enzima na pluralidade de variantes de enzima, em que o um ou mais enzima restrições são similares às restrições de uma enzima tipo selvagem quando um substrato nativo passa por uma transformação química catalisada na presença da enzima tipo selvagem.
[0013] Em algumas modalidades, a pluralidade de posturas do substrato é obtida por operações de ancoragem incluindo um ou mais dos seguintes: dinâmica molecular de alta temperatura, rotação aleatória, refinamento por anelamento simulada com base em grelha, e uma minimização de campo de força com base em grelha final ou total. Em algumas modalidades, a pluralidade de posturas do ligante compreende pelo menos cerca de 10 posturas do substrato no sítio ativo.
[0014] Em algumas modalidades, a seleção de variantes em (c) acima envolve identificar variantes determinadas a ter grande número de posturas ativas pela comparação com outras variantes. Em algumas modalidades, a seleção em (c) envolve classificar as variantes por um ou mais dos seguintes: o número de posturas ativas que as variantes têm, pontuações do ancoragem das posturas ativas e energias de ligação das posturas ativas. Então variantes são selecionadas com base em classificação. Em algumas modalidades, as pontuações do ancoragem são com base em força de van der Waals e interação eletrostática. Em algumas modalidades, as energias de ligação são com base em um ou mais dos seguintes: força de van der Waals, interação eletrostática, e energia de solvatação.
[0015] Em algumas modalidades, o método de triagem também envolve preparar uma pluralidade de oligonucleotídeos contendo ou codificando pelo menos uma porção de pelo menos uma variante selecionada. O método envolve adicionalmente realizar uma ou mais rodadas de evolução direcionada usando a pluralidade de oligonucleotídeos. Em algumas modalidades, preparar uma pluralidade de oligonucleotídeos envolve sintetizar os oligonucleotídeos usando um sintetizador de ácido nucléico. Em algumas modalidades, realizar um ou mais rodadas de evolução direcionada compreende fragmentar e recombinar a pluralidade de oligonucleotídeos. Em algumas modalidades, realizar um ou mais rodadas de evolução direcionada envolve realizar mutagênese por saturação na pluralidade de oligonucleotídeos.
[0016] Em algumas modalidades, a variante de enzima triada tem atividade catalítica e/ou seletividade desejada. O método de algumas modalidades também envolve sintetizar a enzima selecionada a partir da triagem.
[0017] Em algumas modalidades, a triagem método pode ser expandida para triar biomoléculas sem ser enzimas. Algumas modalidades proveem um método para triagem de uma pluralidade de variantes de proteína para interação com um ligante. O método envolve: (a) ancorar, para cada variante de proteína, pelo sistema de computador, uma representação computacional do ligante em uma representação computacional de um sítio ativo da variante de enzima, em que ancoragem (i) gera uma pluralidade de posturas do ligante no sítio ativo, e (ii) identifica posturas energeticamente favoráveis do ligante no sítio ativo; (b) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o ligante passar por uma interação particular com variante de proteína; e (c) selecionar pelo menos uma das variantes de proteína determinadas por ter uma ou mais posturas ativas. Em algumas modalidades, o ligante pode ser selecionado de um substrato, um intermediário, um estado de transição, um produto, um inibidor, um agonista, e/ou um antagonista.
[0018] Em algumas modalidades, produtos programa de computador e sistemas de computador que implementam os métodos para triagem enzimas e proteínas são também providos.
[0019] Esses e outros recursos são apresentados a seguir com referência aos desenhos associados.
BREVE DESCRIÇÃO DOS DESENHOS
[0020] Figura 1 ilustra restrições geométricas para identificar posturas ativas para uma reação catalítica de seletividade pro-R, a reação envolvendo uma enzima cetona redutase com uma fração de tirosina, um substrato de acetofenona e o cofator NADPH.
[0021] Figura 2 é um fluxograma apresentando um fluxo de trabalho para analisar atividade potencial de biomoléculas candidatas em algumas implementações.
[0022] Figura 3A é um fluxograma mostrando um exemplo de um fluxo de trabalho para projetar sequências de biomolécula de acordo com algumas modalidades da descrição.
[0023] Figura 3B é um fluxograma mostrando um exemplo de um fluxo de trabalho para projetar sequências de biomolécula, que envolve sintetizar e ensaiar sequências obtidas de triagem virtual.
[0024] Figura 3C é um fluxograma mostrando um exemplo de um fluxo de trabalho para projetar sequências de biomolécula, que combina evolução direcionada in vitro e triagem virtual em cada rodada de múltiplas iterações.
[0025] Figura 4 mostra um dispositivo digital exemplar que pode ser implementado de acordo com algumas modalidades da descrição atual.
[0026] Figura 5 provê um gráfico de dados mostrando a energia de ligação e seletividade de 10 melhores variantes de uma segunda rodada de evolução direcionada e as espinhas dorsais para rodada 1 (Rd1BB) e rodada 2 (Rd2BB).
[0027] Figura 6A mostra ajustes do modelo de um modelo de atividade de sequência construído usando dados de um sistema de triagem de proteína virtual de acordo com algumas modalidades.
[0028] Figura 6B mostra dados de validação cruzada indicando que o modelo de atividade de sequência construído na figura 6A foi preciso na previsão da energia de ligação.
[0029] Figura 6C mostra os coeficientes para várias mutações de acordo com o modelo de atividade de sequência construído na figura 6A.
[0030] Figura 7 mostra quantidades indicando conversão no eixo X e seletividade no eixo Y das variantes de cetorredutase virtualmente triadas para produção enantiosseletiva de (R)-1,1,1-trifluropropan-2-ol de 1,1,1- trifluropropan-2-ona.
[0031] Figura 8 mostra quantidades indicando conversão e acertos (variantes com certo nível de melhoria) de evolução virtual direcionada de P450 para oxidação de CH regiosseletiva em C-OH.
DESCRIÇÃO DETALHADA
[0032] Triagem de proteínas e enzimas pode ser feita de maneiras reais que envolvem medições das propriedades químicas e físicas de proteína e moléculas de enzima que interagem com ligantes e substratos. Medições reais consomem tempo e recursos, e os mecanismos físicos e químicos fundamentais são frequentemente difíceis de visualizar ou manipular. Os métodos e sistemas de triagem “virtual” descritos aqui proveem ferramentas para visualizar ou manipular a estrutura e dinâmica de enzimas, proteínas, e seus substratos e ligantes. Essas ferramentas podem economizar tempo e/ou materiais pelo estudo das moléculas.
[0033] Em algumas modalidades, triagem virtual de proteínas ou enzimas é usada em evolução direcionada de proteínas de interesse. Triagem virtual é usada no lugar de triagem física durante vários estágios dessas modalidades direcionadas para evolução, tornando possível estudar um grande número de moléculas e reações sem exigir os materiais químicos ou o tempo exigido por triagem real. Essas modalidades podem acelerar os processos para obter proteínas e enzimas tendo propriedades desejadas. Materiais e recursos podem também ser economizados nos processos. Algumas modalidades são especialmente úteis para projetar e desenvolver enzimas tendo atividade e/ou seletividade desejada para reações catalíticas envolvendo substratos particulares.
I. DEFINIÇÕES
[0034] A menos que definido aqui de outra maneira, todos os termos técnicos e científicos usados aqui têm o mesmo significado normalmente usado pelos versados na técnica. Vários dicionários científicos que incluem termos incluídos aqui são bem conhecidos e disponíveis pelos versados na técnica. Quaisquer métodos e materiais similares ou equivalentes aos aqui descritos encontram uso na prática das modalidades descritas aqui.
[0035] Os termos definidos imediatamente a seguir são mais completamente entendidos pela referência à especificação como um todo. As definições são apenas com o propósito de descrever modalidades particulares e auxiliar no entendimento dos conceitos complexos descritos nesta especificação. Eles não visam limitar o escopo total da descrição. Especificamente, deve-se entender que esta descrição não está limitada às sequências, composições, algoritmos, sistemas, metodologia, protocolos e reagentes particulares descritos, já que esses podem variar, dependendo do contexto que eles são usados pelos versados na técnica.
[0036] Da forma usada nesta especificação e reivindicações anexas, as formas singulares “um”, “uma”, e “o”, “a” incluem referentes no plural, a menos que o conteúdo e contexto ditem claramente de outra forma. Assim, por exemplo, referência a “um dispositivo” inclui uma combinação de dois ou mais tais dispositivos, e similares. A menos que indicado de outra forma, uma conjunção “ou” deve ser usada no seu sentido correto como um operador lógico Booleano, englobando tanto a seleção de recursos na alternativa (A ou B, onda seleção da é mutuamente exclusiva de B) e a seleção de recursos na conjunção (A ou B, onde tanto A quanto b são selecionados).
[0037] “Ancoragem”, da maneira aqui usada, se refere ao processo computacional para simular e/ou caracterizar a ligação de uma representação computacional de uma molécula (por exemplo, um substrato ou ligante) to uma representação computacional de um sítio ativo de uma biomolécula (por exemplo, uma enzima ou proteína). Ancoragem é tipicamente implementada em um sistema de computador usando um programa de computador “ancorador”. Tipicamente, o resultado de um processo de ancoragem é uma representação computacional da molécula “ancorada” no sítio ativo em uma “postura” específica. Uma pluralidade de processos de ancoragem pode ser realizada entre a mesma representação computacional de uma molécula e a mesma representação computacional de um sítio ativo resultando em uma pluralidade de diferentes “posturas” da molécula no sítio ativo. A avaliação da estrutura, conformação e energia da pluralidade de diferentes “posturas” na representação computacional do sítio ativo pode identificar certas “posturas” como mais energeticamente favoráveis para ligação entre o ligante e a biomolécula.
[0038] Em algumas modalidades, posturas geradas a partir do ancoragem são avaliadas para determinar se elas são “ativas” para uma interação desejada com a biomolécula. “Posturas ativas” são aquelas que atendem um ou mais restrições para uma atividade em consideração. Uma “restrição” pode limitar uma estrutura, geometria, conformação, energia da postura, etc. Em certas modalidades, uma “postura ativa” de uma representação computacional de um substrato no sítio ativo de uma enzima satisfaz condições para catálise pela enzima. Quando o ancoragem identifica inúmeras posturas ativas de uma representação computacional de um substrato na representação computacional do sítio ativo, a enzima específica representada pode ser selecionada como favorável para catalisar a transformação química do substrato no produto.
[0039] Um “ancorador” é um programa de computador que computacionalmente simula e/ou caracteriza o processo de ancoragem entre uma representação computacional de uma molécula (por exemplo, um substrato ou ligante) e um representação computacional de um sítio ativo de interesse em uma proteína ou outra molécula biológica. .
[0040] Ancoradores são tipicamente implementadas como software que pode ser temporariamente ou permanentemente armazenado em associação com hardware tal como um processador ou processadores. Programas de ancoragem comercialmente disponíveis incluem CDocker (Accelrys), DOCK (University de Califórnia, San Francisco), AutoDock (Scripps Research Institute), FlexX (tripos.com), GOLD (ccdc.cam.ac.uk), e GLIDE (schrodinger.com).
[0041] Ancoragem usando um ancorador tipicamente gera “posturas” de representações computacionais de substratos e ligantes com relação aos sítios ativos. Essas posturas podem ser usadas na geração de uma pontuação do ancoragem ou senão para avaliar o ancoragem. Em algumas modalidades, posturas são associadas com valores de energia de interação calculada por um ancorador. Algumas posturas são energeticamente mais favoráveis que outras posturas. Em algumas modalidades, o ancorador permite que um usuário especifique diversas posturas (n) para usar na avaliação do ancoragem. Somente as n posturas superiores com as melhores pontuações de ancoragem são consideradas na avaliação do ancoragem. Em algumas modalidades, somente posturas com energia de interação favorável que atende critérios definidos são selecionadas para ser classificadas como posturas ativas ou inativas.
[0042] Em algumas modalidades, um ancorador pode determinar que um substrato ou ligante provavelmente se ligará com uma biomolécula se uma ou mais posturas do substrato ou ligante tiverem energia de interação favorável com a biomolécula. Um ligante ligado pode agir como um agonista ou antagonista. Várias ancoradores produzem uma pontuação de ancoragem ou outra medida de ligação entre o substrato ou ligante e a biomolécula. Para algumas combinações de sítio ativo de biomolécula com um substrato ou ligante, o programa de ancoragem determinará que a ligação é improvável de ocorrer. Em tais casos, o programa de ancoragem produzirá uma conclusão que o substrato ou ligante não se liga na biomolécula.
[0043] Um ancorador pode ser programado para produzir uma avaliação da probabilidade de que um ligante ancorará com o sítio ativo de biomolécula ou a qualidade de tal ancoragem, caso isto ocorra. A verossimilhança e qualidade de ancoragem indicam a verossimilhança de que um ligante se ligará com uma biomolécula. Em um nível, um ancorador determina se um ligante provavelmente se ligará a um sítio ativo da biomolécula. Se a lógica do ancorador concluir que a ligação não é provável ou é altamente desfavorável, ela pode produzir um resultado “nenhuma postura refinada encontrada. Isto pode ocorrer quando todas as conformações do programa de ancoragem geradas tiverem discordâncias de van der Waals e/ou repulsões eletrostáticas desfavoráveis com o sítio ativo. No exemplo acima de um procedimento de ancoragem, se a segunda operação não conseguir encontrar uma postura com energia macia menor que o limite, o ancorador pode retornar um resultado tal como “não encontradas posturas refinadas.” Em virtude de a energia macia basicamente considerar interações não ligadas incluindo forças de van der Waals e eletrostáticas, o resultado “nenhuma postura refinada encontrada significa que o ligante tem discordâncias etéricas e/ou repulsões eletrostáticas severas com o receptor da biomolécula para um dado número de posturas.
[0044] Em certas modalidades, o ancorador produz uma pontuação do ancoragem que representa a interação entre o ligante no sítio ativo da biomolécula. Ancoradores podem calcular vários recursos da interação ligante-biomolécula. Em um exemplo, a saída é simplesmente a energia de interação entre o ligante e a biomolécula. Em uma outra modalidade, uma energia total é produzida. A energia total pode ser entendida como uma combinação de energia de interação ligante-biomolécula e cepa do ligante. Em certas implementações, tal energia pode ser calculada usando um campo de força tal como CHARMm.
[0045] Em várias modalidades, programas de ancoragem geram tais saídas considerando múltiplas posturas do ligante no sítio ativo da biomolécula. Cada postura terá seus próprios valores de energia associadas. Em algumas modalidades, o programa de ancoragem classifica as posturas e considera a energia associada com uma ou mais das posturas de alta classificação. Em alguns casos, ele pode calcular a média das energias de certas posturas de alta classificação ou senão realizar uma análise estatística das posturas de classificação superior. Em outras modalidades, ele simplesmente escolhe o valor assistido com a postura de classificação superior e produz isto como a energia resultante para o ancoragem.
[0046] Em algumas modalidades, a representação computacional de um substrato corresponde a uma espécie molecular ao longo da coordenada da reação de uma reação enzimática que é capaz de converter o substrato molécula no produto molécula desejado. Em algumas modalidades, a representação computacional do substrato representa o substrato molécula per se. Em algumas modalidades, a representação computacional do substrato representa uma estrutura intermediária do substrato que se forma ao longo da coordenada da reação (isto é, um “intermediário da reação do substrato”). Em algumas modalidades, a representação computacional do substrato representa uma estrutura do estado de transição que se forma ao longo da coordenada enzimática da reação (isto é, um “estado de transição do substrato”).
[0047] Em algumas modalidades, uma representação computacional de um ligante pode representar uma espécie molecular que se liga fortemente a uma enzima ou biomolécula, mas não vai ao longo de uma coordenada da reação até um produto desejado. Por exemplo, a representação computacional do ligante pode representar um forte inibidor a fim de triar inibidores de uma enzima, ou antagonistas ou agonistas de ligação forte de proteínas (por exemplo, receptores).
[0048] Uma “postura” é a posição ou orientação de um substrato ou ligante com relação a um sítio ativo de uma molécula biológica. Em uma postura, as posições tridimensionais de alguns ou todos os átomos do ligante são especificadas com relação a algumas ou todas as posições de átomos no sítio ativo. Embora uma conformação do ligante não seja sua postura - em virtude de a conformação não considerar o sítio ativo - a conformação pode ser usada na determinação de uma postura. Em algumas modalidades, uma orientação e conformação do ligante juntas definem uma postura. Em algumas modalidades, uma postura somente existe se uma combinação de orientação/conformação do ligante atender um nível de energia limiar definida no sítio ativo de referência.
[0049] Vários mecanismos computacionais podem ser empregados para gerar posturas para ancoragem. Exemplos incluem buscas torsionais sistemáticas ou estocásticas a respeito de ligações rotacionáveis, Simulações da Dinâmica Molecular, e algoritmos genéticos para “derivar” novas conformações de baixa energia. Essas técnicas são usadas para modificar representações computacionais do ligante e/ou sítio ativo para explorar “espaço de postura”.
[0050] Ancoradores avaliam posturas para determinar como o ligante interage com o sítio ativo. Em algumas modalidades, eles fazem isto calculando a energia de interação com base em um ou mais dos tipos de interação supramencionados (por exemplo, forças de van der Waals). Esta informação é usada para caracterizar ancoragem e, em alguns casos, produzir uma pontuação do ancoragem. Em algumas implementações, ancoradores classificam posturas com base em pontuações do ancoragem. Em algumas implementações, ancoradores removem posturas com pontuações desfavoráveis das ancoragens de consideração.
[0051] Em certas modalidades, um sistema de triagem de proteína virtual avalia uma postura para determinar se a postura é ativa. Uma postura é considerada ativa se ela atender restrições definidas conhecidas como importantes para a atividade desejada em consideração. Como um exemplo, o sistema de triagem de proteína virtual pode determinar se uma postura suporta transformação catalítica do ligante em um sítio ativo.
[0052] Um “ligante” é uma molécula ou complexo que interage com um sítio ativo de uma biomolécula para formar um complexo estável contendo pelo menos o ligante e a biomolécula. Além do ligante e da biomolécula, o complexo estável pode incluir (algumas vezes exigir) outras entidades químicas tais como cofatores orgânicos e inorgânicos (por exemplo, coenzimas e grupos prostéticos), íons metálicos e similares. Ligantes podem ser agonistas ou antagonistas.
[0053] O “sítio ativo” de uma biomolécula é um sítio definido pela estrutura da biomolécula que é capaz de conter e/ou se ligar a toda ou parte de uma molécula (por exemplo, um substrato ou ligante). Muitos tipos de sítios ativos são contemplados e alguns desses são descritos em algum lugar aqui. Frequentemente o sítio ativo contém recursos químicos e/ou físicos (por exemplo, resíduos de aminoácido) capazes de formar interações de ligação com o substrato ou ligante. Em algumas modalidades (por exemplo, quando a biomolécula é uma enzima), o “sítio ativo” inclui pelo menos um resíduo catalítico e uma pluralidade de resíduos de ligação, e algumas vezes outras entidades químicas tais como cofatores orgânicos e inorgânicos (por exemplo, coenzimas e grupos prostéticos), íons metálicos e similares. Pelo menos um resíduo catalítico do sítio ativo pode conter uma fração catalítica que catalisa a inversão de um substrato. Os resíduos da ligação do sítio ativo proveem interações de ligação com o substrato para mantê-lo no sítio ativo de uma maneira estereosseletiva e/ou regiosseletiva. Tais interações podem incluir interações de van der Waals, interações eletrostáticas, ligação de hidrogênio, interações hidrofílicas, interações hidrofóbicas, interações de solvente, ligação covalente, etc.
[0054] Em algumas modalidades, uma representação computacional de um sítio ativo pode ser usada para ancoragem de uma representação computacional de um substrato ou ligante, por meio disto gerando posturas que podem ser avaliadas para interação favorável com o sítio ativo (por exemplo, determinação da energia de ligação para posturas).
[0055] Em algumas modalidades, a representação computacional do sítio ativo é definida geometricamente por uma esfera ou outra forma. Em algumas modalidades, o sítio ativo é definido criando uma esfera em torno do centróide de objetos selecionados (por exemplo, ligantes e/ou outras entidades químicas no molde da estrutura) com o raio ajustado para incluí-los. O mínimo raio é 5Â, mas o sítio ativo tamanho pode ser expandido aumentando o raio da esfera em 1Â, 2Â, 3Â, 4Â, 6Â, 8Â, 10 Â, e assim por diante. Em algumas implementações, o tamanho do raio é selecionado para capturar resíduos próximos ao substrato. Portanto, maiores substratos serão associados com maiores raios e pequenos substratos serão associados com menores raios. Não se pretende que a presente descrição seja limitada a nenhum valor particular de raios. Em algumas modalidades, o sítio ativo pode ser definido a partir das cavidades do receptor, onde o sítio ativo foi derivado de uma das cavidades detectadas no molde da estrutura. Em algumas modalidades, o sítio ativo pode ser definido a partir dos registros do endereço de rede do Protein Data Bank (PDB), já que arquivo PDB do molde da estrutura frequentemente tem sítio ativo definido usando registros de endereço de rede. Uma vez que todos os modelos de homologia serão criados usando o molde da estrutura, o sítio ativo definida é transferível para todos os modelos de homologia.
[0056] Em algumas modalidades, a representação computacional do sítio ativo pode ser definida por várias formas tridimensionais, tal como uma forma customizável pelo usuário (por exemplo, uma elipse ou uma forma irregular refletindo a estrutura do substrato) com referência às frações no substrato e/ou na enzima.
[0057] Em algumas modalidades, a representação computacional do sítio ativo pode ser definida de forma a incluir aminoácidos que não interagem diretamente (por exemplo, por meio de interações de van der Waals, interações eletrostáticas, ligação de hidrogênio) com o substrato ou molécula do ligante no sítio ativo, mas que interagem com outros aminoácidos na representação computacional do sítio ativo, e por meio disto afetam a avaliação de posturas do substrato ou ligante.
[0058] Em algumas modalidades, resíduos que contribuem para catálise e/ou ligação podem existir fora da representação computacional do sítio ativo como anteriormente definido. Tais resíduos podem ser modificados durante evolução direcionada considerando resíduos além do sítio ativo como candidatos para mutação ou recombinação.
[0059] Um “intermediário da reação” é uma entidade química gerada do substrato na transformação do substrato em produto da reação. Um “estado de transição” de um substrato é o substrato em um estado correspondente à mais alta energia potencial ao longo de um caminho da reação. Em um estado de transição que tem que ter uma existência passageira, moléculas de reagente em colisão agem para formar produtos. Nesta descrição, algumas vezes quando um substrato é descrito em um processo, o intermediário e estado de transição podem também ser adequados para o processo. Em tais situações, o substrato, intermediário, e estado de transição podem coletivamente ser referidos como “ligantes”. Em alguns casos, múltiplos intermediários são gerados na transformação catalítica de um substrato. Em certas modalidades, as espécies de ligante (substrato ou intermediário ou estado de transição) escolhidas para análise é uma conhecida por ser associada com uma etapa limitante da taxa na transformação catalítica. Como um exemplo, um substrato covalentemente ligado a um cofator de enzima pode ser quimicamente modificado em uma etapa limitante da taxa. Em tal caso, a espécie substrato-cofator é usada no modelamento da interação.
[0060] Um “ligante” é uma molécula capaz de se ligar a uma biomolécula e pode incluir moléculas do “substrato” que são capazes de se ligarem e adicionalmente passar por uma transformação química catalítica. Alguns ligantes se ligam com um sítio ativo, mas não passam por uma transformação catalítica. Exemplos incluem ligantes avaliados no campo de projeto de medicamento. Tais ligantes podem ser pequenas moléculas escolhidas pela sua capacidade se ligarem não covalentemente com uma biomolécula alvo com propósitos farmacológicos. Em alguns casos, um ligante é avaliado pela sua capacidade de potencializar, ativar ou inibir o comportamento natural de uma biomolécula.
[0061] Uma “biomolécula” ou “molécula biológica” se refere a uma molécula que é geralmente encontrada em ou produzida por um organismo biológico. Em algumas modalidades, moléculas biológicas compreendem macromoléculas biológicas poliméricas tendo múltiplas subunidades (isto é, “biopolímeros”). Biomoléculas típicas incluem proteínas, enzimas, e outro polipeptídeos, DNA, RNA e outro polinucleotídeos, e podem também incluir moléculas que compartilham alguns recursos estruturais com polímeros de ocorrência natural tais como RNAs (formados de subunidades de nucleotídeo), DNAs (formados de subunidades de nucleotídeo), e peptídeos ou polipeptídeos (formados de subunidades de aminoácido), incluindo, por exemplo, análogos de RNA, análogos de DNA, análogos de polipeptídeo, ácidos nucleicos de peptídeo (PNAs), combinações de RNA e DNA (por exemplo, quimeraplastos), ou similares. Não se pretende que biomoléculas sejam limitadas a nenhuma molécula particular, já que qualquer molécula biológica adequada encontra uso na presente descrição, incluindo, mas não se limitando, por exemplo, a lipídeos, carboidratos, ou outras moléculas orgânicas que são produzidas por uma ou mais moléculas geneticamente codificáveis (por exemplo, uma ou mais enzimas ou caminhos de enzima) ou similares. De particular interesse para alguns aspectos desta descrição são biomoléculas tendo sítios ativos que interagem com um ligante para realizar uma transformação química ou biológica, por exemplo, catálise de um substrato, ativação de biomoléculas, ou inativação das biomoléculas, especificamente enzimas.
[0062] Em algumas modalidades, uma “propriedade benéfica” ou “atividade” é um aumento ou diminuição em um ou mais dos seguintes: taxa catalítica (kcat), afinidade de ligação do substrato (KM), eficiência catalítica (kcat/KM), especificidade do substrato, quimiosseletividade, regiosseletividade, estereosseletividade, estereoespecificidade, especificidade do ligante, agonismo do receptor, antagonismo do receptor, conversão de um cofator, estabilidade de oxigênio, nível de expressão de proteína, solubilidade, termoatividade, termoestabilidade, atividade de pH, estabilidade de pH (por exemplo, a pH alcalino ou acídico), inibição de glicose, e/ou resistência a inibidores (por exemplo, ácido acético, lectinas, ácidos tânicos, e compostos fenólicos) e proteases. Outras atividades desejadas podem incluir um perfil alterado em resposta a um estímulo particular (por exemplo, perfis de temperatura e/ou pH alterados). No contexto de projeto de ligante racional, otimização de inibição covalente alvejada (TCI) é um tipo de atividade. Em algumas modalidades, duas ou mais variantes triadas como descritas aqui agem no mesmo substrato, mas diferem com relação a uma ou mais das atividades seguintes: taxa de formação de produto, porcentagem de conversão de um substrato em um produto, seletividade, e/ou porcentagem de conversão de um cofator. Não se pretende que a presente descrição seja limitada a nenhuma propriedade benéfica e/ou atividade desejada particular.
[0063] Em algumas modalidades, “atividade” é usada para descrever um conceito mais limitado de uma capacidade de a enzima catalisar a inversão de um substrato em um produto. Uma característica da enzima relacionada é sua “seletividade” para um produto particular tal como um enantiômero ou produto regiosseletivo. A definição geral de “atividade” apresentada aqui inclui seletividade, embora convencionalmente seletividade seja algumas vezes vista como distinta de atividade enzimática.
[0064] Os termos “proteína,” “polipeptídeo” e “peptídeo” são usados indiferentemente para denotar um polímero de pelo menos dois aminoácidos covalentemente ligados por uma ligação de amida, independentemente do comprimento ou modificação pós-translacional (por exemplo, glicosilação, fosforilação, lipidação, miristilação, ubiquitinação, etc.). Em alguns casos, o polímero tem pelo menos cerca de 30 resíduos de aminoácido, e normalmente pelo menos cerca de 50 resíduos de aminoácido. Mais tipicamente, eles contêm pelo menos cerca de 100 resíduos de aminoácido. Os termos incluem composições convencionalmente consideradas ser fragmentos de proteínas ou peptídeos de comprimento total. Incluídos nesta definição estão D- e L- aminoácidos, e mistura de D- e L-aminoácidos. Os polipeptídeos descritos aqui não estão restritos a aminoácidos geneticamente codificados. Certamente, além dos aminoácidos geneticamente codificados, os polipeptídeos descritos aqui podem ser constituídos, tanto no todo quanto em parte, de aminoácidos de ocorrência natural ou não codificados sintéticos. Em algumas modalidades, um polipeptídeo é uma porção do polipeptídeo ancestral ou parental de comprimento total, contendo adições ou deleções de aminoácido (por exemplo, lacunas) e/ou substituições, comparado com a sequência de aminoácido do polipeptídeo parental de comprimento total, embora ainda retendo atividade funcional (por exemplo, atividade catalítica).
[0065] Uma biomolécula ou organismo “tipo-selvagem” ou “tipo selvagem” (WT) é uma que tem o fenotipo da forma típica de uma espécie como ela ocorre na natureza. Algumas vezes, uma biomolécula tipo selvagem é isolada de uma fonte de ocorrência natural. Outras vezes, ela é derivada no ambiente de laboratório. Normalmente, biomoléculas tipo selvagem são relacionadas ou codificadas por sequências genéticas de genomas normais ou de referência, ao contrário de genomas mutantes. Incluídos na definição de “biomoléculas tipo selvagem” estão formas recombinantes de um polipeptídeo ou polinucleotídeo tendo uma sequência idêntica à forma nativa. Um substrato ou ligante que reage com uma biomolécula tipo selvagem é algumas vezes considerado um substrato ou ligante “nativo”.
[0066] Da maneira aqui usada, os termos “variante,” “mutante”, “sequência mutante”, e “sequência variante” se referem a uma sequência biológica que difere em alguns aspectos uma sequência padrão ou de referência (por exemplo, em algumas modalidades, uma sequência parental). A diferença pode ser referida como uma “mutação”. Em algumas modalidades, um mutante é uma sequência de polipeptídeo ou polinucleotídeo que foi alterada por pelo menos uma substituição, inserção, cruzamento, deleção e/ou outra operação genética. Com propósitos da presente descrição, mutantes e variantes não são limitados a um método particular pelo qual eles são gerados. Em algumas modalidades, um mutante ou sequência variante tem atividades ou propriedades aumentadas, diminuídas, ou substancialmente similares, em comparação com a sequência parental. Em algumas modalidades, o polipeptídeo variante compreende um ou mais resíduos de aminoácido que foram mutados, comparado com a sequência de aminoácido do polipeptídeo tipo selvagem (por exemplo, um polipeptídeo pai). Em algumas modalidades, um ou mais resíduos de aminoácido do polipeptídeo são mantidos constantes, são invariantes, ou não são mutados comparado com um polipeptídeo pai nos polipeptídeos variantes que constituem uma pluralidade de polipeptídeos. Em algumas modalidades, o polipeptídeo pai é usado como a base para gerar variantes com estabilidade, atividade, ou qualquer outra propriedade desejada melhorada.
[0067] Da maneira aqui usada, os termos “variante de enzima” e “enzima variante” são usados em referência às enzimas que são similares a uma enzima de referência, particularmente em sua função, mas têm mutações em sua sequência de aminoácido que as tornam diferentes em sequência da enzima tipo selvagem ou uma outra enzima de referência. Variantes de enzimas podem ser produzidas por uma ampla variedade de diferentes técnicas de mutagênese bem conhecidas pelos versados na técnica. Além do mais, kits de mutagênese são também disponíveis por muitos provêdores de biologia molecular comerciais. Métodos são disponíveis para fazer substituições específicas em aminoácidos definidos (direcionado para o sítio), mutações específicas ou aleatórias em uma região localizada do gene (regio- específica) ou mutagênese aleatória por todo o gene (por exemplo, mutagênese por saturação). Inúmeros métodos adequados são conhecidos pelos versados na técnica para gerar variantes de enzima, incluindo, mas não se limitando a mutagênese direcionada para o sítio de DNA de fita simples ou DNA de fita dupla usando PCR, mutagênese de cassete, síntese genética, PCR propensa a erro, embaralhamento, e mutagênese química por saturação, ou qualquer outro método adequado conhecido na técnica. Depois que as variantes são produzidas, elas podem ser triadas quanto à propriedade desejada (por exemplo, atividade alta ou aumentada, ou baixa ou reduzida, estabilidade térmica e/ou alcalina aumentada, etc.).
[0068] Um “painel de enzimas” é um grupo de enzimas selecionado de maneira tal que cada elemento do painel catalisa a mesma reação química. Em algumas modalidades, os elementos do painel podem coletivamente inverter múltiplos substratos, cada passando pela mesma reação. Frequentemente, os elementos do painel são escolhidos para inverter eficientemente múltiplos substratos. Em alguns casos, os painéis são comercialmente disponíveis. Em outros casos, eles são proprietários de uma entidade. Por exemplo, um painel pode incluir várias enzimas identificadas como acertos em um procedimento de triagem. Em certas modalidades, um ou mais elementos de um painel existem somente como uma representação computacional. Em outras palavras, a enzima é uma enzima virtual.
[0069] Um “modelo” é uma representação da estrutura de uma biomolécula ou ligante. Ele é algumas vezes provido como uma coleção de posições tridimensionais para os átomos ou frações da entidade que está sendo representada. Modelos frequentemente contêm representações produzidas computacionalmente dos sítios ativos ou outros aspectos das variantes de enzima. Exemplos de modelos relevantes para as modalidades aqui são produzidos a partir de modelamento de homologia, encadeamento de proteína, ou modelamento de proteína ab initio usando uma rotina tal como Rosetta (rosettacommons.org/software/) ou simulações da Dinâmica Molecular.
[0070] Um “modelo de homologia” é um modelo tridimensional de uma proteína ou porção de uma proteína contendo pelo menos o sítio ativo de um ligante em consideração. Modelamento de homologia se baseia na observação de que as estruturas de proteína tendem a ser conservadas entre proteínas homólogas. Um modelo de homologia provê posições tridimensionais de resíduos incluindo espinha dorsal e cadeias laterais. O modelo é gerado a partir de um molde da estrutura de uma proteína homóloga provavelmente para se parecer com a estrutura da sequência modelada. Em algumas modalidades, um molde da estrutura é usado em duas etapas: “alinhar a sequência com os moldes” e “construir modelos de homologia”.
[0071] A etapa de “alinhar a sequência com os moldes” alinha a sequência do modelo com uma ou mais sequências do molde da estrutura e prepara um alinhamento de sequência de entrada para construir o modelo de homologia. O alinhamento identifica lacunas e outras regiões de dissimilaridade entre a sequência do modelo e a(s) sequência(s) do molde da estrutura.
[0072] A etapa de “construir modelos de homologia” usa recursos estruturais do molde da estrutura para derivar restrições espaciais que, por sua vez, são usadas para gerar, por exemplo, estruturas de proteína de modelo usando gradiente conjugado e procedimentos de otimização de anelamento simulado. Os recursos estruturais do molde podem ser obtidos de uma técnica tal como NMR ou cristalografia de raios-X. Exemplos de tais técnicas podem ser encontrados no artigo de revisão, “A Guide to Template Based Struture Prediction,” por Qu X, Swanson R, Day R, Tsai J. Curr Proteín Pept Sci. 2009 Jun;10(3):270-85.
[0073] O termo “conformação ativa” é usado em referência a uma conformação de uma proteína (por exemplo, uma enzima) que permite que a proteína faça com que um substrato passe por uma transformação química (por exemplo, uma reação catalítica).
[0074] Uma “postura ativa” é uma na qual um ligante provavelmente passa por uma transformação catalítica ou desempenha algum papel desejado tal como ligar covalentemente com o sítio de ligação.
[0075] Os termos “oxirredução”, “oxidação-redução” e “redox” são usados indiferentemente com referência a uma reação química reversível na qual uma reação é uma oxidação e o reverso é uma redução. Os termos são também usados para se referir a todas reações químicas nas quais átomos têm seu estado de oxidação alterado; em geral, reações redox envolvem a transferência de elétrons entre espécies. Isto pode ser tanto um processo de redox simples, tal como a oxidação de carbono para produzir dióxido de carbono (CO2), quanto a redução de carbono por hidrogênio para produzir metano (CH4), ou um processo complexo tal como a oxidação de glicose (C6H12O6) no corpo humano através de uma série de processos de transferência de elétrons complexos.
[0076] Uma “oxi-redutase” é uma enzima que catalisa uma reação de oxirredução.
[0077] O termo “transferação” é usado aqui para se referir a uma reação química que transfere um grupo funcional de um composto para um outro composto. Uma “transferase” é usada para se referir a qualquer de várias enzimas que catalisam uma reação de transferação.
[0078] O termo “hidrólise” é usado para se referem a uma reação química na qual água reage com um composto para produzir outros compostos, cuja reação envolve a divisão de uma ligação química pela adição do cátion de hidrogênio e o ânion hidróxido para formar a água.
[0079] Uma “hidrolase” é uma enzima que catalisa uma reação de hidrólise.
[0080] O termo “isomerização” é usado para se referir a uma reação química que converte um composto em um isômero.
[0081] Uma “isomerase” é uma enzima que catalisa uma reação de isomerização, fazendo com que seu substrato mude para uma forma isomérica.
[0082] O termo “ligação” é usado aqui para se referir a qualquer reação química que une duas moléculas formando uma nova ligação química. Em algumas modalidades, uma reação de ligação envolve hidrólise de um pequeno grupo químico dependendo de uma das moléculas maiores. Em algumas modalidades, uma enzima catalisa a ligação junto de dois compostos, por exemplo, enzimas que catalisam a união C-O, C-S, C-N, etc. Uma enzima que catalisa uma reação de ligação é referida como um “ligase”.
[0083] Uma “liase” é uma enzima que catalisa a quebra de várias ligações químicas por outro meio sem ser hidrólise e oxidação. Em algumas modalidades, uma reação de liase forma uma nova ligação dupla ou uma nova estrutura de anel.
[0084] U,a “cetorredutase” é uma enzima que tipicamente usa o cofator NADPH para reduzir estereospecificamente um grupo ceto em um grupo hidroxila (Vide, por exemplo, variantes descritas em WO2008103248A2, WO2009029554A2, WO2009036404A2, WO2009042984A1, WO2009046153A1 e WO2010025238A2).
[0085] Uma “transaminase” ou uma “aminotransferase” é uma enzima que catalisa uma reação de transaminação entre um aminoácido e um ácido α- ceto, no qual o grupo amina NH2 no aminoácido é trocada com o grupo ceto =O no ácido α-ceto (Vide, por exemplo, variantes descritas em WO2010081053A2 e WO2010099501A2).
[0086] As proteínas de “citocromo” (abreviadas como “CYP”) são enzimas envolvidas em oxidação de substâncias orgânicas. Um exemplo são enzimas de citocromo P450. Os substratos de enzimas CYP incluem, mas não se limitando a intermediários metabólicos tais como lipídeos e hormônios esteroidais, bem como substâncias xenobióticas tais como medicamentos e outros produtos químicos tóxicos. CYPs são as principais enzimas envolvidas em metabolismo e bioativação de medicamentos. CYPs usam uma variedade de pequenas e grandes moléculas como substratos em reações enzimáticas. A reação mais comum catalisada por citocromo P450 é uma reação de mono- oxigenase, por exemplo, inserção de um átomo de oxigênio em um substrato orgânico (RH) enquanto o outro átomo de oxigênio é reduzido a água. Enzimas de citocromo P450 pertencem a uma superfamília de proteínas contendo uma cofator heme e, portanto, são hemoproteínas. Em geral, elas são enzimas oxidase terminais em cadeias de transferência de elétrons. As placas de triagem MicroCyp® e enzimas disponíveis pela Codexis são úteis na produção de metabólitos de medicamento e novos compostos de ponta (Vide, por exemplo, variantes descritas em WO2002083868A2, WO2005017105A2, WO2005017116A2 e WO2003008563A2).
[0087] Uma “mono-oxigenase de Baeyer-Villiger” é uma enzima que emprega NADPH e oxigênio molecular para catalisar uma reação de oxidação de Baeyer-Villiger, na qual um átomo de oxigênio é inserido em uma ligação carbono-carbono de um substrato carbonílico (Vide, por exemplo, variantes em WO2011071982A2 e WO2012078800A2).
[0088] Uma “monoamina oxidase” (MAO) (EC 1.4.3.4) é uma enzima que catalisa a oxidação de monoaminas, que são neurotransmissores e neuromoduladores que contêm um grupo amino que é conectado a um anel aromático por uma cadeia de dois carbonos (-CH2-CH2-). MAOs pertencem à família de proteína de amina oxi-redutases contendo flavina (Vide, por exemplo, variantes em WO2010008828A2).
[0089] Uma “nitrilase” ou amino-hidrolase de nitrila (EC 3.5.5.1) é uma enzima que catalisa a hidrólise de nitrilas em ácidos carboxílicos e ammonia, sem formação de intermediários de amida “livres” ( Vide, por exemplo, variantes em WO2011011630A2).
[0090] Uma “imina redutase” é uma enzima que catalisa a redução de um grupo funcional imina contendo uma ligação dupla carbono-nitrogênio, quebrando a ligação dupla fazendo com que um elétron seja doado ao átomo de nitrogênio.
[0091] Uma “enona redutase” é uma enzima que catalisa a redução de um grupo funcional enona, que inclui um sistema conjugado de um alceno e uma cetona, quebrando a ligação dupla ceto- ou alceno (Vide, por exemplo, variantes descrito em WO2010075574A2).
[0092] Uma “acrilase” é uma enzima que catalisa a clivagem hidrolítica de ligações de acil amida ou acil éster (Vide, por exemplo, variantes de penicilina G acrilase em WO2010054319A2).
[0093] Uma “haloidrina dealogenase” “HHDH” é uma enzima envolvida na degradação de haloidrinas vicinais. Em Agrobacterium radiobacter AD1, por exemplo, ela catalisa a dealogenação de haloidrinas para produzir os epóxidos correspondentes (Vide, por exemplo, variantes descritas em WO2010080635A2).
[0094] O termo “sequência” é usado aqui para se referir à ordem e identidade de qualquer sequência biológica incluindo, mas não se limitando a um genoma total, cromossoma total, segmento de cromossoma, coleção de sequências genéticas para genes interagentes, gene, sequência de ácido nucleico, proteína, peptídeo, polipeptídeo, polissacarídeo, etc. Em alguns contextos, uma “sequência” se refere à ordem e identidade de resíduos de aminoácido em uma proteína (isto é, uma sequência de proteína ou cadeia de caracteres de proteína) ou à ordem e identidade de nucleotídeos em um ácido nucléico (isto é, uma sequência de ácido nucleico ou cadeia de caracteres de ácido nucléico). Uma sequência pode ser representada por uma cadeia de caracteres. Uma “sequência de ácido nucleico” se refere à ordem e identidade dos nucleotídeos compreendendo um ácido nucléico. Uma “sequência de proteína” se refere à ordem e identidade dos aminoácidos compreendendo uma proteína ou peptídeo.
[0095] “Códon” se refere a uma sequência específica de três consecutivos nucleotídeos que é parte do código genético e que especifica um aminoácido particular em uma proteína ou inicia ou interrompe a síntese de proteína.
[0096] O termo “gene” é usado no geral para se referir a qualquer segmento de DNA ou outro ácido nucléico associado com uma função biológica. Assim, genes incluem sequências de codificação e, opcionalmente, as sequências regulatórias necessárias para sua expressão. Genes também opcionalmente incluem segmentos de ácido nucléico não expressos que, por exemplo, formam sequências de reconhecimento para outras proteínas. Genes podem ser obtidos de uma variedade de fontes, incluindo clonagem de uma fonte de interesse ou sintetização de informação de sequência conhecida ou prevista, e podem incluir sequências projetadas para ter parâmetros desejados.
[0097] Uma “fração” é uma parte de uma molécula que pode incluir tanto grupos funcionais totais quanto partes de grupos funcionais como subestruturas, enquanto grupos funcionais são grupos de átomos ou ligações nas moléculas que são responsáveis pelas reações químicas características dessas moléculas.
[0098] “Triagem” se refere ao processo no qual uma ou mais propriedades de uma ou mais biomoléculas são determinadas. Por exemplo, processos de triagem típicos aqueles nos quais uma ou mais propriedades de um ou mais elementos de uma ou mais bibliotecas são determinadas. Triagem pode ser feita computacionalmente usando modelos computacionais de biomoléculas e ambiente virtual das biomoléculas. Em algumas modalidades, sistemas de triagem de proteína virtuais são providos para enzimas selecionadas de atividade e seletividade desejada.
[0099] Um “sistema de expressão” é um sistema para expressar uma proteína ou peptídeo codificado por um gene ou outro ácido nucléico.
[00100] “Evolução direcionada”, “evolução guiada”, ou “evolução artificial” se refere a processos in silico, in vitro, ou in vivo de mudar artificialmente uma ou mais sequências de biomolécula (ou uma cadeia de caracteres representando essa sequência) por seleção artificial, mutação, recombinação, ou outra manipulação. Em algumas modalidades, evolução direcionada ocorre em uma população reprodutiva na qual (1) existem variedades de indivíduos, (2) algumas variedades tendo informação genética hereditária, e (3) algumas variedades diferem na adequação. Sucesso reprodutivo é determinado pelo resultado da seleção para uma propriedade predeterminada tal como uma propriedade benéfica. A população reprodutiva pode ser, por exemplo, uma população física em um processo in vitro ou uma população virtual em um sistema de computador em um processo in silico.
[00101] Métodos de evolução direcionada podem ser facilmente aplicados a polinucleotídeos para gerar bibliotecas de variantes que podem ser expressas, triadas e ensaiadas. Mutagênese e métodos de evolução direcionada são bem conhecidos na técnica (Vide, por exemplo, Patentes U.S. Nos. 5.605.793, 5.830.721, 6.132.970, 6.420.175, 6.277.638, 6.365.408, 6.602.986, 7.288.375, 6.287.861, 6.297.053, 6.576.467, 6.444.468, 5.811238, 6.117.679, 6.165.793, 6.180.406, 6.291.242, 6.995.017, 6.395.547, 6.506.602, 6.519.065, 6.506.603, 6.413.774, 6.573.098, 6.323.030, 6.344.356, 6.372.497, 7.868.138, 5.834.252, 5.928.905, 6.489.146, 6.096.548, 6.387.702, 6.391.552, 6.358.742, 6.482.647, 6.335.160, 6.653.072, 6.355.484, 6.03.344, 6.319.713, 6.613.514, 6.455.253, 6.579.678, 6.586.182, 6.406.855, 6.946.296, 7.534.564, 7.776.598, 5.837.458, 6.391.640, 6.309.883, 7.105.297, 7.795.030, 6.326.204, 6.251.674, 6.716.631, 6.528.311, 6.287.862, 6.335.198, 6.352.859, 6.379.964, 7.148.054, 7.629.170, 7.620.500, 6.365.377, 6.358.740, 6.406.910, 6.413.745, 6.436.675, 6.961.664, 7.430.477, 7.873.499, 7.702.464, 7.783.428, 7.747.391, 7.747.393, 7.751.986, 6.376.246, 6.426.224, 6.423.542, 6.479.652, 6.319.714, 6.521.453, 6.368.861, 7.421.347, 7.058.515, 7.024.312, 7.620.502, 7.853.410, 7.957.912, 7.904.249, e todas contrapartes não U.S. relacionadas; Ling et al., Anal. Biochem., 254(2):157-78 [1997]; Dale et al., Meth. Mol. Biol., 57:36974 [1996]; Smith, Ann. Rev. Genet., 19:423-462 [1985]; Botstein et al., Science, 229:1193-1201 [1985]; Carter, Biochem. J., 237:1-7 [1986]; Kramer et al., Célula, 38:879-887 [1984]; Wells et al., Gene, 34:315-323 [1985]; Minshull et al., Curr. Op. Chem. Biol., 3:284-290 [1999]; Christians et al., Nat. Biotechnol., 17:259-264 [1999]; Crameri et al., Nature, 391:288-291 [1998]; Crameri, et al., Nat. Biotechnol., 15:436-438 [1997]; Zhang et al., Proc. Nat. Acad. Sci. U.S.A., 94:4504-4509 [1997]; Crameri et al., Nat. Biotechnol., 14:315-319 [1996]; Stemmer, Nature, 370:389-391 [1994]; Stemmer, Proc. Nat. Acad. Sci. USA, 91:10747-10751 [1994]; WO 95/22625; WO 97/0078; WO 97/35966, WO 98/27230, WO 00/42651, WO 01/75767 e WO 2009/152336, todas as quais estão incorporadas aqui pela referência).
[00102] Em certas modalidades, métodos de evolução direcionada geram bibliotecas de variantes de proteína recombinando genes que codificam variantes desenvolvidos de uma proteína pai, bem como recombinando genes que codificam variantes em uma biblioteca de variante de proteína pai. Os métodos podem empregar oligonucleotídeos contendo sequências ou subsequências que codificam pelo menos uma proteína de uma biblioteca de variante parental. Alguns dos oligonucleotídeos da biblioteca de variante parental podem ser intimamente relacionados, diferindo somente na escolha de códons para aminoácidos alternados selecionados para ser variados por recombinação com outras variantes. O método pode ser realizado para um ou múltiplos ciclos até que resultados desejados sejam alcançados. Se múltiplos ciclos forem usados, cada tipicamente envolve uma etapa de triagem para identificar aquelas variantes que têm desempenho aceitável e melhorado e são candidatos para uso em pelo menos um ciclo de recombinação subsequente. Em algumas modalidades, a etapa de triagem envolve um sistema de triagem de proteína virtual para determinar a atividade catalítica e seletividade de enzimas para substratos desejados.
[00103] Em algumas modalidades, métodos de evolução direcionada geram variantes de proteína por mutagênese direcionada para o sítio em resíduos definidos. Esses resíduos definidos são tipicamente identificados por análise estrutural de sítios de ligação, análise química quântica, análise de homologia de sequência, modelos de sequência-atividade, etc. Algumas modalidades empregam mutagênese por saturação, na qual se tenta gerar todas possíveis (ou o mais próximo possível) mutações em um sítio específico, ou região restrita de um gene.
[00104] “Embaralhamento” e “embaralhamento genético” são tipos de métodos de evolução direcionada que recombinam uma coleção de fragmentos dos polinucleotídeos pais através de uma série de ciclos de extensão de cadeia. Em certas modalidades, um ou mais dos ciclos de extensão de cadeia são autoiniciados; isto é, realizados sem a adição de oligonucleotídeos iniciadores além dos próprios fragmentos. Cada ciclo envolve anelamento de fragmentos de fita simples através de hibridização, subsequente alongamento de fragmentos anelados através de extensão de cadeia, e desnaturação. No curso de embaralhamento, uma fita de ácido nucléico em crescimento é tipicamente exposta a múltiplos diferentes parceiros de anelamento em um processo algumas vezes referido como “mudança de molde”, que envolve mudar um domínio de ácido nucléico de um ácido nucléico com um segundo domínio de um segundo ácido nucléico (isto é, o primeiro e segundo ácidos nucleicos servem como moldes no procedimento de embaralhamento).
[00105] Mudança de molde frequentemente produz sequências quiméricas, que resultam da introdução de cruzamentos entre fragmentos de diferentes origens. Os cruzamentos são criados através de recombinações com mudança do molde durante os múltiplos ciclos de anelamento, extensão e desnaturação. Assim, embaralhamento tipicamente leva à produção de sequências de polinucleotídeos variantes. Em algumas modalidades, as sequências variantes compreendem uma “biblioteca” de variantes (isto é, um grupo compreendendo múltiplas variantes). Em algumas modalidades dessas bibliotecas, as variantes contêm segmentos de sequência de dois ou mais polinucleotídeos pais.
[00106] Quando dois ou mais polinucleotídeos pais são empregados, os polinucleotídeos pais individuais são suficientemente homólogos que fragmentos de diferentes pais hibridizam nas condições de anelamento empregadas nos ciclos de embaralhamento. Em algumas modalidades, o embaralhamento permite recombinação de polinucleotídeos pais tendo níveis de homologia relativamente limitados/baixos. Frequentemente, os polinucleotídeos pais individuais têm domínios e/ou outro características de sequência de interesse distintas e/ou exclusivas. Quando se usam polinucleotídeos pais tendo distintas características de sequência, embaralhamento pode produzir polinucleotídeos variantes altamente diversos.
[00107] Várias técnicas de embaralhamento são conhecidas na técnica (Vide, por exemplo, Patentes U.S. Nos. 6.917.882, 7.776.598, 8.029.988, 7.024.312 e 7.795.030, todas as quais estão incorporadas aqui pela referência em suas íntegras).
[00108] Algumas técnicas de evolução direcionada empregam “Gene Splicing by Overlap Extension” ou “gene SOEing,” que é um método com base em PCR de recombinar sequências de DNA sem basear em sítios de restrição e de gerar diretamente fragmentos de DNA mutados in vitro. Em algumas implementações da técnica, PCRs iniciais geram segmentos de gene sobrepostos que são usados como DNA molde para um segundo PCR para criar um produto de comprimento total. Oligonucleotídeos iniciadores de PCT internos geram extremidades 3’ complementares sobrepostas em segmentos intermediários e introduzem substituições, inserções ou deleções de nucleotídeo para Gene Splicing. Fitas sobrepostas desses segmentos intermediários hibridizam na região 3’ no segundo PCR e são estendidos para gerar o produto de comprimento total. Em várias aplicações, o produto de comprimento total é amplificado por oligonucleotídeos iniciadores flanqueadores que podem incluir sítios de restrição de enzima para inserir o produto em um vetor de expressão com propósitos de clonagem (Vide, por exemplo, Horton, et al., Biotechniques, 8(5): 528-35 [1990]). “Mutagênese” é o processo de introduzir uma mutação em uma sequência padrão ou de referência tal como um ácido nucléico pai ou polipeptídeo pai.
[00109] Mutagênese direcionada para o sítio é um exemplo de uma técnica útil para introduzir mutações, embora qualquer método adequado encontre uso. Assim, alternativamente, ou adicionalmente, os mutantes podem ser providos por síntese genética, mutagênese aleatória por saturação, bibliotecas combinatoriais semissintéticas de resíduos, recombinação de sequência recursiva (“RSR”) (Vide, por exemplo, Publicação do Pedido de Patente U.S. No. 2006/0223143, incorporada pela referência aqui em sua íntegra), embaralhamento genético, PCR propensa a erro, e/ou qualquer outro método adequado.
[00110] Um exemplo de um procedimento de mutagênese por saturação adequado é descrito na Publicação do Pedido de Patente U.S. No. 2010/0093560, que está aqui incorporado pela referência na sua íntegra.
[00111] Um “fragmento” é qualquer porção de uma sequência de nucleotídeos ou aminoácidos. Fragmentos podem ser produzidos usando qualquer método adequado conhecido na técnica, incluindo, mas não se limitando a clivagem de uma sequência de polipeptídeo ou polinucleotídeo. Em algumas modalidades, fragmentos são produzidos usando nucleases que clivam polinucleotídeos. Em algumas modalidades adicionais, fragmentos são gerados usando técnicas de síntese química e/ou biológica. Em algumas modalidades, fragmentos compreendem subsequências de pelo menos uma sequência parental, gerada usando alongamento de cadeia parcial de ácido(s) nucléico(s) complementar(s). Em algumas modalidades envolvendo técnicas in silico, fragmentos virtuais são gerados computacionalmente para imitar os resultados de fragmentos gerados por técnicas químicas e/ou biológicas. Em algumas modalidades, fragmentos de polipeptídeo exibem a atividade do polipeptídeo de comprimento total, embora, em algumas outras modalidades, os fragmentos de polipeptídeo não tenham a atividade exibida pelo polipeptídeo de comprimento total.
[00112] “Polipeptídeo parental”, “polinucleotídeo parental”, “ácido nucléico pai” e “pai” são geralmente usados para se referirem ao polipeptídeo tipo selvagem, polinucleotídeo tipo selvagem, ou uma variante usada como um ponto de partida em um procedimento de geração de diversidade tal como uma evolução direcionada. Em algumas modalidades, o próprio pai é produzido por meio de embaralhamento ou outro(s) procedimento(s) de geração de diversidade. Em algumas modalidades, mutantes usados em evolução direcionada são diretamente relacionados com um polipeptídeo pai. Em algumas modalidades, o polipeptídeo pai é estável quando exposto aos extremos das condições de temperatura, pH e/ou solvente e podem servir como a base para gerar variantes para embaralhamento. Em algumas modalidades, o polipeptídeo parental não é estável em extremos de temperatura, pH e/ou condições de solvente, e o polipeptídeo parental é evoluído para produzir uma variante robusta.
[00113] Um “ácido nucléico pai” codifica um polipeptídeo parental.
[00114] Uma “biblioteca” ou “população” se refere a uma coleção de pelo menos duas diferentes moléculas, cadeias de caracteres e/ou modelos, tais como sequências de ácido nucleico (por exemplo, genes, oligonucleotídeos, etc.) ou produtos de expressão (por exemplo, enzimas ou outras proteínas) a partir dos mesmos. Uma biblioteca ou população geralmente inclui inúmeras diferentes moléculas. Por exemplo, uma biblioteca ou população tipicamente inclui pelo menos cerca de 10 diferentes moléculas. Grandes bibliotecas tipicamente incluem pelo menos cerca de 100 diferentes moléculas, mais tipicamente pelo menos cerca de 1.000 diferentes moléculas. Para algumas aplicações, a biblioteca inclui pelo menos cerca de 10.000 ou mais diferentes moléculas. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de diferentes moléculas. Em certas modalidades, a biblioteca contém um número de variantes ou ácidos nucleicos ou proteínas quiméricos produzidos por um procedimento de evolução direcionada.
[00115] Dois ácidos nucleicos são “recombinados” quando sequências de cada dos dois ácidos nucleicos são combinados para produzir ácido(s) nucléico(s) progênie(s). Duas sequências são “diretamente” recombinadas quando ambos os ácidos nucleicos são substratos para recombinação.
[00116] “Seleção” se refere ao processo no qual uma ou mais biomoléculas são identificadas como tendo uma ou mais propriedades de interesse. Assim, por exemplo, pode-se triar uma biblioteca para determinar uma ou mais propriedades de um ou mais elementos da biblioteca. Se um ou mais dos elementos da biblioteca for/forem identificados possuindo uma propriedade de interesse, ele é selecionado. Seleção pode incluir isolamento de um elemento da biblioteca, mas isto não é necessário. Adicionalmente, seleção e triagem podem ser, e frequentemente são simultâneas. Algumas modalidades descritas aqui proveem sistemas e métodos para triagem e seleção de enzimas de atividade e/ou seletividade desejáveis.
[00117] O termo “modela sequência-atividade” se refere a qualquer modelo matemático que descreve o relacionamento entre atividades, características, ou propriedades de moléculas biológicas, por um lado, e várias sequências biológicas, por outro lado.
[00118] “Sequência de referência” é uma sequência da qual variação de sequência é realizada. Em alguns casos, uma “sequência de referência” é usada para definir as variações. Tal sequência pode ser uma prevista por um modelo para ter o mais alto valor (ou um dos mais altos valores) da atividade desejada. Em um outro caso, a sequência de referência pode ser aquela de um elemento de uma biblioteca de variante de proteína original. Em certas modalidades, uma sequência de referência é a sequência de uma proteína ou ácido nucléico pai.
[00119] “Sequenciamento de nova geração” e “sequenciamento de alta produtividade” são técnicas de sequenciamento que paraleliza o processo de sequenciamento, produzindo milhares ou milhões de sequências imediatamente. Exemplos de métodos de sequenciamento de nova geração adequados incluem, mas não se limitando a sequenciamento em tempo real de molécula única (por exemplo, Pacific Biosciences, Menlo Park, Califórnia), sequenciamento por semicondutor iônico (por exemplo, Ion Torrent, South San Francisco, Califórnia), pirossequenciamento (por exemplo, 454, Branford, Connecticut), sequenciamento por ligação (por exemplo, sequenciamento SOLiD da Life Technologies, Carlsbad, Califórnia), sequenciamento por síntese e terminador reversível (por exemplo, Illumina, San Diego, Califórnia), tecnologias de imageamento de ácido nucléico tal como microscopia eletrônica de transmissão e similares.
[00120] Um “algoritmo genético” é um processo que imita processos evolucionários. Algoritmos genéticos (GAs) são usados em uma ampla variedade de campos para solucionar problemas que não são totalmente categorizados ou são muito complexos para permitir total caracterização, mas para os quais uma certa avaliação analítica é disponível. Ou seja, GAs são usados para solucionar problemas que podem ser avaliados por alguma medida quantificável para o valor relativo de uma solução (ou pelo menos o valor relativo de uma solução potencial em comparação com um outro). No contexto da presente descrição, um algoritmo genético é um processo para selecionar ou manipular cadeias de caracteres em um computador, tipicamente onda cadeia de caracteres corresponda uma ou mais moléculas biológicas (por exemplo, ácidos nucleicos, proteínas, ou similares) ou dados usados para treinar um modelo tal como um modelo de atividade de sequência.
[00121] Em uma implementação típica, um algoritmo genético provê e avalia uma população de cadeias de caracteres em uma primeira geração. Uma “função de adequação” avalia os elementos da população e classifica-os com base em um ou mais critérios tal como alta atividade. Cadeias de caracteres de alta classificação são selecionadas para promoção para uma segunda geração e/ou casamento para produzir “cadeias de caracteres filhas” para a segunda geração. A população na segunda geração é similarmente avaliada pela função de adequação, e elementos de alta classificação são promovidos e/ou correspondidos com a primeira geração. O algoritmo genético continua desta maneira para subsequentes gerações até que um “critério de convergência” seja satisfeito, em cujo ponto o algoritmo conclui com um ou mais indivíduos de alta classificação.
[00122] A expressão “operação genética” (ou “GO”) se refere a operações genéticas biológicas e/ou computacionais, em que todas as mudanças em qualquer população de qualquer tipo de cadeias de caracteres (e assim em qualquer propriedade física de objetos físicos codificados por tais cadeias) podem ser descritas como um resultado de aplicação aleatória e/ou predeterminada de um conjunto finito de funções algébricas lógicas. Exemplos de GO incluem, mas se limitar a multiplicação, cruzamento, recombinação, mutação, ligação, fragmentação, etc.
II. TRIAGEM DE PROTEÍNA VIRTUAL
[00123] Em algumas modalidades, um sistema de triagem de proteína virtual é configurado para realizar várias operações associadas com identificação computacional de variantes de biomolécula que provavelmente têm uma atividade desejável tal como catalisar eficiente e seletivamente uma reação a uma temperatura definida. O sistema de triagem de proteína virtual pode tomar como entradas, representações de um ou mais de um ligante que são destinados a interagir com as variantes. O sistema pode tomar como outras entradas, representações das variantes de biomolécula, ou pelo menos o sítios ativos dessas variantes. As representações podem conter posições tridimensionais de átomos e/ou frações dos ligantes e/ou variantes. Modelos de homologia são exemplos das representações das variantes de biomolécula. O sistema de triagem de proteína virtual pode aplicar informação de ancoragem e restrições de atividade para avaliar o funcionamento das variantes.
[00124] Em certas modalidades, um sistema de triagem de proteína virtual aplica um ou mais restrições para distinguir posturas ativas e inativas. Tais posturas podem ser geradas por um ancorador como anteriormente descrito ou por uma outra ferramenta. Uma postura do ligante é avaliada em seu ambiente para determinar se um ou mais recursos do ligante são posicionados no ambiente de maneira a resultar em uma transformação catalítica ou outra atividade definida. O ambiente em questão é tipicamente um sítio ativo de uma enzima ou outra biomolécula.
[00125] Se assumir que um substrato ou outro ligante se liga a um sítio ativo da biomolécula, a questão a ser indagada é se ela se liga de uma maneira “ativa”. Um programa de ancoragem típico pode dizer se um ligante se ligará ou não ao sítio ativo, mas não diz se ele se ligará de uma maneira “ativa”.
[00126] Em certas modalidades, atividade é determinada considerando uma ou mais posturas geradas por um ancorador ou outra ferramenta. Cada postura é avaliada para determinar se ela atende restrições associadas com uma atividade de interesse (por exemplo, uma “atividade desejada”). Uma postura ativa é uma na qual o ligante provavelmente passa por uma transformação catalítica ou desempenha algum papel desejado tal como ligar covalentemente com o sítio de ligação.
[00127] Quando se considera inversão catalítica de um substrato como a atividade, o sistema de triagem de proteína virtual pode ser configurado para identificar posturas conhecidas por ser associadas com uma reação particular. Em algumas modalidades, isto envolve considerar um intermediário da reação ou estado de transição, em vez de o próprio substrato. Além da inversão, posturas podem ser avaliadas quanto a outros tipos de atividade tal como síntese de estereosseletividade de enantiômeros, ligação a um receptor de uma biomolécula alvo identificado como importante para descoberta de medicamento, conversão regiosseletiva de produtos, etc. Em alguns casos, a atividade é ligação covalente irreversível ou reversível tal como inibição covalente alvejada (TCI).
[00128] Restrições podem ser determinadas diretamente, manualmente, automaticamente, empiricamente e/ou com base em informação previamente conhecida. Em uma abordagem, um pesquisador avalia o sítio ativo e um substrato nativo para uma proteína tipo selvagem. Isto se dá em virtude de a proteína tipo selvagem ser conhecida por ser evoluída para seu substrato nativo por natureza e consequentemente tem ótima constante catalítica (kcat). Em alguns casos, estruturas cristalinas da proteína tipo selvagem e substrato nativo ou um intermediário complexo foram solucionadas. A restrição pode então ser configurada com base em análise estrutural. Isto é referido como uma “abordagem direta” para determinar a restrição. Em casos onde tais estruturas cristalinas não são disponíveis, a avaliação pode ser conduzida com um programa de ancoragem, por exemplo. Usando o programa, o pesquisador identifica restrições associado com uma transformação catalítica do substrato nativo na proteína tipo selvagem. Isto é referido como uma abordagem manual ou empírica para determinar restrições. Em uma outra abordagem, restrições são determinadas usando cálculos de mecânica quântica. Por exemplo, um pesquisador pode otimizar o substrato ou intermediário ou estado de transição na presença de grupos funcionais dos resíduos catalíticos (por exemplo, Tyr) e/ou cofatores (por exemplo, NADHP), usando mecânica quântica e estabelecer a restrição para se parece com esses estados. Esta abordagem é algumas vezes referida como uma abordagem automática ou ab initio. Um exemplo de uma ferramenta comercial usando esta abordagem é a Gaussiana disponível por www|.|Gaussian.com.
[00129] Restrições podem assumir várias formas. Em certas modalidades, algumas ou todas essas restrições são restrições geométricas que especificam a(s) posição(s) relativa(s) de um ou mais átomos em uma postura do ligante em um espaço tridimensional. Em algumas modalidades, o espaço pode ser definido com relação às posições de átomos em um sítio ativo.
[00130] Uma “restrição geométrica” é uma restrição que avalia a geometria de duas ou mais frações de participante ou outros elementos químicos. Em certas modalidades, um dos participantes é uma fração ou outra espécie química no ligante. Em algumas modalidades, um outro dos participantes é uma fração ou outro recurso químico de um sítio ativo de uma biomolécula. A fração ou outro recurso químico do sítio ativo pode ser associado com resíduos na biomolécula sítio ativo (por exemplo, uma cadeia lateral de resíduo de aminoácido), um recurso em um cofator ou outro composto que é tipicamente associado com o sítio ativo e/ou catálise e similares. Como um exemplo, na redução de cetonas por uma proteína cetorredutase, o grupo carbonila do substrato pode ser um participante em uma restrição geométrica e uma fração tirosina de um sítio ativo da enzima pode ser um segundo participante na restrição geométrica.
[00131] Em geral, restrições geométricas são feitas com relação a um ligante, por um lado, e um ou mais recursos da ligação ambiente, por outro lado. Em algumas modalidades, o ambiente pode incluir posições da espinha dorsal do resíduo do peptídeo (ou cadeias laterais) e/ou cofatores ou outros materiais de não espinha dorsal que normalmente residem em um sítio ativo.
[00132] A geometria dos participantes na restrição geométrica pode ser definida em termos de distância entre frações, ângulos entre frações, relação torsional entre frações, etc. Algumas vezes, uma restrição inclui múltiplas restrições geométricas básicas usadas para caracterizar atividade. Por exemplo, uma restrição na posição de um substrato pode ser definida pelas distâncias entre dois ou mais pares de átomos. Um exemplo é mostrado na figura 1. No caso de uma relação torsional, a restrição pode ser apropriada quando um substrato e um recurso do sítio ativo ambiente são vistos como placas nominalmente paralelas que compartilha um eixo comum de rotação. A posição angular relativa dessas placas em torno do eixo define a restrição torsional.
[00133] Figura 1 representa um exemplo de um fluxo de trabalho que pode ser empregado para identificar restrições geométricas para identificar posturas ativas. O fluxo de trabalho representado considera que a enzima tipo selvagem é uma cetona redutase e o substrato nativo é acetofenona. Como representado no canto esquerdo superior da figura 1, a reação nativa converte acetofenona em um álcool correspondente por catálise estereosselective. A reação introduz um centro quiral no carbono da acetila do substrato de cetona. A cetona redutase tipo selvagem controla a conversão de forma que somente o R enantiômero é produzido. A reação é realizada na presença de NADPH como um cofator. A reação é representada esquematicamente no canto esquerdo superior da figura 1.
[00134] No canto direito superior da figura 1, o mecanismo de catálise e seletividade é representado. Este mecanismo é considerado durante definição de restrições geométricas usadas para distinguir postura ativa de inativas. Como parte do processo, um pesquisador ou sistema autocombinado determina a orientação do substrato de acetofenona com relação a seu ambiente catalítico na cetona redutase tipo-selvagem. Em geral, o ambiente relevante inclui os resíduos, cofatores, etc. em volta presentes quando ocorre a transformação catalítica.
[00135] No exemplo representado, os recursos relevantes do ambiente do sítio ativo na cetona redutase tipo selvagem são as posições de átomos em (1) um resíduo de tirosina na espinha dorsal da enzima tipo selvagem e (2) o cofator, NADPH. Outros recursos ambientais relevantes do substrato na postura ativa são sub-pacotes dentro do sítio ativo. Esses não estão mostrados na figura 1. Um dos sub-pacotes acomoda o grupo fenila do substrato de acetofenona e um outro acomoda o grupo metila do acetofenona. Juntos esses sub-pacotes contêm o substrato em uma orientação que dita a estereoespecificidade da reação. Em algumas modalidades, a informação acima é obtida com base em análise estrutural da estrutura cristalina da cetona redutase tipo selvagem e substrato de acetofenona nativa complexo. Consequentemente, as restrições geométricas podem ser diretamente definidas.
[00136] O mecanismo catalítico de cetorredutase é representado por uma sequência de setas mostrada no arranjo representado (canto direito superior da figura 1). Especificamente, o NADPH doa elétrons através de um íon hidreto que acopla com o carbono da carbonila da acetofenona. Simultaneamente, um par de elétrons do oxigênio da carbonila do acetofenona é doado ao próton do resíduo de tirosina, e um par de elétrons do oxigênio da hidroxila da tirosina é doado ao próton da fração ribose de NADP(H), consequentemente completando a conversão do substrato no álcool correspondente. Como notado, a reação continua enquanto o grupo fenila do substrato é mantido em um sub-pacote maior, seu grupo metila é mantido em um sub-pacote menor, e seu grupo cetona é mantido em proximidade imediata em direção ao grupo tirosina da hidroxila.
[00137] Como adicionalmente mostrado na figura 1, a cetona redutase tipo selvagem é evoluída para uma cetona redutase variante que estereoespecificamente catalisa a conversão de um substrato diferente, denominado um “substrato desejado”, aqui. Como representado no meio da figura 1, a reação desejada é um conversão de metil terc-butil cetona no S enantiômero do álcool correspondente (1 terc-butil etil álcool). Presume-se que a reação seja catalisada em um sítio ativo de uma enzima variante otimizada para a conversão e com o cofator NADPH.
[00138] Para garantir que a reação desdobra com a estereoespecificidade desejada, uma ou mais restrições devem ser determinada. Note que o substrato nativo é convertido pela cetona redutase tipo selvagem no R enantiômero e o substrato desejado deve ser convertido pela variante no S enantiômero. Portanto, pode-se considerar que o grupo terc-butil do substrato desejado deve ser posicionado no sub-pacote que normalmente acomoda o grupo metila do substrato de acetofenona nativa e o grupo metila do substrato desejado deve ser posicionado no sub-pacote que acomoda o grupo fenila do substrato nativo.
[00139] Com isto em mente, um conjunto de restrições posicionadas pode ser definido como representado no canto esquerdo inferior da figura 1. Como mostrado nela, várias restrições são definidas com relação à posição tridimensional do substrato nativo à medida que ele assenta no sítio ativo da enzima WT na estrutura cristalina, a fim de obter máxima inversão (kcat). Em outras palavras, a orientação do grupo funcional chave do substrato nativo, incluindo carbono da carbonila e oxigênio da carbonila que ditam a inversão catalítica e qualquer dos dois carbonos prósimos ao carbono da carbonila que dita estereosseletividade, determinada com relação ao diagrama no canto direito superior da figura 1 é transladado para as coordenadas X, Y, Z. Uma vez que modelos de homologia de todas as variantes foram construídos usando estrutura WT como molde, as coordenadas X, Y, Z são transferívels para as variantes. Com este quadro de referência, as posições do grupo funcional chave (C1(C2)C=O) do substrato desejado podem ser comparadas com as posições dos 4 átomos correspondentes do substrato nativo já que eles são previstos para assentar em uma orientação ideal em direção ao resíduo catalítico de tirosina e cofator NADPH. Vale a pena notar que os resíduos para catálise (por exemplo, tirosina) e resíduos para ligação do cofator (NADPH) são conservados em todas as variantes e somente leves mudanças conformacionais ou posicionais são esperado para esta tirosina e NADPH em todas as variantes. Com isto em mente, as restrições posicionais representadas no canto esquerdo inferior da figura 1 especificam uma faixa de posições do átomo de carbono de carbonila do substrato desejado, átomo de carbonila de oxigênio, e átomo de terc-butila central com relação às posições do átomo de carbono da carbonila do substrato nativo, átomo de oxigênio da carbonila, e átomo de carbono de metila. A faixa de diferenças posicionais entre os átomos do substrato desejado e os átomos correspondentes do substrato nativo é representada pelas distâncias d1, d2 e d3. Como um exemplo, cada dessas distâncias pode precisar ser 1 angstrom ou mais ou menos a fim de que uma postura do substrato desejada seja considerada uma postura ativa. Os valores de restrição são normalmente estabelecidos para ficar uma faixa que permite certa flexibilidade que reflete as ligeiras mudanças conformacionais da tirosina catalítica e cofator em uma variante. Em algumas implementações, os critérios para essas distâncias são refinados por algoritmos de aprendizado de máquina.
[00140] Nos exemplos anteriores, as posições dos três átomos relevantes do substrato desejado se aproximam daqueles do substrato nativo. As variantes de cetorredutase ancoradas com o substrato desejado em posturas satisfazendo as restrições posicionadas anteriores são esperadas ser cataliticamente ativas e S seletivas.
[00141] Em geral, o sistema de triagem de proteína virtual pode aplicar restrições geométricas de qualquer de vários tipos. Em algumas implementações, ele aplica a distância absoluta entre participantes. Por exemplo, a distância entre um átomo de oxigênio no grupo carbonila de um substrato e um átomo de um grupo tirosina de um sítio ativo pode ser especificada como uma restrição (por exemplo, a distância entre esses átomos tem que ser 2 Â ± 0.5 Â). Em um outro exemplo, o ângulo entre uma linha definida pelo eixo entre os átomos de carbono e oxigênio em um grupo carbonila e uma outra linha ao longo de um eixo de um grupo fenila em um sítio ativo é 120o ± 20o.
[00142] A direita inferior da figura 1 representa exemplos de tipos de restrições geométricas, cada qual definida entre um ou mais átomos do substrato desejado e um ou mais átomos da enzima ou um cofator (ou outra entidade) dentro de um pacote de ligação. Uma restrição de distância é definida como a distância entre um átomo no substrato e um átomo em um resíduo de um sítio ativo, um cofator, etc. Uma restrição de ângulo é definida para uma postura pela relação angular entre dois ou mais eixos definidos no substrato e seu ambiente. Os eixos podem ser ligações covalentes, linhas entre átomos do substrato e uma fração no pacote de ligação, etc. Por exemplo, um ângulo pode ser definido entre um eixo definido entre dois átomos no substrato e um outro eixo definido como a separação entre um átomo em um resíduo e um átomo no substrato. Em algumas outras modalidades, um eixo é definido entre dois átomos em uma cadeia lateral do resíduo e um outro eixo é definido pela separação entre um átomo no substrato e um átomo no resíduo. Um tipo adicional de restrição geométrica é representado no canto direito inferior da figura 1. Este tipo de restrição é referido como uma “restrição torsional” e considera que duas entidades distinta no pacote de ligação (uma delas tipicamente sendo todo ou parte do substrato) compartilham um eixo comum de rotação. A restrição torsional pode ser definida por uma faixa de posições angulares de uma das entidades com relação à outro em torno do eixo comum de rotação.
[00143] Em geral, a restrição geométrica pode ser aplicada com relação a alguma posição geométrica ou orientação pré-estabelecida de uma fração do substrato dentro de um pacote de ligação. Tal posição ou orientação pode ser especificada, por exemplo, por uma posição representativa de uma fração ativa em um substrato nativo em um pacote de ligação. Como um exemplo, os átomos de carbono e oxigênio do grupo carbonila do substrato em consideração têm que estar dentro de 1 Â das localizações dos átomos de carbono e oxigênio de um grupo carbonila em um substrato nativo no pacote de ligação. Vide, a restrição posicional mostrada no canto esquerdo inferior da figura 1. Note que as restrições posicionais no canto esquerdo inferior da figura 1 existem entre o substrato desejado e o substrato nativo. Entretanto, as restrições posicionais podem ser traduzidas em relações entre o substrato desejado e variantes de enzima, que corresponde às restrições geométricas no meio inferior e canto direito da figura 1.
[00144] Além de determinar as restrições geométricas diretamente, manualmente, ou automaticamente usando sistemas de computador, as restrições podem também ser refinadas pela triagem dos resultados. Por exemplo, se uma ou mais de uma variante forem identificadas como sendo ativas enquanto algumas outras são identificadas como sendo inativas para a reação desejada através de triagem de laboratório, suas posturas podem ser adicionalmente analisadas e as restrições podem ser treinadas.
[00145] Embora o exemplo representado na figura 1 use uma molécula (metil terc-butil cetona) relativamente pequena e simples como um substrato desejado, substratos muito maiores e mais complexos são frequentemente avaliados em um esforço de evolução direcionada.
[00146] Figura 2 apresenta um fluxo de trabalho para analisar a atividade potencial de biomoléculas candidatas em algumas implementações. Embora muitas diferentes atividades possam ser consideradas, a que será enfatizada nesta modalidade é transformação catalítica do substrato. A transformação pode ser enantiosseletiva ou regiosseletiva. Em tal caso, as variantes são enzimas. Na descrição desta Figura, quando o termo “substrato” é usado, o conceito se estende a ligantes relacionados tais como intermediários da reação ou estados de transição que são importantes em uma etapa de determinação de taxa na transformação catalítica do substrato para um produto da reação.
[00147] Como mostrado na figura 2, o processo começa identificando restrições para distinguir posturas ativas de inativas do substrato. Vide bloco 201. Em alguns casos, as restrições são identificadas por ancoragem. Em tais processos, um pesquisador leva em consideração a interação do substrato ou intermediário da reação ou estado de transição com o sítio ativo da enzima. No processo, ele identifica restrições que resultam na atividade desejada (por exemplo, transformação catalítica estereoespecífica do substrato). O pesquisador pode fazer isto com a ajuda de análise da estrutura, um programa de ancoragem e/ou cálculos de mecânica quântica que apresentam uma representação de uma enzima e substrato, intermediário, ou estado de transição associado. Ancoragem feito com um ancorador é algumas vezes referido como um a abordagem de ancoragem “empírica” e otimização feita com uma ferramenta de mecânica quântica é algumas vezes referida como uma abordagem “ab initio”. Em algumas modalidades, o ancoragem é feita com uma enzima tipo selvagem e o substrato nativo, intermediário, ou estado de transição. Vide bloco 201. Como explicado anteriormente, algumas restrições são restrições geométricas representando as posições relativas de frações no substrato desejado e frações no substrato nativo ou um cofator associado, como mostrado no canto esquerdo inferior da figura 1. Em algumas implementações, restrições podem ser definidas como relações entre substratos desejados e variantes de enzima, tais como as restrições geométricas mostrado no meio inferior e canto direito da figura 1.
[00148] Em alguns casos, restrições para posturas ativas podem ser identificadas por técnicas sem ser ancoragem de um substrato nativo em uma enzima tipo selvagem. Por exemplo, é possível identificar frações relevantes para uma reação catalítica e definir relações entre as frações identificadas usando ferramentas de mecânica quântica e dinâmica molecular.
[00149] De volta ao processo mostrado na figura 2, o sistema de triagem de proteína virtual cria ou recebe modelos estruturais para cada de múltiplas variantes de biomolécula que devem ser consideradas para atividade. Vide bloco 203. Como explicado, os modelos estruturais são representações tridimensionais produzidas computacionalmente dos sítios ativos ou outros aspectos das variantes de enzima. Esses modelos podem ser salvos para uso posterior em uma base de dados ou outro repositório de dados. Em alguns casos, pelo menos um dos modelos é criado para uso no fluxo de trabalho. Em alguns casos, pelo menos um dos modelos foi previamente criado, em cujo caso o processo simplesmente recebe tais modelos.
[00150] Múltiplos modelos, cada um para uma diferente sequência de biomoléculas, são usados no processo mostrado na figura 2. Isto poderia ser contrastado com fluxos de trabalho convencionai utilizando programas de ancoragem. Fluxos de trabalho convencionais focam em um único alvo ou sequência. Em alguns casos, um fluxo de trabalho convencional considera múltiplas instâncias de um receptor, mas essas são baseadas na mesma sequência. Cada das instâncias tem diferentes coordenadas tridimensionais geradas a partir de NMR ou simulações da Dinâmica Molecular.
[00151] Os modelos estruturais usados no processo da figura 2 podem variar de um para o outro pela inserção, deleção, ou substituição nos modelos de um ou mais resíduos de aminoácido em posições associadas com o sítio ativo ou com alguma outra posição na sequência da enzima. Modelos estruturais podem ser criados por várias técnicas. Em uma modalidade, eles são criados por modelamento de homologia.
[00152] Com as restrições de atividade e modelos estruturais no lugar, o sistema de triagem de proteína virtual interage com as variantes que foram selecionadas para consideração. Controle da iteração é ilustrado por um bloco 205, que indica que a enzima variante seguinte em consideração é selecionada para análise. Esta operação e as demais operações da figura 2 podem ser implementadas por software ou lógica digital.
[00153] Para a enzima variante atualmente em consideração, o sistema de triagem de proteína virtual primeiro tenta ancorar o substrato desejado no sítio ativo do variante. Vide bloco 207. Este processo pode corresponder a um procedimento de ancoragem convencional. Portanto, um ancorador pode ser empregada para determinar se o substrato é ou não capaz de ancoragem com sítio ativo na variante. Esta decisão está representada em um bloco 209. Note que o substrato desejado é algumas vezes diferente do substrato nativo, que pode ter sido usado para gerar as restrições.
[00154] Se o sistema de triagem de proteína virtual determinar que é improvável que o ancoragem seja bem sucedido, o controle do processo é direcionado para um bloco 220, onde o sistema determina se existe qualquer variantes adicional a considerar. Se não existem variantes adicionais a considerar, o processo é completado com uma operação opcional 223, como indicado. Se, por outro lado, uma ou mais variantes tiverem que continuar ser consideradas, o controle do processo é direcionado de volta para a etapa de processamento 205 onde a variante seguinte para consideração é selecionada. Esta variante é então avaliada quanto à sua capacidade de ancorar o substrato em consideração como anteriormente descrito com referência aos blocos 207 e 209.
[00155] Se acontecer que a variante em consideração possa ancorar com sucesso com o substrato, controle do processo é direcionado para uma porção do algoritmo onde múltiplas posturas são consideradas e cada qual avaliada quanto à atividade. Como descrito a seguir, esta análise está representada pelos blocos 211, 213, 215 e 217.
[00156] Como mostrado, o processo interage em múltiplas posturas disponíveis. Em várias modalidades, um ancorador ajuda selecionar as posturas. Como explicado, ancoradores podem gerar inúmeras posturas de um substrato em um sítio ativo. Pode também classificar as posturas com base em um ou mais critérios tais como pontuação do ancoragem, considerações energéticas, etc. Energia total e/ou energia de interação pode ser considerada, como descritas em algum lugar aqui. Independentemente de como posturas são geradas e/ou classificadas, o fluxo de trabalho pode ser configurado para considerar um número especificado de posturas. O número de posturas a ser consideradas pode ser estabelecido arbitrariamente. Em uma modalidade, pelo menos cerca das 10 posturas superiores são consideradas. Em uma outra modalidade, pelo menos cerca de 20 posturas são consideradas, ou pelo menos cerca de 50 posturas, ou pelo menos cerca de 100 posturas. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de posturas.
[00157] Como representado no bloco 211, o processo seleciona a postura seguinte para análise. A postura atualmente selecionada é então avaliada contra as restrições identificadas no bloco 201, para determinar se a postura é uma postura ativa. Como explicado, tais restrições podem ser restrições geométricas que determinam se uma ou mais frações do substrato estão localizadas dentro do sítio ativo, de maneira tal que o substrato provavelmente passa por uma transformação catalítica desejada.
[00158] Se a avaliação conduzida no bloco 213 indicar que a postura atual não é uma postura ativa, o sistema de triagem de proteína virtual então determina se existe qualquer postura adicional a considerada para a variante atual em consideração. Vide bloco 215. Considerando que existem mais posturas a considerar, o controle do processo é direcionado de volta para o bloco 211, onde a postura seguinte é considerada.
[00159] Considerando que o sistema de triagem de proteína virtual determina no bloco 213 que a postura em consideração é ativa, ele anota esta postura para consideração posterior. Vide bloco 217. Em algumas modalidades, o sistema de triagem de proteína virtual pode manter um registro corrente do número de posturas ativas para a variante atualmente em consideração.
[00160] Depois de anotar apropriadamente que a postura atual é ativa, o controle do processo é direcionado para bloco 215, onde o sistema de triagem de proteína virtual determina se existe alguma postura adicional a considerar. Depois de repetir a consideração de todas as posturas disponíveis para a variante em consideração, o sistema de triagem de proteína virtual determina que não existem posturas adicionais a considerar e o controle do processo é direcionado para um bloco 218, que caracteriza a probabilidade da atividade da variante atual. Caracterização pode ser feita por várias técnicas, incluindo, mas não se limitando ao número de posturas ativas e pontuações do ancoragem associadas para a variante em consideração e outras considerações como descrito aqui. Depois que a operação de bloco 218 é completada, o controle do processo é direcionado para operação de decisão 220, que determina se existe qualquer variantes adicional a considerar. Se existirem variantes adicionais a considerar, o controle do processo é retornado para o bloco 205, onde o fluxo de trabalho continua como anteriormente descrito.
[00161] Depois de considerar todas as variantes no fluxo de trabalho, o sistema de triagem de proteína virtual pode classificá-las com base em um ou mais critérios, tal como o número de posturas ativas que as variantes têm, uma ou mais pontuações do ancoragem das posturas ativas e/ou uma ou mais energias de ligação das posturas ativas. Vide bloco 223. Somente as posturas identificadas como posturas ativas (bloco 217) precisam ser avaliadas na realização da classificação de bloco 223. Desta maneira, as operações no fluxo de trabalho servem para filtrar posturas inativas de posturas ativas e economizar esforço computacional associado com classificação das variantes. Embora não mostrado na figura 2, variantes podem ser selecionadas para investigação adicional com base em suas classificações.
[00162] Em certas modalidades, um protocolo para calcular energias de ligação é executado para avaliar a energética de cada postura ativa de uma variante. Em algumas implementações, o protocolo pode considerar força de van der Waals, interação eletrostática e energia de solvatação. Solvatação tipicamente não é considerada em cálculos feitos por ancoradores. Vários modelos de solvatação são disponíveis para calcular energias de ligação, incluindo, mas não se limitando a dielétricos dependentes da distância, Born Generalizado com somatório em pares (GenBorn), Born Generalizado com Membrana Implícita (GBIM), Born Generalizado com Interrogação do Volume Molecular (GBMV), Born Generalizado com uma mudança simples (GBSW), e a equação de Poisson-Boltzmann com área superficial não polar (PBSA). Protocolos para calcular energias de ligação são diferentes ou separados dos programas de ancoradores. Eles geralmente produzem resultados que são mais precisos que pontuações do ancoragem, em parte, por causa da inclusão de efeitos de solvatação em seus cálculos. Em várias implementações, energias de ligação são calculadas somente para posturas que são consideradas ativas.
A. Geração de Modelos de Múltiplas Biomoléculas cada qual Contendo um Sítio Ativo
[00163] Um sistema de computador pode prover modelos tridimensionais para uma pluralidade de variantes de proteína. Os modelos tridimensionais são representações computacionais de algumas ou todas as variantes de sequências de comprimentos totais da proteína. Tipicamente, no mínimo, as representações de computação cobrem pelo menos as variantes dos sítios ativos da proteína.
[00164] Em alguns casos, os modelos tridimensionais são modelos de homologia preparados usando um sistema de computador devidamente projetado. Os modelos tridimensionais empregam um molde estrutural no qual as variantes de proteína variam de uma para a outra em suas sequências de aminoácido. Em geral, um molde estrutural é uma estrutura previamente resolvida por cristalografia de raios-X ou NMR para uma sequência que é homóloga à sequência do modelo. A qualidade do modelo de homologia depende da identidade da sequência e resolução do molde da estrutura. Em certas modalidades, os modelos tridimensionais podem ser armazenados em uma base de dados para uso de acordo com a necessidade para projetos atuais ou futuros.
[00165] Modelos tridimensionais das variantes de proteína podem ser produzidos por técnicas sem ser modelamento de homologia. Um exemplo é encadeamento de proteína, que também exige um molde da estrutura. Um outro exemplo é modelamento de proteína ab initio ou de novo que não exige um molde da estrutura e é com base em princípios físicos fundamentais. Exemplos de técnicas ab initia incluem Simulações da Dinâmica Molecular e simulações usando a suíte do software Rosetta.
[00166] Em algumas modalidades, as variantes de proteína variam de uma para a outra em seus sítios ativos. Em alguns casos, os sítios ativos diferem um do outro em pelo menos uma mutação na sequência de aminoácido do sítio ativo. A(s) mutação(s) pode(m) ser feitas em uma sequência de proteína tipo selvagem ou alguma outra sequência de referência de proteína. Em alguns casos, duas ou mais das variantes de proteína compartilham a mesma sequência de aminoácido para o sítio ativo, mas diferem na sequência de aminoácido para uma outra região da proteína. Em alguns casos, duas variantes de proteína diferem uma da outra em pelo menos cerca de 2 aminoácidos, ou pelo menos cerca de 3 aminoácidos, ou pelo menos cerca de 4 aminoácidos. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de diferenças de aminoácidos entre variantes de proteína.
[00167] Em certas modalidades, a pluralidade de variantes inclui elementos de biblioteca produzidos por uma ou mais rodadas de evolução direcionada. Técnicas de geração de diversidade usadas em evolução direcionada incluem embaralhamento genético, mutagênese, recombinação e similares. Exemplos de técnicas de evolução direcionada são descritas na Publicação do Pedido de Patente U.S. No. 2006/0223143, que está aqui incorporada pela referência na sua íntegra.
[00168] Em alguns processos implementados, a pluralidade de variantes inclui pelo menos cerca de dez variantes diferentes, ou pelo menos cerca de 100 diferentes variantes, ou pelo menos cerca de mil diferentes variantes. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de variantes de proteína.
B. Avaliação de um Ligante em Múltiplas Diferentes Variantes de Proteína
[00169] Como explicado aqui, ancoragem é conduzido por um sistema de computador devidamente programado que usa uma representação computacional de um ligante e representações computacionais dos sítios ativos da pluralidade gerada de variantes.
[00170] Como um exemplo, um ancorador pode ser configurada para realizar algumas ou todas as operações seguintes: 1. Gerar um conjunto de conformações de ligante usando dinâmica molecular de alta temperatura com sementes aleatórias. O ancorador pode gerar tais conformações sem consideração ao ambiente do ligante. Consequentemente, o ancorador pode identificar conformações favoráveis considerando somente deformação interna ou outras considerações específicas do ligante sozinho. O número de conformações a ser geradas pode ser estabelecido arbitrariamente. Em uma modalidade, pelo menos cerca de 10 conformações são geradas. Em uma outra modalidade, pelo menos cerca de 20 conformações são geradas, ou pelo menos cerca de 50 conformações, ou pelo menos cerca de 100 conformações. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de conformações. 2. Gerar orientações aleatórias das conformações transladando o centro do ligante para uma localização especificada dentro do sítio ativo do receptor, e realizando uma série de rotações aleatórias. O número de orientações para refinar pode ser estabelecido arbitrariamente. Em uma modalidade, pelo menos cerca de 10 orientações são geradas. Em uma outra modalidade, pelo menos cerca de 20 orientações são geradas, ou pelo menos cerca de 50 orientações, ou pelo menos cerca de 100 orientações. Entretanto, não se pretende que a presente invenção seja limitada a nenhum número específico de orientações. Em certas modalidades, o ancorador calcula uma energia “amaciada” para gerar adicionalmente combinações de orientação e conformação. O ancorador calcula energia amaciada usando suposições fisicamente irrealísticas a respeito da permissibilidade de certas orientações em um sítio ativo. Por exemplo, o ancorador pode assumir que átomos de ligante e sítio ativo átomos podem ocupar essencialmente o mesmo espaço, que é impossível com base em repulsão de Pauli e considerações estéricas. Esta suposição amaciada pode ser implementada, por exemplo, empregando uma forma relaxada do potencial de Lennard-Jones durante exploração do espaço de conformação. Usando um cálculo da energia amaciada, o ancorador permite uma exploração mais completa de conformações do que disponível usando considerações de energia fisicamente realísticas. Se a energia amaciada de uma conformação em uma orientação particular for menor que um limiar especificado, a conformação-orientação é mantida. Essas conformações de baixa energia são retidas como “posturas”. Em certas implementações, este processo continua até que tanto um número desejado de posturas de baixa energia seja encontrado, quanto um número máximo de posturas ruins seja encontrado. 3. Submeter cada postura retida da etapa 2 a dinâmica molecular de anelamento simulado para refinar a postura. A temperatura é aumentada até um alto valor então resfriada até a temperatura visada. O ancorador pode fazer isto para prover uma orientação e/ou conformação fisicamente mais realística do que é provida pelo cálculo da energia amaciada. 4. Realizar uma minimização final do ligante no receptor rígido usando potencial não amaciado. Isto provê um valor de energia mais preciso para as posturas retidas. Entretanto, o cálculo pode prover informação apenas parcial a respeito das energias das posturas. 5. Para cada postura final, calcular a energia total (energia de interação receptor-ligante mais deformação interna do ligante) e a energia de interação sozinha. O cálculo pode ser feito usando CHARMm. As posturas são classificadas por CHARMm energia e as posturas com pontuações superiores (mais negativas, assim favoráveis a ligação) são retidas. Em algumas modalidades, esta etapa (e/ou etapa 4) remove posturas que são energeticamente desfavoráveis.
[00171] A referência seguinte provê um exemplo de um funcionamento de ancorador: Wu et al., Detailed Analysis of Grid-Based Molecular Docking: A Case Study of CDOCKER - A CHARMm-Based MD Docking Algorithm, J. Computational Chem., Vol. 24, No. 13, pp 1549-62 (2003), que está aqui incorporado pela referência na sua íntegra.
[00172] Um ancorador tal como a descrita aqui pode prover um ou mais peças de informação usadas pelo sistema de triagem para identificar variantes de alto desempenho. Tal informação inclui a identidade de variantes para as quais ancoragem com o substrato desejado é improvável. Tais variantes não precisam ser avaliadas quanto à atividade, etc. Outra informação provida pelo ancorador inclui conjuntos de posturas (um conjunto para cada variante) que podem ser considerados para a atividade. Ainda outra informação inclui pontuações do ancoragem das posturas nos conjuntos. C. Determinar Se Posturas do Ligante Ancorado São Ativas
[00173] Para uma variante de proteína que ancora com sucesso com o ligante, o sistema de triagem de proteína virtual realiza as seguintes operações: (i) considera uma pluralidade de posturas da representação computacional do ligante no sítio ativo da variante de proteína em consideração, e (ii) determina qual, se houver, da pluralidade de posturas está ativa.
[00174] Uma postura ativa é uma que atende a uma ou mais restrições para o ligante se ligar em condições definidas (em vez de uma condição de ligação arbitrária). Se o ligante for um substrato e a proteína for uma enzima, ligação ativa pode ser ligação que permite o substrato passar por uma transformação química catalisada, particularmente uma transformação estereoespecífica. Em algumas implementações, as restrições são restrições geométricas definindo uma faixa de posições relativas de um ou mais átomos no ligante e um ou mais átomos na proteína e/ou cofator associado com a proteína.
[00175] Em alguns casos, restrições são identificadas a partir de uma ou mais conformações de um substrato nativo e/ou intermediário subsequente quando ele passar por uma transformação química catalisada por uma enzima tipo selvagem. Em certas modalidades, as restrições incluem (i) uma distância entre uma fração particular no substrato e/ou intermediário subsequente e um resíduo particular ou fração de resíduo no sítio ativo, (ii) uma distância entre uma fração particular no substrato e/ou intermediário subsequente e um cofator particular no sítio ativo, e/ou (iii) uma distância entre uma fração particular no substrato e/ou intermediário subsequente e uma fração particular em um substrato nativo idealmente posicionado, e/ou intermediário subsequente no sítio ativo. Em certas modalidades, as restrições podem incluir ângulos entre ligações químicas, torção em torno de eixos, ou deformação nas ligações químicas.
[00176] A pluralidade de posturas da representação computacional do substrato e/ou intermediário subsequente pode ser gerada com relação a uma representação computacional da variante de proteína em consideração. A pluralidade de posturas pode ser gerada por várias técnicas. Exemplos gerais de tais técnicas incluem buscas torsionais sistemáticas ou estocásticas a respeito de ligações rotacionáveis, simulações da dinâmica molecular e algoritmos genéticos projetados para localizar conformações de baixa energia. Em um exemplo, as posturas são geradas usando dinâmica molecular de alta temperatura, seguida por rotação aleatória, refinamento por anelamento simulada com base em grelha, e uma maximização baseada em rede final ou campo de força para gerar uma conformação e/ou orientação do substrato e/ou intermediário subsequente na representação computacional sítio ativo. Algumas dessas operações são opcionais, por exemplo, refinamento por anelamento simulada com base em grelha, e maximização baseada em rede ou campo de força.
[00177] Em certas modalidades, o número de posturas consideradas é pelo menos cerca de 10, ou pelo menos cerca de 20, ou pelo menos cerca de 50, ou pelo menos cerca de 100, ou pelo menos cerca de 200, ou pelo menos cerca de 500. Entretanto, não se pretende que a presente invenção seja limitada a um número específico de posturas consideradas.
[00178] Se o projeto for bem sucedido, é determinada que pelo menos uma das variantes tem uma ou mais posturas que são ativas e energeticamente favoráveis. Em certas modalidades, uma variante selecionada para consideração adicional é uma determinada com grandes números de conformações ativas em comparação com outras variantes. Em certas modalidades, as variantes são selecionadas classificando as variantes com base no número de posturas ativas que elas têm, uma ou mais pontuações do ancoragem para as posturas ativas e/ou uma ou mais energias de ligação das posturas ativas. Como exemplos, os tipos de pontuações do ancoragem que pode ser considerados incluem pontuações com base em força de van der Waals e/ou interação eletrostática. Como exemplos, os tipos de energias de ligação que podem ser consideradas incluem força de van der Waals, interação eletrostática e energia de solvatação.
[00179] Uma variante de proteína determinada para suportar uma ou mais posturas ativas pode ser selecionada para investigação adicional, síntese, produção, etc. Em um exemplo, uma variante de proteína selecionada é usada para semear uma ou mais rodadas de evolução direcionada. Como um exemplo, uma rodada de evolução direcionada pode incluir (i) preparar uma pluralidade de oligonucleotídeos contendo ou codificando pelo menos uma porção da variante de proteína selecionada, e (ii) realizar uma rodada de evolução direcionada usando a pluralidade de oligonucleotídeos. Os oligonucleotídeos podem ser preparados por qualquer meio adequado, incluindo, mas não se limitando a síntese genética, fragmentação de um ácido nucléico que codifica algumas ou todas as variantes de proteína selecionadas, etc. Em certas modalidades, a rodada de evolução direcionada inclui fragmentar e recombinar a pluralidade de oligonucleotídeos. Em certas modalidades, a rodada de evolução direcionada inclui realizar mutagênese por saturação na pluralidade de oligonucleotídeos
[00180] Transformações químicas catalisadas que podem ser triadas usando restrições incluem, mas não se limitando, por exemplo, a redução de cetona, transaminação, oxidação, hidrólise de nitrila, redução de imina, redução de enona, hidrólise de acila, e dealogenação de haloidrina. Exemplos de classes de enzima que podem prover múltiplas variantes avaliadas usando restrições incluem, mas não se limitando a: cetona redutases, transaminases, citocromo P450s, mono-oxigenase de Baeyer-Villigers, monoamina oxidases, nitrilases, imina redutases, enona redutases, acrilases, e haloidrina dealogenases. No contexto de projeto de ligante racional, otimização de inibição covalente alvejada (TCI) é um tipo de atividade que pode ser triada usando restrições. Um exemplo de uma aplicação de TCI é descrita em Singh et al., The resurgence of covalent drugs, Nature Reviews Drug Discovery, vol. 10, pp. 307-317 (2011), que está aqui incorporado pela referência na sua íntegra. Em algumas implementações, a atividade TCI é encontrada identificando um aminoácido nucleofílico (por exemplo, cisteína) em uma proteína. O processo descrito aqui pode ajudar identificar inibidores que satisfazem restrições definindo uma orientação ideal de uma fração eletrofílica importante para a inibição (um inibidor putativo) que pode reagir com a biomolécula a ser inibida.
III. USO DO SISTEMA DE TRIAGEM DE PROTEÍNA VIRTUAL PARA PROJETAR ENZIMAS
[00181] Algumas modalidades proveem processos para virtualmente modelar e triar enzimas usando um sistema de triagem de proteína virtual, para por meio disto identificar enzimas tendo propriedades desejadas, por exemplo, atividade catalítica e seletividade. Em algumas modalidades, uma família de enzimas reais pode ser virtualmente modelada e triada como uma biblioteca de variante inicial. Algumas modalidades usam iterativamente uma ou mais enzimas selecionadas por triagem virtual da biblioteca inicial como polipeptídeos pais ou sequências de referências para gerar uma nova biblioteca de variante por técnicas in silico, in vitro, ou in vivo. Em algumas modalidades, uma ou mais enzimas altamente classificadas pelo sistema como descrito aqui são selecionadas como polipeptídeo(s) pai(s). A nova biblioteca de variante inclui sequências de proteínas que são diferentes das sequências dos polipeptídeos pais e/ou podem ser usadas como precursores para introduzir subsequente(s) variação(s).
[00182] Em algumas modalidades, os polipeptídeos pais são modificados em um procedimento de evolução direcionada realizando o mutagênese e/ou um mecanismo de geração de diversidade com base em recombinação para gerar a nova biblioteca de variantes de proteína. Em algumas modalidades, os polipeptídeos pais são alterados por pelo menos uma substituição, inserção, cruzamento, deleção e/ou outra operação genética. A evolução direcionada pode ser implementada diretamente nos polipeptídeos (por exemplo, em um processo in silico) ou indiretamente nos ácidos nucleicos que codificam os polipeptídeos (por exemplo, em um processo in vitro). A nova biblioteca pode ser usada para gerar novos modelos de homologia para triagem e evolução direcionada adicional.
[00183] Em algumas modalidades, o modelamento, triagem e evolução de enzimas são realizadas iterativamente in silico até que uma ou mais enzimas que satisfazem certos critérios sejam encontradas. Por exemplo, os critérios podem ser uma energia ou pontuação de ligação especificada, ou uma melhoria da mesma. Outras modalidades podem combinar técnicas in silico e físicas (por exemplo, in vitro ou in vivo). Por exemplo, é possível começar um processo de projeto de enzima usando enzimas derivadas por triagem e sequenciamento in vitro. Sequenciamento In vitro pode ser feito por sequenciamento de nova geração. Então, a processo de projeto de enzima pode usar métodos in silico para evolução direcionada, modelamento e triagem adicional. O processo pode finalmente usar técnicas in vitro e/ou in vivo para validar uma enzima em um sistema biológico. Outras combinações e ordens de técnicas in silico e físicas são adequadas para várias aplicações. Certamente, não se pretende que a presente invenção seja limitada a nenhuma combinação e/ou ordem específica de métodos.
[00184] Em algumas modalidades, preparação de sequências de polipeptídeos é conseguida in silico. Em outras modalidades, polipeptídeos são gerados sintetizando oligonucleotídeos ou sequência de ácidos nucleicos usando um sintetizador de ácido nucléico e traduzindo as sequências de nucleotídeos para obter os polipeptídeos.
[00185] Como anteriormente declarado, em algumas modalidades, a enzima selecionada pode ser modificada realizando um ou mais mecanismos de geração de diversidade baseados em recombinação para gerar a nova biblioteca de variantes de proteína. Tais mecanismos de recombinação incluem, mas não se limitando, por exemplo, a embaralhamento, mudança de molde, Montagem Genética por Extensão de Sobreposição, PCR propensa a erro, bibliotecas combinatoriais semissintéticas de resíduos, recombinação de sequência recursiva (“RSR”) (Vide, por exemplo, Publicação do Pedido de Patente U.S. No. 2006/0223143, incorporada pela referência aqui em sua íntegra). Em algumas modalidades, alguns desses mecanismos de recombinações podem ser implementados in vitro. Em algumas modalidades, alguns desses mecanismos de recombinação podem ser implementados computacionalmente in silico para imitar os mecanismos biológicos.
[00186] Algumas modalidades incluem selecionar uma ou mais posições em uma sequência de proteína e conduzir métodos de mutações direcionados para o sítio tal como mutagênese por saturação em uma ou mais posições assim selecionadas. Em algumas modalidades, as posições são selecionadas avaliando a estrutura do sítio ativo e/ou restrições relacionadas com a reação catalítica como discutido em algum lugar no documento. Combinar triagem virtual com modelamento de sequência-atividade encontra uso em algumas modalidades. Nessas modalidades, o processo de evolução direcionada pode selecionar as posições avaliando os coeficientes dos termos de um modelo de sequência-atividade, por meio disto identificando um ou mais de resíduos que contribuem para a atividade de interesse. Patente U.S. No. 7.783.428 (aqui incorporada pela referência na sua íntegra) provê exemplos de modelos de atividade de sequência que podem ser usados para identificar aminoácidos para mutagênese.
[00187] Em algumas modalidades, o método envolve selecionar um ou mais elementos da nova biblioteca de variante de proteína para produção. Um ou mais dessas variantes podem então ser sintetizadas e/ou expressas em um sistema de expressão. Em uma modalidade específica, o método continua da seguinte maneira: (i) prover um sistema de expressão do qual um elemento selecionado da nova biblioteca de variante de proteína pode ser expresso; e (ii) expressar o elemento selecionado da nova biblioteca de variante de proteína.
[00188] Figuras 3A-3C são fluxogramas mostrando exemplos de fluxos de trabalho para projetar sequências de biomolécula, que implementam várias combinações de elementos descritos em algum lugar aqui. Figura 3A mostra um fluxograma para um processo 300 que começa recebendo informação de sequência de múltiplos sequências de partida de um painel de biomoléculas, tal como um painel de enzimas. Vide bloco 302. O processo então realizar uma triagem virtual das sequências atualmente recebidas usando um sistema de triagem de proteína virtual. Vide bloco 304. Em algumas modalidades, o sistema de triagem de proteína virtual pode criar modelos de homologia tridimensionais das sequências de partida, e ancorar um ou mais substratos com os modelos de homologia considerando posturas dos substratos como anteriormente descrito, por meio disto gerando pontuações do ancoragem para as sequências de partida. O sistema de triagem de proteína virtual pode também calcular energia de interação e energia interna dos participantes do ancoragem (a enzimas e os substratos). Além disso, o sistema de triagem de proteína virtual pode avaliar várias restrições de posturas para determinar se as posturas são ativas, isto é, os substratos se ligam com a enzima de uma maneira que provavelmente causará uma conversão catalítica do substrato. Além disso, em algumas modalidades, avaliação das restrições também provê inferência com relação se os produtos da reação catalítica são enantiosseletivos e/ou regiosseletivos. Em algumas modalidades, o processo seleciona uma ou mais sequências com base na energia de ligação, atividade e seletividade determinadas pelo sistema de triagem virtual. Vide bloco 306. O processo então avalia se é necessário conduzir investigação adicional das sequências selecionadas na etapa 308. Se for, o processo neste exemplo muda computacionalmente as sequências selecionadas. As mutações são baseadas nos vários mecanismos de geração de diversidade supradescritos, tal como mutagênese ou recombinação. Vide bloco 310. As sequências computacionalmente mutadas são então providas para uma nova rodada de triagem virtual pelo sistema de triagem de proteína virtual. Vide bloco 304. A triagem e seleção virtual podem continuar com iterações, até que nenhuma investigação adicional de sequências sejam necessárias, que pode ser determinado por critérios pré-estabelecidos como um número específico de iterações e/ou um nível particular de atividade desejada. Em cujo ponto, o processo de projetar biomoléculas (por exemplo, enzimas) é acabado na etapa 312.
[00189] Figura 3B mostra um fluxograma para um processo 320 para evolução direcionada de biomoléculas tais como enzimas, cujo processo tem alguns elementos similares e um pouco diferentes comparados como o processo de 300. O processo 320 começa por síntese in vitro de múltiplas sequências de partida de biomoléculas (por exemplo, enzimas), que podem ser necessárias ou úteis quando um painel pré-existente de biomoléculas não estiver disponível. Vide bloco 322. As sequências sintetizadas podem também ser ensaiadas para coletar dados para as sequências, cujos dados podem ser úteis para projetar biomoléculas de propriedades desejadas, nas quais dados não podem ser obtidos pelo sistema de triagem virtual. O processo então realiza uma triagem virtual das sequências sintetizadas usando um sistema de triagem de proteína virtual, representado no bloco 324, que é similar à etapa 304 no processo 300. O processo então seleciona uma ou mais sequências com base na energia de ligação, atividade, e seletividade determinadas pelo sistema de triagem virtual. Vide bloco 326. O processo então avalia se é necessário realizar adicionalmente evolução direcionada das sequências selecionadas na etapa 328. Se for, o processo, neste exemplo, muda as sequências selecionadas in silico ou in vitro. As mutações são baseadas nos vários mecanismos de geração de diversidade supradescritos. Vide bloco 330. As sequências mutadas são então providas para uma nova rodada de triagem virtual pelo sistema de triagem de proteína virtual. Vide bloco 324. A triagem e seleção virtual podem continuar com iterações, até que nenhuma evolução adicional de sequências seja necessária, que pode ser determinado critérios pré-estabelecidos tal como um número específico de iterações e/ou um nível particular de atividade desejada. Em cujo ponto, as sequências selecionadas pelo sistema de triagem virtual são sintetizadas e expressas para produzir enzimas reais. Vide bloco 332. As enzimas produzidas podem ser ensaiadas quanto às atividades de interesse, que podem ser usadas para validar os resultados do processo de triagem virtual. Vide bloco 334. Depois do ensaio, o processo de evolução direcionada é concluído na etapa 336.
[00190] Figura 3C mostra um fluxograma para um processo 340 para evolução direcionada de biomoléculas tal coma enzimas. Processo 340 starts by evolução direcionada in vitro para derivar múltiplos sequências de partida de biomoléculas (por exemplo, enzimas). Vide bloco 342. Como no processo 320, as sequências derivadas são ensaiadas para determinar se as sequências atendem certos critérios, tal como atividade ou seletividade desejada. Sequências que atendem os critérios são determinadas como acertos para desenvolvimento adicional. Vide bloco 344. O processo então realiza uma triagem virtual dos acertos usando um sistema de triagem de proteína virtual, representado no bloco 346, que é similar à etapa 304 no processo 300. Em algumas modalidades, o processo também seleciona uma ou mais sequências com base na energia de ligação, atividade e seletividade determinadas pelo sistema de triagem virtual como anteriormente descrito. O processo então avalia se é necessário realizar rodada adicional de evolução direcionada das sequências selecionadas na etapa 348. Se for, o processo provê as sequências selecionadas para uma rodada adicional de evolução direcionada in vitro em uma nova iteração, Vide bloco 342. A triagem e seleção virtual podem continuar para iterações, até que nenhuma evolução adicional de sequências seja necessária, que pode ser determinado por critérios pré-estabelecidos. Em cujo ponto, o processo de projetar biomoléculas (por exemplo, enzimas) termina na etapa 350.
IV. GERAÇÃO DE UMA BIBLIOTECA DE VARIANTE DE PROTEÍNA
[00191] Bibliotecas de variantes de proteína compreendem grupos de múltiplas proteínas tendo um ou mais resíduos que variam de elemento para elemento em uma biblioteca. Essas bibliotecas podem ser geradas usando os métodos descritos aqui e/ou qualquer meio adequado conhecido na técnica. Em várias modalidades, essas bibliotecas proveem enzimas candidatas para o sistema de triagem de proteína virtual. Em algumas modalidades, as bibliotecas podem ser providas e triadas in silico em rodadas iniciais, e proteínas resultantes selecionadas pelo sistema de triagem virtual de uma rodada posterior ou final podem ser sequenciadas e/ou triadas in vitro. Por causa das rodadas de triagem iniciais serem feitas in silico, o tempo e custo para triagem pode ser reduzido significativamente. O número de proteínas incluídos em uma biblioteca de variante de proteína pode ser facilmente aumentado nas rodadas de triagem iniciais em algumas implementações comparadas com triagem física convencional. Não se pretende que a presente descrição seja limitada a nenhuma número particular de proteínas na proteína bibliotecas usado nos métodos da presente descrição. Adicionalmente não se pretende que a presente descrição seja limitada a nenhuma biblioteca ou bibliotecas particulares de variante de proteína.
[00192] Em um exemplo, a biblioteca de variante de proteína é gerada a partir de uma ou mais proteínas de ocorrência natural, que podem ser codificadas por uma única família de gene em algumas modalidades, ou um painel de enzimas em outras modalidades. Outros pontos de partidas incluem, mas não se limitando a recombinantes de proteínas conhecida e/ou proteínas sintéticas inédito. A partir dessas proteínas “sementes” ou “de partida”, a biblioteca pode ser gerada por várias técnicas. Em um caso, a biblioteca é gerada por processos virtuais que refletem técnicas biológicas ou químicas, por exemplo, recombinação mediada por fragmentação de DNA descritas em Stemmer (1994) Proceedings of National Academy of Sciences, USA, 1074710751 e WO 95/22625 (ambas as quais estão incorporadas aqui pela referência), recombinação medida por oligonucleotídeo sintético como descrita em Ness et al. (2002) Nature Biotechnology 20:1251-1255 e WO 00/42561 (ambas as quais estão incorporadas aqui pela referência), ou ácidos nucleicos que codificam parte ou todo de uma ou mais proteínas pais. Combinações desses métodos podem ser usadas (por exemplo, recombinação de fragmentos de DNA e oligonucleotídeos sintéticos) bem como outros métodos baseados em recombinação conhecidos na técnica, por exemplo, WO97/20078 e WO98/27230, ambos os quais estão incorporados aqui pela referência. Qualquer método adequado usado para gerar bibliotecas de variantes de proteína encontra uso na presente descrição. Certamente, não se pretende que a presente descrição seja limitada a nenhuma método particular para produzir bibliotecas de variantes.
[00193] Em algumas modalidades, uma única sequência “de partida” (que pode ser uma sequência “ancestral”) pode ser empregada com propósitos de definir um grupo de mutações usado no processo de modelamento. Em algumas modalidades, existe mais que uma sequência de partida. Em algumas modalidades adicionais, pelo menos uma das sequências de partida é uma sequência tipo selvagem. Em certas modalidades, as mutações são (a) identificadas na literatura como afetando a especificidade do substrato, seletividade, estabilidade e/ou qualquer outra propriedade de interesse e/ou (b) computacionalmente prevista para melhorar os padrões de dobra da proteína (por exemplo, empacotamento dos resíduos interiores de uma proteína), melhorar a ligação de ligante, melhorar as interações de subunidades, ou melhorar métodos de embaralhamento de família entre múltiplos diversos homólogos, etc. Não se pretende que a presente invenção seja limitada a nenhuma escolha específica de propriedade(s) de interesse ou função(s).
[00194] Em algumas modalidades, as mutações podem ser virtualmente introduzidas nas sequência de partida e as proteínas podem ser virtualmente triadas quanto às propriedades benéficas. Mutagênese direcionada para o sítio é um exemplo de uma técnica útil para introduzir mutações, embora qualquer método adequado encontre uso. Assim, alternativamente, ou adicionalmente, os mutantes podem ser providos por síntese genética, mutagênese aleatória por saturação, bibliotecas combinatoriais semissintéticas de resíduos, evolução direcionada, recombinação de sequência recursiva (“RSR”) (Vide, por exemplo, Publicação do Pedido de Patente U.S. No. 2006/0223143, incorporada pela referência aqui em sua íntegra), embaralhamento genético, PCR propensa a erro, e/ou qualquer outro método adequado. Um exemplo de um procedimento de mutagênese por saturação adequado é descrito na Publicação do Pedido de Patente U.S. No. 2010/0093560, que está aqui incorporado pela referência na sua íntegra.
[00195] O sequência de partida não precisa ser idêntica à sequência de aminoácido de uma proteína tipo selvagem. Entretanto, em algumas modalidades, a sequência de partida é a sequência de uma proteína tipo selvagem. Em algumas modalidades, a sequência de partida inclui mutações não presentes na proteína tipo selvagem. Em algumas modalidades, a sequência de partida é uma sequência de consenso derivada de um grupo de proteínas tendo uma propriedade comum, por exemplo, uma família de proteínas.
[00196] Em algumas modalidades, transformações químicas catalisadas que podem ser triadas usando o sistema de triagem virtual incluem, mas se limitar, por exemplo, a redução de cetona, transaminação, oxidação, hidrólise de nitrila, redução de imina, redução de enona, hidrólise de acila, e dealogenação de haloidrina. Exemplos de classes de enzima que podem prover múltiplas variantes avaliadas incluem, mas não se limitando a cetona redutases, transaminases, citocromo P450s, mono-oxigenases de Baeyer-Villiger, monoamina oxidases, nitrilases, imina redutases, enona redutases, acrilases, e haloidrina dealogenases.
[00197] Uma lista representativa não limitante de famílias ou classes de enzimas que podem servir como fontes de sequências pais inclui, mas não se limitando ao seguinte: oxidoredutases (E.C.1); transferases (E.C.2); hidroliases (E.C.3); liases (E.C.4); isomerases (E.C.5) e ligases (E.C. 6). Subgrupos mais específicos, mas não limitantes, de oxi-redutases incluem deidrogeniases (por exemplo, álcool deidrogenases (carbonoil redutases), xilulose redutases, aldeido redutases, farnesol deidrogenase, lactato deidrogenases, arabinose deidrogenases, glicose deidrogenase, fructose deidrogenases, xilose redutases e succinato deidrogenases), oxidases (por exemplo, glicose oxidases, hexose oxidases, galactose oxidases e laccases), monoamina oxidases, lipoxigenioases, peroxidases, aldeido deidrogenases, redutases, acil-[acil-carreador-proteína] redutases de cadeia longa, acil-CoA deidrogenases, ene-redutases, sintases (por exemplo, glutamato sintases), nitrato redutases, mono e di-oxigenioases, e catalases. Subgrupos mais específicos, mas não limitantes, de transferases incluem metil, amidino, e carboxil transferases, transcetolases, transaldolases, aciltransferases, glicosiltransferases, transaminases, transglutaminases e polimerases. Subgrupos mais específicos, mas não limitantes, de hidrolases incluem éster hidrolases, peptidases, glicosilases, amilases, celulases, hemicelulases, xilanases, quitinases, glucosidases, glucanases, glucoamilases, acrilases, galactosidases, pululanases, fitases, lactases, arabinosidases, nucleosidases, nitrilases, fosfatases, lipases, fosfolipases, proteases, ATPases, e dealogenases. Subgrupos mais específicos, mas não limitantes, de liases incluem decarboxilases, aldolases, hidratases, deidratases (por exemplo, anidrases carbônicas), sintases (por exemplo, isopreno, pineno e farneseno sintases), pectinases (por exemplo, pectina liases) e haloidrina deidrogenases. Subgrupos mais específicos, mas não limitantes, de isomerases incluem racemases, epimerases, isomerases (por exemplo, xilose, arabinose, ribose, glicose, galactose e manose isomerases), tautomerases, e mutases (por exemplo, mutases de transferência de acil, fosfomutases, e aminomutases. Subgrupos mais específicos, mas não limitantes, de ligases incluem éster sintases. Outras famílias ou classes de enzimas que podem ser usadas como fontes de sequências pais incluem transaminases, proteases, quinases, e sintases. Esta lista, embora ilustrando certos aspectos específicos das possíveis enzimas da descrição, não é considerada exaustiva e não retrata as restrições ou circunscreve o escopo da descrição.
[00198] Em alguns casos, as enzimas candidata úteis nos métodos descritos aqui são capazes de catalisar uma reação enantiosseletiva tal como uma reação de redução enantiosseletiva, por exemplo. Tais enzimas podem ser usadas para produzir intermediários úteis na síntese de compostos farmacêuticos, por exemplo.
[00199] Em algumas modalidades, as enzimas candidatas são selecionadas de endoxilanases (EC 3.2.1.8); β-xilosidases (EC 3.2.1.37); alfa- L-arabinofuranosidases (EC 3.2.1.55); alfa-glucuronidases (EC 3.2.1.139); acetilxilanesterases (EC 3.1.1.72); feruloil esterases (EC 3.1.1.73); coumaroil esterases (EC 3.1.1.73); alfa-galactosidases (EC 3.2.1.22); beta-galactosidases (EC 3.2.1.23); beta-mananases (EC 3.2.1.78); beta-manosidases (EC 3.2.1.25); endo-poligalacturonases (EC 3.2.1.15); pectin metil esterases (EC 3.1.1.11 ); endo-galactanases (EC 3.2.1.89); pectin acetil esterases (EC 3.1.1.6); endo-pectin liases (EC 4.2.2.10); pectate liases (EC 4.2.2.2); alfa ramnosidases (EC 3.2.1.40); exo-poli-alfa-galacturonosidase (EC 3.2.1.82); 1,4-alfa-galacturonidase (EC 3.2.1.67); exopoligalacturonate liases (EC 4.2.2.9); rhamnogalacturonan endoliases EC (4.2.2.B3); ramnogalacturonan acetilesterases (EC 3.2.1.B11); ramnogalacturonan galacturonohidrolases (EC 3.2.1.B11); endo-arabinanases (EC 3.2.1.99); laccases (EC 1.10.3.2); peroxidases dependente de manganês (EC 1.10.3.2); amilases (EC 3.2.1.1), glucoamilases (EC 3.2.1.3), proteases, lipases, e lignina peroxidases (EC 1.11.1.14). Qualquer combinação de uma, duas, três, quatro, cinco, ou mais que cinco enzimas encontra uso nas composições da presente descrição. Não se pretende que a presente invenção seja limitada a nenhum número particular de enzimas e/ou enzima classes.
[00200] Não se pretende que a presente invenção seja limitada a nenhum método particular para gerar sequências sistematicamente variadas, já que qualquer método adequado encontra uso. Em uma ou mais modalidades da descrição, uma única sequência de partida é modificada de várias maneiras para gerar a biblioteca. Em algumas modalidades, a biblioteca é gerada variando sistematicamente os resíduos individuais da sequência de partida. O conjunto de sequências sistematicamente variadas de uma biblioteca pode ser projetado a priori usando métodos de projeto de experimento (DOE) para definir as sequências no conjunto de dados. Uma descrição de métodos DOE pode ser encontrada em Diamond, W.J. (2001) Practical Experiment Designs: for Engineers and Cientists, John Wiley & Sons e em “Practical Experimental Design for Engineers and Cientists” de William J Drummond (1981) Van Nofita Reinhold Co Nova Iorque, “Statistics for experimenters” George E.P. Box, William G Hunter e J. Stuart Hunter (1978) John Wiley and Sons, New York, ou, por exemplo, na World Wide Web em itl.nist.gov/div898/handbook/. Existem diversos pacotes computacionais disponíveis para realizar as matemáticas relevantes, incluindo Caixas de Ferramentas Estatísticas (MATLAB®), JMP®, STATISTIC®, e STAT- EASY® DESIGN EXPERT®. O resultado é um sistematicamente variado e conjunto de dados dispersos ortogonais de sequências que é adequado para triagem pelo sistema de triagem de proteína virtual descrito aqui. Conjuntos de dados com base em DOE pode também ser facilmente gerado usando tanto projetos de Plackett-Burman quanto Fatorial Fracionado, como conhecidos na técnica. Diamond, W.J. (2001).
[00201] Em virtude de rodadas iniciais de triagem poderem ser feitas in silico com alta eficiência, algumas modalidades podem usar algumas ou todas as sequências disponíveis para prover a biblioteca de variante de proteína quando o número de variantes for normalmente muito grande para que sejam triadas com métodos físicos convencionais. Por exemplo, para uma sequência com 15 posições, cada qual tendo 20 possível aminoácidos, existem 300 possíveis posições vs. pares de aminoácido, e ∑ ∑∑ ;: diferentes sequências variantes. Em algumas implementações, uma biblioteca pode incluir centenas, milhares, dezenas de milhares, centenas de milhares, ou mais variantes deste possível agrupamento dependendo da potência de computação disponível e necessidades de aplicação. Não se pretende que a presente descrição seja limitada a nenhum número particular de variante nas bibliotecas.
V. SequenciamentO DE variantes de proteína
[00202] Em algumas modalidades, variantes de proteína físicas são usadas para gerar modelos computacionais de sítios ativos das variantes de proteína usadas em triagem virtual como anteriormente descrito. Em algumas modalidades, variantes de proteína obtidas de triagem virtual são fisicamente geradas usando vários métodos supradescritos. Em algumas modalidades, as variantes de proteína fisicamente geradas são ensaiadas quanto à sua reação contra um ou mais ligantes de interesse. Em várias modalidades, as sequências das variantes de proteína físicas são certificadas por métodos de sequenciamento de proteína, alguns de cujos métodos são adicionalmente descritos a seguir.
[00203] Sequenciamento de proteína envolve determinar a sequência de aminoácido de uma proteína. Algumas técnicas de sequenciamento de proteína também determinam conformação que a proteína adota, a extensão até a qual ela é complexada com qualquer molécula não peptídeo. Espectrometria de massa e a reação de degradação de Edman podem ser usados para determinar diretamente a sequência de aminoácidos de uma proteína.
[00204] A reação de degradação de Edman permite que a composição de aminoácido ordenada de uma proteína seja descoberta. Em algumas modalidades, sequenciadores de Edman automáticos podem ser usados para determinar a sequência de variantes de proteína. Sequenciadores de Edman automáticos são capazes de sequenciar peptídeos de sequências cada vez maiores, por exemplo, até aproximadamente 50 aminoácidos de comprimento. Em algumas modalidades, um processo de sequenciamento de proteína para implementar degradação de Edman envolve um ou mais dos seguintes:
[00205] --Quebrar as ligações de dissulfeto na proteína com um agente redutor, por exemplo, 2-mercaptoetanol. Um grupo de proteção tal como ácido iodoacético pode ser usado para impedir que as ligações se formem novamente - -Separar e purificar cadeias individuais do complexo de proteína se existir mais de uma - -Determinar a composição de aminoácido de cada cadeia - -Determinar os aminoácidos terminais de cada cadeia - -Quebrar cada cadeia em fragmentos, por exemplo, fragmentos abaixo de 50 aminoácidos de comprimento. - -Separar e purificar os fragmentos - -Determinar a sequência de cada fragmento usando a reação de degradação de Edman - -Repetir as etapas anteriores aplicando um diferente padrão de clivagem para prover leitura(s) adicional(s)de sequências de aminoácido - -Construir a sequência da proteína geral a partir das leituras de sequência de aminoácido
[00206] Em várias implementações, peptídeos maiores que cerca de 50-70 aminoácidos devem ser quebrados em pequenos fragmentos para facilitar sequenciamento por reações de Edman. Digestão de maiores sequências pode ser feita por endopeptidases tal como tripsina ou pepsina, ou por reagentes químicos tal como brometo de cianogênio. Diferentes enzimas dão diferentes padrões de clivagem, e a sobreposição entre fragmentos pode ser usada para construir uma sequência geral.
[00207] Durante a reação de degradação de Edman, o peptídeo a ser sequenciado é adsorvido em uma superfície sólida de um substrato. Em algumas modalidades, um substrato adequado é fibra de vidro revestida com polibreno, um polímero catiônico. O reagente de Edman, fenilisotiocianato (PITC), é adicionado ao peptídeo adsorvido, junto com uma solução tampão moderadamente básica de trimetilamina. Esta solução de reação reage com o grupo amina do Aminoácido N-terminal. O aminoácido terminal pode então ser seletivamente desanexado pela adição de ácido anidro. O derivado então isomeriza para dar uma feniltiodidantoina substituído, que pode ser lavada e identificada por cromatografia. Então o ciclo pode ser repetido.
[00208] Em algumas modalidades, espectrometria de massa pode ser usada para determinar uma sequência de aminoácido determinando as razões massa para carga de fragmentos da sequência de aminoácido. O espectro de massa incluindo picos correspondentes a fragmentos multiplicadamente carregados podem ser determinados, onde a distância entre os picos correspondentes ao isótopo diferente é inversamente proporcional à carga no fragmento. O espectro de massa é analisado, por exemplo, por comparação com uma base de dados de proteínas previamente sequenciadas para determinar as sequências dos fragmentos. Este processo é então repetido com uma diferente enzima de digestão, e as sobreposições nas sequências são usadas para construir uma sequência completa de aminoácido.
[00209] Peptídeos são frequentemente mais fácies de preparar e analisar por espectrometria de massa do que proteínas totais. Em algumas modalidades, ionização por eletroaspersão é usada para dispensar os peptídeos no espectrômetro. A proteína é digerida por uma endoprotease, e a solução resultante é passada através de uma coluna de cromatografia líquida de alta pressão. No final desta coluna, a solução é pulverizada no espectrômetro de massa, a solução sendo carregada com um potencial positivo. A carga nas gotículas da solução faz com que elas se fragmentem em íons individuais. Os peptídeos são então fragmentados e as razões massa para carga dos fragmentos medidas.
[00210] É também possível determinar indiretamente uma sequência de aminoácido a partir da sequência de DNA ou mRNA que codifica a proteína. Métodos de sequenciamento de ácido nucléico, por exemplo, vários métodos de sequenciamento de nova geração, podem ser usados para determinar sequências de DNA ou RNA. Em algumas implementações, uma sequência de proteína é recém-isolada sem conhecimento dos nucleotídeos que codificam a proteína. Em tais implementações, pode-se primeiro determinar uma sequência de polipeptídeo curta usando métodos de sequenciamento de proteína diretos. UM marcador complementar para o RNA da proteína pode ser determinado a partir desta sequência curta. Esta pode então ser usada para isolar o mRNA que codificada para a proteína, que pode então ser replicado em uma reação em cadeia de polimerase para produzir uma quantidade significante de DNA, que pode então ser sequenciada usando métodos de sequenciamento de DNA. A sequência de aminoácido da proteína pode então ser deduzida a partir da sequência de DNA. Na dedução, é necessário levar em conta os aminoácidos removidos depois que o mRNA tiver sido traduzido.
[00211] Em uma ou mais modalidades, sequência de ácidos nucleicos dados pode ser usado em vários estágios no processo de evolução direcionada de proteínas. Em uma ou mais modalidades, dados de sequência podem ser obtidos usando métodos de sequenciamento em massa incluindo, por exemplo, sequenciamento de Sanger ou sequenciamento de Maxam-Gilbert, que são considerados os métodos de sequenciamento da primeira geração. sequenciamento de Sanger, que envolve usar terminadores de cadeia marcados com dideóxi, é bem conhecido na técnica; Vide, por exemplo, Sanger et al., Proceedings of the National Academy of Sciences of the United States of America 74, 5463-5467 (1997). Sequenciamento de Maxam-Gilbert, que envolve realizar múltiplas reações de degradação química parcial em frações da amostra de ácido nucléico seguidas por detecção e análise dos fragmentos para inferir a sequência, é também bem conhecido na técnica; Vide, por exemplo, Maxam et al., Proceedings of the National Academy of Sciences of the United States of America 74, 560-564 (1977). Um outro método de sequenciamento em massa é sequenciamento por hibridização, no qual a sequência de uma amostra é deduzida com base em suas propriedades de hibridização em uma pluralidade de sequências, por exemplo, em um microarranjo ou chip de gene; Vide, por exemplo, Drmanac, et al., Nature Biotechnology 16, 54-58 (1998).
[00212] Em uma ou mais modalidades, sequência de ácidos nucleicos dados é obtido usando métodos de sequenciamento de nova geração. Sequenciamento de nova geração é também referido como sequenciamento de alta produtividade. As técnicas paralelizam o processo de sequenciamento, produzindo milhares ou milhões de sequências imediatamente. Exemplos de métodos de sequenciamento de nova geração adequados incluem, mas não se limitando a sequenciamento em tempo real de molécula única (por exemplo, Pacific Biosciences of Menlo Park, Califórnia), Sequenciamento por semicondutor iônico (por exemplo, Ion Torrent of South San Francisco, Califórnia), pirossequenciamento (por exemplo, 454 de Branford, Connecticut), sequenciamento por ligação (por exemplo, sequenciamento SOLiD de propriedade da Life Technologies of Carlsbad, Califórnia), sequenciamento por síntese e terminador reversível (por exemplo, Illumina of San Diego, Califórnia), tecnologias de imageamento de ácido nucléico tal como microscopia eletrônica de transmissão e similares.
[00213] Em geral, métodos de sequenciamento de nova geração tipicamente usam uma etapa de clonagem in vitro para amplificar moléculas de DNA individuais. PCR em emulsão (emPCR) isola moléculas de DNA individuais junto com glóbulos revestidos com iniciador em gotículas aquosas em uma fase óleo. PCR produz cópias da molécula de DNA, que se ligam em oligonucleotídeos iniciadores no glóbulo, seguido por imobilização para sequenciamento posterior. emPCR é usado nos métodos por Marguilis et al. (comercializado por 454 Life Sciences, Branford, CT), Shendure e Porreca et al. (também conhecido como “sequenciamento de polony”) e Sequenciamento SOLiD, (Applied Biosystems Inc., Foster Citi, CA). Vide, M. Margulies, et al. (2005) “Genome sequencing in microfabricated high-density picolitre reactors” Nature 437: 376-380; J. Shendure, et al. (2005) “Accurate Multiplex Poloni Sequencing of an Evolved Bacterial GenomeMultiplex Sequencing of polony of a Evolved Bacterial Genoma” Science 309 (5741): 1728-1732. Amplificação clonal in vitro pode também ser realizada por “bridge PCR”, onde fragmentos são amplificados sobre oligonucleotídeos iniciadores anexados a uma superfície sólida. Braslavski et al. desenvolveram um método de uma única molécula (comercializado por Helicos Biosciences Corp., Cambridge, MA) que omite esta etapa de amplificação, fixando diretamente moléculas de DNA em uma superfície. I. Braslavski, et al. (2003) “Sequence information can be obtained from single DNA molecules” Proceedings of the National Academy of Sciences of the United States of America 100: 3960-3964.
[00214] Moléculas de DNA que são fisicamente ligadas a uma superfície podem ser sequenciadas em paralelo. Em “sequenciamento por síntese”, uma fita complementar é construída com base na sequência de uma fita de molde usando uma DNA polimerase. como sequenciamento eletroforético com terminação em corante, Métodos de terminador reversível (comercializado por Illumina, Inc., San Diego, CA e Helicos Biosciences Corp., Cambridge, MA) usam versões reversíveis de terminadores de corante, adicionando um nucleotídeo por vez, e detectam fluorescência em cada posição em tempo real, por repetida remoção do grupo de bloqueio para permitir polimerização de um outro nucleotídeo. “Pirossequenciamento” também usa polimerização de DNA, adicionando um nucleotídeo por vez e detectando e quantificando o número de nucleotídeos adicionados em uma dada localização através da luz emitida pela liberação de pirofosfatos anexados (comercializado por 454 Life Sciences, Branford, CT). Vide, M. Ronaghi, et al. (1996). “Real-time sequencing of DNA using detection of pyrophosfate release” Analytical Biochemistry 242: 84-89.
[00215] Exemplos específicos de métodos de sequenciamento de nova geração são descritos em detalhes adicionais a seguir. Uma ou mais implementações da presente invenção podem usar um ou mais dos seguintes métodos de sequenciamento sem fugir dos princípios da invenção.
[00216] Sequenciamento de molécula única em tempo real (também conhecido como SMRT) é um sequenciamento de DNA de molécula única paralelizado por tecnologia de síntese desenvolvida por Pacific Biosciences. Sequenciamento de molécula única em tempo real utiliza a guia de onda de modo zero (ZMW). Uma única enzima de DNA polimerase é afixada na base de uma ZMW com uma única molécula de DNA como um molde. A ZMW é uma estrutura que cria um volume de observação iluminado que é pequeno o bastante para observar somente um único nucleotídeo de DNA (também conhecido como uma base) sendo incorporado por DNA polimerase. Cada das quatro bases de DNA é anexada a um dos quatros diferentes corantes fluorescentes. Quando um nucleotídeo é incorporado pela DNA polimerase, a etiqueta fluorescente é clivada e difundida para fora da área de observação da ZMW onde sua fluorescência não é mais observável. UM detector detecta o sinal fluorescente da incorporação do nucleotídeo, e a chamada da base é feita de acordo com a fluorescência correspondente do corante.
[00217] Uma outra tecnologia de sequenciamento de molécula única aplicável é a tecnologia Helicos True Single Molecule Sequencing (tSMS) (por exemplo, como descrito em Harris T.D. et al., Science 320:106-109 [2008]). Na técnica tSMS, uma amostra de DNA é clivada em fitas de aproximadamente 100 a 200 nucleotídeos, e uma sequência poliA é adicionada na extremidade 3’ de cada fita de DNA. Cada fita é marcada pela adição de um nucleotídeo de adenosina fluorescentemente marcado. As fitas de DNA são então hibridizadas em uma célula de fluxo, que contém milhões de sítios de captura oligo-T que são imobilizados na superfície da célula de fluxo. Em certas modalidades, os moldes podem ser a uma densidade de cerca de 100 milhões de moldes/cm2. A célula de fluxo é então carregada em um instrumento, por exemplo, Sequenciador HeliSscope™, e um laser ilumina a superfície da célula de fluxo, revelando a posição de cada molde. Uma câmera CCD pode mapear a posição dos moldes na superfície da célula de fluxo. O marcador fluorescente do molde é então clivado e varrido fora. A reação de sequenciamento começa introduzindo uma DNA polimerase e um nucleotídeo fluorescentemente marcado. O ácido nucléico oligo-T serve como um oligonucleotídeo iniciador. A polimerase incorpora os nucleotídeos marcados no oligonucleotídeo iniciador de uma maneira direcionada para o molde. A polimerase e nucleotídeos não incorporados são removidos. Os moldes que têm incorporação direcionada do nucleotídeo fluorescentemente marcado são discernidos por imageamento da superfície da célula de fluxo. Depois do imageamento, uma etapa de clivagem remove o marcador fluorescente, e o processo é repetido com outros nucleotídeos fluorescentemente marcados até que o comprimento lido desejado seja alcançado. Informação de sequência é coletada com cada etapa de adição de nucleotídeo. Sequenciamento de genoma total por tecnologias de sequenciamento de única molécula exclui ou tipicamente elimina amplificação a base de PCR na preparação das bibliotecas de sequenciamento, e os métodos permitem medição direta da amostra, em vez de medição de cópias dessa amostra.
[00218] Sequenciamento por semicondutor iônico é um método de sequenciamento de DNA com base na detecção de íons de hidrogênio que são liberados durante a polimerização de DNA. Este é um método de “sequenciamento por síntese”, durante o qual uma fita complementar é construída com base na sequência de uma fita de molde. Um micropoço contendo uma fita do molde de DNA a ser sequenciada é inundada com uma única espécie de deoxirribonucleotídeo trifosfato (dNTP). Se o dNTP introduzido for complementar ao nucleotídeo do molde líder, ele é incorporado na fita complementar em crescimento. Isto causa a liberação de um íon de hidrogênio que dispara um sensor de íons ISFET, que indica que ocorreu uma reação. Se repetições de homopolímero estiverem presentes na sequência do molde, múltiplas moléculas de dNTP serão incorporadas em um único ciclo. Isto leva a um número correspondente de hidrogênios liberados e um sinal eletrônico proporcionalmente mais alto. Esta tecnologia difere de outras tecnologias de sequenciamento em que não são usados nucleotídeos ou ópticas modificados. Sequenciamento por semicondutor iônico pode também ser referido como sequenciamento de Ion Torrent, sequenciamento mediado por pH, sequenciamento de silício, ou sequenciamento de semicondutor.
[00219] Em pirossequenciamento, o íon de pirofosfato liberado pela reação de polimerização é reagido com adenosina 5‘ fosfossulfato por ATP sulforilase para produzir ATP; o ATP então aciona a conversão de luciferina em oxiluciferina mais luz por luciferase. Como a fluorescência é transiente, não é necessária etapa separada para eliminar fluorescência neste método. Um tipo de deoxirribonucleotídeo trifosfato (dNTP) é adicionado de uma vez, e informação de sequência é discernida de acordo com o que dNTP gera significante sinal em um sítio da reação. O instrumento Roche GS FLX comercialmente disponível adquire sequência usando este método. Esta técnica e aplicações da mesma são discutidas com detalhes, por exemplo, em Ronaghi et al., Analytical Biochemistry 242, 84-89 (1996) e Margulies et al., Nature 437, 376-380 (2005) (corrigendum at Nature 441, 120 (2006)). Uma tecnologia de pirossequenciamento comercialmente disponível é sequenciamento 454 (Roche) (por exemplo, como descrito em Margulies, M. et al. Nature 437:376-380 [2005]).
[00220] Em sequenciamento por ligação, uma enzima ligase é usada para unir um oligonucleotídeo parcialmente de dupla fita com uma saliência no ácido nucléico que está sendo sequenciado, que tem uma saliência; a fim de que a ligação ocorra, as saliências têm que ser complementares. As bases na saliência do oligonucleotídeo parcialmente de dupla fita podem ser identificadas de acordo com um fluoróforo conjugado no oligonucleotídeo parcialmente de dupla fita e/ou em um oligonucleotídeo secundário que hibridiza em uma outra parte do oligonucleotídeo parcialmente de dupla fita. Depois da aquisição de dados de fluorescência, o complexo ligado é clivado à montante do sítio de ligação, tal como por uma enzima de restrição tipo IIs, por exemplo, Bbvl, que corte em um sítio uma distância fixa de seu sítio de reconhecimento (que foi incluído no oligonucleotídeo parcialmente de fita dupla). Esta reação de clivagem expõe uma nova saliência logo à montante das saliências anteriores, e o processo é repetido. Esta técnica e aplicações da mesma são discutidas com detalhes, por exemplo, em Brenner et al., Nature Biotechnology 18, 630-634 (2000). Em algumas modalidades, sequenciamento por ligação é adaptado para os métodos da invenção obtendo um produto de amplificação do círculo de rolamento de uma molécula de ácido nucléico circular, e usando o produto de amplificação do círculo de rolamento como o molde para sequenciamento por ligação.
[00221] Um exemplo comercialmente disponível de tecnologia de sequenciamento por ligação é a tecnologia SOLiD™ (Applied Biosystems). Em sequenciamento por ligação SOLiD™, DNA genômico é dividido em fragmentos, e adaptadores são anexados nas extremidades 5’ e 3’ dos fragmentos para gerar uma biblioteca de fragmentos. Alternativamente, adaptadores internos podem ser introduzidos ligando adaptadores nas extremidades 5’ e 3’ dos fragmentos, circularizando os fragmentos, digerindo o fragmento circularizado para gerar um adaptador interno, e anexando adaptadores nas extremidades 5’ e 3’ dos fragmentos resultantes para gerar uma biblioteca pareada. Em seguida, populações de glóbulos clonais são preparadas em micro-reatores contendo glóbulos, oligonucleotídeos iniciadores, molde, e componentes de PCR. Após PCR, os moldes são desnaturados e glóbulos são enriquecidos para separar os glóbulos com moldes estendidos. Moldes nos glóbulos selecionados são submetidos a uma modificação 3’ que permite ligação a uma lâmina de vidro. A sequência pode ser determinada por hibridização sequencial e ligação de oligonucleotídeos parcialmente aleatórios com uma base determinada central (ou par de bases) que é identificada por um fluoróforo específico. Depois que uma cor é registrada, o oligonucleotídeo ligado é clivado e removido e o processo é então repetido.
[00222] Em sequenciamento com terminador reversível, um análogo de nucleotídeo marcado com corante fluorescente que é um terminador de cadeia reversível por causa da presença de um grupo de bloqueio é incorporado em uma reação de extensão de base única. A identidade da base é determinada de acordo com o fluoróforo; em outras palavras, cada base é pareada com um fluoróforo diferente. Depois dados de fluorescência/sequência são adquiridos, o fluoróforo e o grupo de bloqueio são quimicamente removidos, e o ciclo é repetido para adquirir a base seguinte de informação de sequência. O instrumento Illumina GA opera por este método. Esta técnica e aplicações da mesma são discutidas com detalhes, por exemplo, em Ruparel et al., Proceedings of the National Academy of Sciences of the United States of America 102, 5932-5937 (2005), e Harris et al., Science 320, 106-109 (2008).
[00223] Um exemplo comercialmente disponível de método de sequenciamento de terminador reversível é sequenciamento por síntese de Illumina e sequenciamento com base em terminador reversível (por exemplo, como descrito em Bentley et al., Nature 6:53-59 [2009]). tecnologia de sequenciamento de Illumina se baseia na anexação de DNA genômico fragmentado em uma superfície opticamente transparente planar na qual oligonucleotídeo ancora são ligados. DNA de molde é reparado na extremidade para gerar extremidades rombas 5’-fosforiladas, e a atividade de polimerase do fragmento de Klenow é usada para adicionar uma única base A na extremidade 3’ dos fragmentos de DNA fosforilados rombos. Esta adição prepara os fragmentos de DNA para ligação nos adaptadores de oligonucleotídeo, que têm uma saliência de uma única base T em sua extremidade 3’ para aumentar a eficiência de ligação. Os oligonucleotídeos adaptadores são complementares às âncoras de célula de fluxo. Em condições de diluição limitantes, DNA de molde de fita simples modificador por adaptador é adicionado à célula de fluxo e imobilizado por hibridização nas âncoras. Fragmentos de DNA anexados são estendidos e amplificados na ligação para criar uma célula de fluxo de sequenciamento de ultra-alta densidade com centenas de milhões de agrupamentos, cada qual contendo ~1.000 cópias do mesmo molde. Os moldes são sequenciados usando um sequenciamento de DNA robusto de quatro cores por tecnologia de síntese que emprega terminadores reversíveis com corantes fluorescentes removíveis. Detecção por fluorescência altamente sensitiva é conseguida usando excitação laser e óptica de reflexão interna total. Leituras de curta sequência de cerca de 20 a 40 bp, por exemplo, 36 bp, são alinhadas contra um genoma de referência mascarado com repetição e mapeamento único das leituras de curta sequência no genoma de referência são identificadas usando software de encadeamento de análise de dados especialmente desenvolvido. Genomas de referência mascarados não repetição podem também ser usados. Se genomas de referência mascarados de repetição ou não repetição forem usados, somente leituras que mapeiam exclusivamente para o genoma de referência são contadas. Depois do término da primeira leitura, os moldes podem ser regenerados em situ para permitir uma segunda leitura a partir da extremidade oposta dos fragmentos. Assim, tanto sequenciamento de extremidade única quanto de extremidade pareada dos fragmentos de DNA podem ser usados. Sequenciamento parcial de fragmentos de DNA presentes na amostra é feito, e etiquetas de sequência compreendendo leituras de comprimento predeterminado, por exemplo, 36 bp, são mapeadas em um genoma de referência conhecido são contadas.
[00224] Em sequenciamento de nanoporo, uma molécula de ácido nucléico de fita simples é passada através de um poro, por exemplo, usando uma força de acionamento eletroforética, e sequência é deduzida analisando dados obtidos à medida que a molécula de ácido nucléico de fita simples passa através do poro. Os dados podem ser dados de corrente iônica, em que cada base altera a corrente, por exemplo, bloqueando parcialmente a corrente que passa através do poro a um grau discernível diferente.
[00225] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência usando microscopia eletrônica de transmissão (TEM). O método compreende utilizar imageamento por microscópio eletrônico de transmissão de resolução atômica simples de DNA de alto peso molecular (150kb ou mais) seletivamente marcado com marcadores de átomo pesado e arranjando essas moléculas em películas ultrafinas em arranjos paralelos ultradensos (3nm fita a fita) com espaçamento base a base consistente. O microscópio eletrônico é usado para imagear as moléculas nas películas para determinar a posição dos marcadores de átomo pesado e extrair informação de sequência de base do DNA. O método é adicionalmente descrito no relatório descritivo de patente PCT WO 2009/046445.
[00226] Em uma outra modalidade ilustrativa, mas não limitante, os métodos descritos aqui compreendem obter informação de sequência usando sequenciamento de terceira geração. Em sequenciamento de terceira geração, uma lâmina com um revestimento de alumínio com furos muito pequenos (~50 nm) é usada como uma guia de onda de modo zero (Vide, por exemplo, Levene et al., Science 299, 682-686 (2003)). A superfície de alumínio é protegida de anexação de DNA polimerase por química de polifosfonato, por exemplo, química de polivinilfosfonato (Vide, por exemplo, Korlach et al., Proceedings of the National Academy of Sciences of the United States of America 105, 1176-1181 (2008)). Isto resulta em anexação preferencial das moléculas de DNA polimerase na sílica exposta nos furos do revestimento de alumínio. Esta configuração permite que o fenômeno de onda evanescente seja usado para reduzir o fundo de fluorescência, permitindo o uso de maiores concentrações de dNTPs fluorescentemente marcados. O fluoróforo é anexado no terminal fosfato dos dNTPs, de maneira tal que fluorescência é liberada mediante incorporação do dNTP, mas o fluoróforo não permanece anexado no nucleotídeo recém-incorporado, significando que o complexo está imediatamente pronto para uma outra rodada de incorporação. Por este método, incorporação de dNTPs em um molde de oligonucleotídeo iniciador individual, complexos presentes nos furos do revestimento de alumínio podem ser detectados. Vide, por exemplo, Eid et al., Science 323, 133-138 (2009).
VI. ENSAIO DE VARIANTES DE GENE E PROTEÍNA
[00227] Em algumas modalidades, polinucleotídeos gerados com relação a métodos da presente invenção são opcionalmente clonados em células para expressar variantes de proteína para triagem de atividade (ou usados em reações de transcrição in vitro para produzir os produtos que são triados). Além disso, os ácidos nucleicos que codificam variantes de proteína podem ser enriquecidos, sequenciados, expressos, amplificados in vitro ou tratados em qualquer outro método recombinante comum.
[00228] Textos gerais que descrevem técnicas de biológica molecular úteis aqui, incluindo clonagem, mutagênese, construção de biblioteca, ensaios de triagem, cultura celular e similares incluem Berger e Kimmel, Guide to Molecular Cloning Technics, Methods in Enzimology volume 152 Academic Press, Inc., San Diego, CA (Berger); Sambrook et al., Molecular Cloning - A Laboratory Manual (2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, Nova Iorque, 1989 (Sambrook) e Current Protocols in Molecular Biology, F.M. Ausubel et al., eds., Current Protocols, um empreendimento conjunto entre Greene Publishing Associates, Inc. e John Wiley & Sons, Inc., Nova Iorque (suplementado em 2000) (Ausubel). Métodos de transduzir células, incluindo células de plantas e animais, com ácidos nucleicos são em geral disponíveis, bem como são métodos de expressar proteínas codificadas por tais ácidos nucleicos. Além de Berger, Ausubel e Sambrook, referências gerais úteis para cultura de células animais incluem Freshnei (Cultures of Animals cells, a Manual of Basic Technic, terceira edição Wiley- Liss, Nova Iorque (1994)) e as referências citadas nele, Humason (Animal Tissue Technicques, quarta edição W.H. Freeman and Compani (1979)) e Ricciardelli, et al., In vitro cell Dev. Biol. 25:1016-1024 (1989). Referências para clonagem, cultura e regeneração de célula de planta incluem Payne et al. (1992) Plant Cell and Tissue Culture in liquid Systems John Wiley & Sons, Inc. Nova Iorque, NI (Payne); e Gamborg e Fillips (eds) (1995) Plant Cell, Tissue and Organ Cultura; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg Nova Iorque) (Gamborg). Uma variedade de meios de cultura celular é descrita em Atlas and Parks (eds) O Handbook de Microbiological Media (1993) CRC Press, Boca Raton, FL (Atlas). Informação adicional para cultura de célula de planta é encontrada em literatura comercialmente disponíveis tal como o Life Science Research Cultura celular Catalogue (1998) da Sigma-Aldrich, Inc (St Louis, MO) (Sigma-LSRCCC) e, por exemplo, o Plant Culture Catalogue and supplement (1997) também da Sigma-Aldrich, Inc (St Louis, MO) (Sigma-PCCS).
[00229] Exemplos de técnicas suficientes para direcionar versados na técnica para métodos de amplificação in vitro, úteis, por exemplo, para amplificar oligonucleotídeo recombinado ácidos nucleicos incluindo reações de polimerase em cadeia (PCR), reações de ligase em cadeia (LCR), Amplificações de Qβ-replicase e outras técnicas mediadas por RNA polimerase (por exemplo, NASBA). Essas técnicas são encontradas em Berger, Sambrook, e Ausubel, supra, bem como em Mullis et al., (1987) Patente U.S. No. 4.683.202; PCR Protocols A Guide to methods and Applications (Innis et al. eds) Academic Press Inc. San Diego, CA (1990) (Innis); Arnheim & Levinson (October 1, 1990) C&EN 36-47; O Journal of NIH Research (1991) 3, 81-94; Kwoh et al. (1989) Proc. Natl. Acad. Sci. USA 86, 1173; Guatelli et al. (1990) Proc. Natl. Acad. Sci. USA 87, 1874; Lomell et al. (1989) J. Clin. Chem 35, 1826; Landegren et al., (1988) Science 241, 1077-1080; Van Brunt (1990) Biotechnology 8, 291-294; Wu e Wallace, (1989) Gene 4, 560; Barringer et al. (1990) Gene 89, 117, e Sooknanan e Malek (1995) Biotechnology 13: 563-564. Métodos melhorados de clonagem de ácidos nucleicos amplificados in vitro são descritos em Wallace et al., Patente U.S. No. 5.426.039. Métodos melhorados de amplificação de grandes ácidos nucleicos por PCR são sumarizados em Cheng et al. (1994) Nature 369: 684-685 e as referências aqui, no qual amplicons de PCR de até 40kb são gerados. Versados na técnica perceberão que essencialmente qualquer RNA pode ser convertido um DNA de fita dupla adequado para digestão de restrição, Expansão e sequenciamento por PCR usando transcriptase reversa e uma polimerase. Vide, Ausubel, Sambrook e Berger, todos supra.
[00230] Em um método preferido, sequências remontadas são verificadas para incorporação de oligonucleotídeos de recombinações baseadas em família. Isto pode ser feito por clonagem e sequenciamento dos ácidos nucleicos, e/ou por digestão de restrição, por exemplo, como essencialmente preceituado em Sambrook, Berger e Ausubel, supra. Além do mais, sequências podem ser amplificadas por PCR e sequenciadas diretamente. Assim, além de, por exemplo, Sambrook, Berger, Ausubel e Innis (supra), metodologias de sequenciamento por PCR adicionais são também particularmente úteis. Por exemplo, sequenciamento direto de Amplicons gerados por PCR incorporando seletivamente nucleotídeos resistentes a nuclease boronada nos amplicons durante PCR e digestão dos amplicons com um nuclease para produzir fragmentos de molde dimensionados foi feito (Porter et al. (1997) Nucleic Acids Research 25(8):1611-1617). Nos métodos, quatro reações de PCR em um molde são feitas, em cada uma das quais um dos trifosfatos de nucleotídeo na mistura da reação de PCR é parcialmente substituído com um 2’deoxinucleosídeo 5’-[P-borano]-trifosfato. O nucleotídeo borado é estocasticamente incorporado em produtos de PCR em posições variadas ao longo do amplicon de PCR em um conjunto aninhado de fragmentos de PCR do molde. Uma exonuclease que é bloqueada incorporando nucleotídeos boronados é usada para clivar os amplicons de PCR. Os amplicons clivados são então separados por tamanho usando eletroforese em gel de poliacrilamida, provêndo a sequência do amplicon. Uma vantagem deste método é que ele usa menos manipulações bioquímicas do que no sequenciamento tipo Sanger padrão de amplicons de PCR.
[00231] Genes sintéticos são sensíveis a abordagens de clonagem e expressão convencionais; assim, propriedades dos genes e proteínas que eles codificam podem ser facilmente examinadas depois de sua expressão em uma célula hospedeira. Genes sintéticos podem também ser usados para gerar produtos de polipeptídeo por transcrição e tradução in vitro (sem célula). Polinucleotídeos e polipeptídeos podem assim ser examinados quanto a sua capacidade de se ligarem a uma variedade de ligantes predeterminados, pequenas moléculas e íons, ou substâncias poliméricas e heteropoliméricas, incluindo outras proteínas e epítopos de polipeptídeo, bem como paredes de célula microbiana, partículas virais, superfícies e membranas.
[00232] Por exemplo, muitos métodos físicos podem ser usados para detectar polinucleotídeos que codificam fenotipos associados com catálise de reações químicas tanto por polinucleotídeos diretamente, quanto por polipeptídeos codificados. Somente com o propósito de ilustração, e dependendo das especificidades de reações químicas predeterminadas particulares de interesse, esses métodos podem incluir uma pluralidade de técnicas conhecidas na técnica que são responsáveis por uma diferença física entre substrato(s) e produto(s), ou por mudanças no meio de reação associadas com a reação química (por exemplo, mudanças nas emissões eletromagnéticas, adsorção, dissipação, e fluorescência, quer UV, visível ou infravermelho (calor)). Esses métodos também podem ser selecionados de qualquer combinação dos seguintes: espectrometria de massa; ressonância nuclear magnética; materiais isotipicamente marcados, métodos de particionamento e espectrais que levam em conta distribuição de isótopos ou formação de produto marcado; métodos espectrais e químicos para detectar mudanças associadas nas composições iônicas ou elementares de produto(s) da reação (incluindo mudanças no f, íons inorgânicos e orgânicos e similares). Outros métodos de ensaios físicos, adequados para uso nos métodos aqui, podem ser baseados no uso de biossensores específicos para produto(s) da reação, incluindo aqueles compreendendo anticorpos com propriedades de repórter, ou aqueles com base em reconhecimento de afinidade in vivo acoplado com expressão e atividade de um gene repórter. Ensaios acoplados a enzima para detecção do produto da reação e seleções de vida-morte- crescimento da célula in vivo podem também ser usados onde apropriado. Independentemente da natureza específica dos ensaios físicos, eles todos são usados para selecionar uma atividade desejada, ou combinação de atividade desejadas, provida ou codificada por uma biomolécula de interesse.
[00233] O ensaio específico usado para a seleção dependerá da aplicação. Muitos ensaios para proteínas, receptores, ligantes, enzimas, substratos e similares são conhecidos. Formatos incluem ligação nos componentes imobilizados, célula ou viabilidade organismal, produção de composições repórteres e similares.
[00234] Ensaios de alta produtividade são particularmente adequados para triar bibliotecas empregadas na presente invenção. Em ensaios de alta produtividade, é possível triar até centenas de diferentes variantes em um único dia. Por exemplo, cada poço de uma placa microtituladora pode ser usado para correr um ensaio separado, ou, se os efeitos do tempo de concentração ou incubação tiverem que ser observados, cada 5 a 10 poços podem testar uma única variante (por exemplo, a diferentes concentrações). Assim, uma única placa microtituladora pode ensaiar cerca de 100 (por exemplo, 96) reações. Se 1.536 placas de poço forem usadas, então uma única placa pode facilmente ensaiar de cerca de 100 a cerca de 1.500 diferentes reações. É possível ensaiar diversas diferentes placas por dia; o ensaio tria até cerca de 6.000 a 20.000 diferente ensaios (isto é, envolvendo diferentes ácidos nucleicos, proteínas codificadas, concentrações, etc.) é possível usar os sistemas integrados da invenção. Mais recentemente, abordagens microfluídicas para manipulação de reagente foram desenvolvidas, por exemplo, pela Caliper Technologies (Mountain Vista, CA) que podem prover métodos de ensaio microfluídico de altíssima produtividade.
[00235] Sistemas de triagem de alta produtividade são comercialmente disponíveis (Vide, por exemplo, Zimark Corp., Hopkinton, MA; Ar Technical Industries, Mentor, OH; Beckman Instruments, Inc. Fullerton, CA; Precision Systems, Inc., Natick, MA, etc.). Esses sistemas tipicamente automatizam procedimentos inteiros incluindo pipetagem de toda amostra e reagente, dispensação de líquido, incubações cronometradas, e leituras finais da microplaca em detector(s) apropriado(s) para o ensaio. Esses sistemas configuráveis proveem alta produtividade e rápida iniciação bem como um alto grau de flexibilidade e customização.
[00236] Os fabricantes de tais sistemas proveem protocolos detalhados para vários ensaios de triagem de alta produtividade. Assim, por exemplo, Zimark Corp. provê boletins técnicos descrevendo sistemas de triagem para detectar a modulação de transcrição genética, ligação de ligante e similares.
[00237] Uma variedade de equipamento periférico e software comercialmente disponíveis é disponível para digitalizar, armazenar e analisar um vídeo digitalizado ou imagens de ensaio ópticas digitalizadas, por exemplo, usando PC (Intel x86 ou MAC OS com chip compatível do pentium, Família WINDOWS™, ou Computadores baseados em UNIX (por exemplo, estação de trabalho SUN™).
[00238] Sistemas para análise tipicamente incluem um computador digital especificamente programado para realizar algoritmos especializados usando software para direcionar uma ou mais etapas de um ou mais dos métodos aqui, e, opcionalmente, também incluem, por exemplo, software de controle de plataforma de sequenciamento de nova geração, software de controle de líquido de alta produtividade, software de análise de imagem, software de interpretação de dados, um armadura de controle de líquido robótico para transferir soluções de uma fonte para um destino operacionalmente ligado no computador digital, uma entrada dispositivo (por exemplo, um teclado de computador) para entrar com dados no computador digital para controlar operações ou transferência de líquido de alta produtividade pela armadura de controle de líquido robótico e, opcionalmente, um escâner de imagem para digitalizar sinais de etiqueta de componentes de ensaio marcados. O escâner de imagem pode fazer interface com software de análise de imagem para prover uma intensidade de medição da etiqueta da sonda. Tipicamente, a medição da intensidade da etiqueta da sonda é interpretada pelo software de interpretação de dados se a sonda marcada hibridiza para o DNA no suporte sólido.
[00239] Em algumas modalidades, células, placas virais, esporos ou similares, compreendendo produtos de recombinação mediada por oligonucleotídeo in vitro ou modalidades físicas de ácidos nucleicos recombinados in silico, podem ser separadas em meio sólido para produzir colônias individuais (ou placa). Usando um coletor de colônia automatizado (por exemplo, o Q-bot, Genetix, U.K.), colônias ou placa são identificadas, coletadas, e até 10.000 diferentes mutantes inoculados em pratos de microtituladora de 96 poços contendo esferas de vidro de 3 mm/poço. O Q-bot não coleta uma colônia total, mas, em vez disso, insere um pino no centro da colônia e sai com uma pequena amostragem de células, (ou micélia) e esporos (ou vírus em aplicação de placa). O tempo que o pino fica na colônia, o número de imersões para inocular o meio de cultura, e o tempo que o pino está nesse meio cada qual afetam o valor da inoculação, e cada parâmetro pode ser controlado e otimizado.
[00240] O processo uniforme de coleta de colônia automatizado tal como o Q-bot diminui erro de manuseio humano e aumenta a taxa desestabilização de culturas (aproximadamente 10.000/4 horas). Essas culturas são opcionalmente agitadas em um incubador dom temperatura e umidade controladas. Esferas de vidro opcionais nas placas microtituladoras agem para promover aeração uniforme de células e a dispersão de fragmentos celulares (por exemplo, miceliais) similar às pás de um fermentador. Clones de culturas de interesse podem ser isolados limitando a diluição. Como também descrito supra, placa ou células que constituem bibliotecas podem também ser triadas diretamente para a produção de proteínas, tanto detectando hibridização, atividade de proteína, ligação de proteína em anticorpos, ou similares. Para aumentar as chances de identificar um agrupamento de tamanho suficiente, uma pré-triagem que aumenta o número de mutantes processados em 10 vezes pode ser usada. A meta da triagem primária é identificar rapidamente mutantes tendo tituladores de produto iguais ou melhores que a(s) cepa(s) pai(s) e mover somente esses mutantes para a frente para a cultura celular líquida para subsequente análise.
[00241] Uma abordagem para triar diversas bibliotecas é usar um procedimento de fase sólida massivamente paralela para triar células que expressam variantes de polinucleotídeos, por exemplo, polinucleotídeos que codificam variantes de enzima. Aparelho de triagem de fase sólida massivamente paralela usando absorção, fluorescência, ou FRET são disponíveis. Vide, por exemplo, Patente U.S. No. 5.914.245 de Bilina, et al. (1999); Vide, também, http://wwwl.lkairos-scientific.com/; louvan et al. (1999) “Fluoresscence Imaging Micro-Spectrofotometer (FIMS)” Biotechnology et alia, <wwwl.let-al.com> 1:1-16; Iang et al. (1998) “High Resolutuion Imaging Microescope (HIRIM)” Biotechnology et alia, <wwwl.let-al.com> 4:1-20; e Iouvan et al. (1999) “Calibration de Fluorescence Resonance Energy Transfer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelanting Beads” postado em wwwl.lkairos-scientific.com. Após triagem por essas técnicas, moléculas de interesse são tipicamente isoladas, e opcionalmente sequenciadas usando métodos que são conhecidos na técnica. A informação de sequência é então usada como apresentado aqui para projetar uma nova biblioteca de variante de proteína.
[00242] Similarmente, diversos sistemas robóticos bem conhecidos foram desenvolvidos para químicas de fase de solução úteis em sistemas de ensaio. Esses sistemas incluem estações de trabalho autocombinadas como o aparelho de síntese autocombinado desenvolvido por Takeda Chemical Industries, LTD. (Osaka, Japão) e muitos sistemas robóticos utilizando ‘braços robóticos (Zimate II, Zimark Corporation, Hopkinton, Mass.; Orca, Beckman Coulter, Inc. (Fullerton, CA)) que imitam operações sintéticas manuais feitas por um cientista. Quaisquer dos dispositivos citados são adequados para uso com a presente invenção, por exemplo, para triagem de alta produtividade de moléculas codificadas por ácidos nucleicos derivadas como descrito aqui. A natureza e implementação de modificações desses dispositivos (se houver) de forma que eles possam operar como discutido aqui ficarão aparentes aos versados na técnica relevante.
VII. APARELHO E SISTEMAS DIGITAIS
[00243] Como deve estar aparente, modalidades descritas aqui empregam processos que agem sob o controle de instruções e/ou dados armazenados em ou transferidos através de um ou mais sistemas de computador. Modalidades descritas aqui também se referem a sistemas e aparelho (por exemplo, equipamento) para realizar essas operações. Em algumas modalidades, o aparelho é especialmente projetado e/ou construído para os propósitos exigidos, ou pode ser um computador de uso geral seletivamente ativado ou reconfigurado por um programa de computador e/ou estrutura de dados armazenada no computador. Os processos providos pela presente descrição não são inerentemente relacionados com nenhum computador particular ou outro aparelho específico. Em particular, várias máquinas de uso geral encontram uso com programas gravados de acordo com os preceitos aqui. Entretanto, em algumas modalidades, um aparelho especializado é construído para realizar as operações do método exigidas. Uma modalidade de uma estrutura particular para uma variedade dessas máquinas é descrita a seguir.
[00244] Além do mais, certas modalidades da presente descrição se referem a mídia legível por computador ou produtos programa de computador que incluem instruções e/ou dados de programa (incluindo estruturas de dados) para realizar várias operações implementadas por computador. Exemplos de mídia legível por computador incluem, mas não se limitando a mídia magnética tais como discos rígidos; mídia ótica tais como dispositivos de CD-ROM e dispositivos holográficos; mídia magneto-ótica; e dispositivos semicondutores de memória , tal como memória relâmpago. Dispositivos de hardware tais como dispositivos de memória somente de leitura (ROM) e dispositivos de memória de acesso aleatório (RAM) podem ser configurados para armazenar instruções de programa. Dispositivos de hardware tais como circuitos integrados específicos da aplicação (ASICs) e dispositivos de lógica programável (PLDs) podem ser configurados para executar e armazenar instruções de programa. Não se pretende que a presente descrição seja limitada a nenhuma mídia legível por computador particular ou qualquer outro produto programa de computador que inclui instruções e/ou dados para realizar operações implementadas por computador.
[00245] Exemplos de instruções de programa incluem, mas não se limitando a código de baixo nível tal como produzido bi um compilador, e arquivos contendo código de nível mais alto que pode ser executado pelo computador usando um interpretador. Adicionalmente, as instruções de programa incluem, mas não se limitando a código de máquina, código de fonte e qualquer outro código que direta ou indiretamente controla operação de uma máquina de computação de acordo com a presente descrição. O código pode especificar entrada, saída, cálculos, condicionais, derivações, laços iterativos, etc.
[00246] Em um exemplo ilustrativo, métodos que incorporam código descritos aqui são concebidos em uma mídia fixa ou componente de programa transmissível contendo instruções e/ou dados lógicos que, quando carregadas em um dispositivo de computação devidamente configurado, faz com que o dispositivo realize triagem virtual de uma ou mais variantes de biomolécula interagente com um ou mais ligantes. Figura 4 mostra um dispositivo digital exemplificativo 800 que é um aparelho lógico que pode ler instruções da mídia 817, porta de rede 819, teclado de entrada do usuário 809, entrada do usuário 811, ou outro dispositivo de entrada. Aparelho 800 pode em seguida usar essas instruções para direcionar operações estatísticas em espaço de dados, por exemplo, para avaliar uma relação geométrica entre uma fração de ligante e um ou mais recursos de um sítio ativo, cofator, etc. (por exemplo, para determinar uma distância entre a posição de um substrato nativo em um sítio ativo e a posição de um substrato em consideração no sítio ativo de uma variante de proteína). Um tipo de aparelho lógico que pode incorporar modalidades descritas é um sistema de computador como no sistema de computador 800 compreendendo CPU 807, teclado de dispositivos de entrada de usuários opcionais 809, e dispositivo de apontamento de GUIA 811, bem como componentes periféricos tais como unidades de disco 815 e monitor 805 (que exibem cadeias de caracteres modificadas por GO e permitem seleção simplificada de subconjuntos de tais cadeias de caracteres por um usuário. Mídia fixa 817 é opcionalmente usada para programar o sistema geral e pode incluir, por exemplo, uma mídia ótica ou magnética tipo disco ou outro elemento de armazenamento de memória eletrônica. Porta de comunicação 819 pode ser usada para programar o sistema e pode representar qualquer tipo de conexão de comunicação.
[00247] Certas modalidades podem também ser concebidas dentro do sistema de circuitos de um circuito integrado específico da aplicação (ASIC) ou dispositivo de lógica programável (PLD). Em um caso desses, as modalidades são implementadas em uma linguagem descritora legível por computador que pode ser usada para criar um ASIC ou PLD. Algumas modalidades da presente descrição são implementadas dentro do sistema de circuitos ou processadores lógicos de uma variedade de outros aparelhos digitais, tais como PDAs, sistemas de computador de bolso, monitores, equipamento de edição de imagem, etc.
[00248] Em algumas modalidades, a presente descrição se refere a um produto programa de computador compreendendo uma ou mais mídias de armazenamento legíveis por computador tendo armazenado nela instruções executáveis por computador que, quando executadas por um ou mais processadores de um sistema de computador, fazem com que o sistema de computador implemente um método para triagem virtual de variantes de proteína e/ou evolução direcionada de proteínas in silico tendo atividade desejada. Um método como este pode ser qualquer método descrito aqui tais como aqueles englobados pelas figuras e pseudocódigo. Em algumas modalidades, por exemplo, o método recebe dados de sequência para uma pluralidade de enzimas, cria modelos de homologia tridimensionais de moléculas biológicas, ancora os modelos de homologia de enzimas com uma ou mais representações computacionais de substratos, e selecionar enzimas tendo atividade catalítica e seletividade desejadas. Em algumas modalidades, o método pode adicionalmente desenvolver bibliotecas de variantes a partir de variantes que foram altamente classificadas pelo processo de triagem. As bibliotecas de variantes podem ser usadas em evolução direcionada reiterativa e triagem, que pode resultar em enzimas de propriedades desejadas benéficas.
[00249] Em algumas modalidades, o ancoragem dos modelos de homologia de enzimas com uma ou mais representações computacionais de substratos é conduzido por um programa de ancoragem em um sistema de computador que usa uma representação computacional de um ligante e representações computacionais dos sítios ativos de uma pluralidade de variantes como descrito aqui. Em várias modalidades, métodos para determinar ancoragem envolvem avaliar a energia de ligação entre uma postura do substrato e a enzima. Para uma variante de proteína que ancora com sucesso com o ligante, o sistema de triagem de proteína virtual considera uma pluralidade de posturas da representação computacional do ligante no sítio ativo da variante de proteína em consideração, e determina qual, se houver, da pluralidade de posturas é ativa. Em várias modalidades, métodos para determinar posturas ativas envolvem avaliar as restrições geográficas definindo uma faixa de posições relativas de um ou mais átomos no ligante e um ou mais átomos na proteína e/ou cofator associado com a proteína.
VIII. MODALIDADES EM WEBSITES e COMPUTAÇÃO DE NUVEM
[00250] A Internet inclui computadores, aparelhos de informação, e redes de computadores que são interconectados por meio de enlaces de comunicação. Os computadores interconectados trocam informação usando vários serviços, tais como correio eletrônico, ftp, o World Wide Web (“WWW”) e outros serviços, incluindo serviços seguros. O serviço WWW pode ser entendido como permitindo que um sistema de computador servidor (por exemplo, um servidor da Web ou um sítio da Web) transmita páginas da rede de informação para um aparelho de informação ou sistema de computador de cliente remoto . O sistema de computador de cliente remoto pode então exibir a páginas da rede. Em geral, cada recurso (por exemplo, computador ou página da rede) do WWW é exclusivamente identificável por um Localizador de Recurso Uniforme (“URL”). Para ver ou interagir com uma página específica da rede, um sistema de computador de cliente especifica um URL para essa página da rede em uma solicitação. A solicitação é encaminhada para um servidor que suporta essa página da rede. Quando o servidor recebe a solicitação, ele transmite essa página da rede para o sistema de informação do cliente. Quando o sistema de computador de cliente recebe essa página da rede, ele pode exibir a página da rede usando um navegador ou pode interagir com a página da rede ou interface de outra maneira provida. Um navegador é um módulo lógico que realiza a solicitação de páginas da rede e exibe ou interage com páginas da rede.
[00251] Atualmente, páginas da rede exibíveis são tipicamente definidas usando uma linguagem de Marcação de Hiper Texto (“HTML”). HTML provê um conjunto padrão de etiquetas que define como uma página da rede deve ser exibida. Um Documento em HTML contém várias etiquetas que controlam a exibição do texto, gráficos, controles, e outros recursos. O documento em HTML pode conter URLs de outras páginas da rede disponíveis nesse sistema de computador servidor ou outros sistemas de computador servidores. URLs podem também indicar outros tipos de interfaces, incluindo coisas tais como escritas CGI ou interfaces executáveis, que aparelhos de informação usam para comunicar com aparelhos de informação ou servidores remotos sem necessariamente exibir informação a um usuário.
[00252] A Internet é especialmente condutiva para prover serviços de informação para um ou mais clientes remotos. Serviços podem incluir itens (por exemplo, música ou quotas de estoque) que são entregues eletronicamente a um comprador pela Internet. Serviços podem também incluir lidar com pedidos de itens (por exemplo, mantimentos, livros, ou compostos químicos ou biológicos, etc.) que podem ser entregues por meio de canais de distribuição convencionais (por exemplo, um portador comum). Serviços podem também incluir lidar com pedidos de itens, tais como reservas de em empresas aéreas ou teatro, que um cliente acessa posteriormente. UM sistema de computador servidor pode prover uma versão eletrônica de uma interface que lista itens ou serviços que são disponíveis. UM usuário ou um comprador potencial pode acessar a interface usando um navegador e selecionar vários itens de interesse. Quando o usuário tiver terminado de selecionar os itens desejados, o sistema de computador servidor pode então alertar o usuário para informação necessária para completar o serviço. Esta informação de pedido específica da transação pode incluir nome do comprador ou outra identificação, uma identificação para pagamento (tal como um número do pedido de compra corporativo ou número da conta), ou informação adicional necessária para completar o serviço, tal como informação do voo.
[00253] Entre serviços de interesse particular que podem ser providos pela Internet e por outras redes são dados biológicos e bases de dados biológicos. Tais serviços incluem uma variedade de serviços provida pela National Center for Biotechnology Information (NCBI) do National Institutes of Health (NIH). NCBI é carregada com sistemas automatizados de criação para armazenar e analisar conhecimento a respeito de biologia molecular, bioquímica, e genética; facilitar o uso de tais bases de dados e software pela comunidade de pesquisa e medicina; coordenar esforços para obter informação de biotecnologia tanto nacionalmente quanto internacionalmente; e realizar pesquisa de métodos avançados de processamento de informação baseada em computador para analisar a estrutura e função de moléculas biologicamente importantes.
[00254] NCBI guarda a responsabilidade para a base de dados de sequência de DNA do GenBank®. A base de dados foi construída de sequências submetidas por laboratórios individuais e por troca de dados com as bases de dados de sequências de nucleotídeos internacionais, o European Biology Molecular Laboratory (EMBL) e a Base de dados de DNA do Japão (DDBJ), e inclui dados de sequência de patente submetidos ao U.S. Patent and Trademark Office. Além de GenBank®, NCBI suporta e distribui uma variedade de bases de dados para as comunidades médicas e científicas. Essas incluem Online Mendelian Inheritance in Man (OMIM), a Molecular Modeling Database (MMDB) de estruturas de proteína 3D, a Unique Human Gene Sequence Collection (UniGene), um Mapa Genético do Genoma Humano, o Taxonomi Browser, e o Cancer Genoma Anatomy Project (CGAP), em colaboração com o Instituto Nacional do Câncer. Entrez é um sistema de busca e recuperação do NCBI que provê os usuários com acesso integrado à sequência, mapeamento, taxonomia, e dados estruturais. Entrez também provê vistas gráficas de sequências e mapas de cromossoma. UM recurso de Entrez é a capacidade de recuperar sequências, estruturas e referências relacionadas. BLAST, como descrito aqui, é um programa para pesquisa de similaridade de sequência desenvolvido no NCBI para identificar genes e características genéticas que pode executar busca de sequência em toda a base de dados de DNA. Ferramentas de software adicionais providas pelo NCBI incluem: Open Reading Quadro Finder (ORF Finder), Electronic PCR, e as ferramentas de submissão de sequência, Sequin e BankIt. Várias bases de dados e ferramentas de software do NCBI são disponíveis pela WWW ou pela FTP ou por servidores de correio eletrônico. Informação adicionalmente é disponível em www|.|ncbi.nlm.nih.gov.
[00255] Alguns dados biológicos disponíveis na Internet são dados que são no geral vistos com um “plug in” de navegador especial ou outro código executável. Um exemplo de um sistema como este é CHIME, um plug-in de navegador que permite uma exibição tridimensional virtual interativa de estruturas moleculares, incluindo estruturas moleculares biológicas. Informação adicional relativa a CHIME é disponível em www|.|mdlchime.com/chime/.
[00256] Uma variedade de empresas e instituições provê sistemas em linha para solicitar compostos biológicos. Exemplos de tais sistemas podem ser encontrados em www|.|genosis.com/oligo_custinfo.cfm ou www|.|genomictecnologies.com/Browser2_FP.html. Tipicamente, esses sistemas aceita algum descritor de um composto biológico desejado (tal como um oligonucleotídeo, fita de DNA, fita de RNA, sequência de aminoácido, etc.) e então o composto solicitado é fabricado e é despachado para o cliente em uma solução líquida ou outra forma apropriada.
[00257] Como os métodos providos aqui podem ser implementados em um endereço de rede como adicionalmente descrito a seguir, os resultados computacionais ou resultados físicos envolvendo polipeptídeos ou polinucleotídeos produzidos por algumas modalidades da descrição podem ser provido pela Internet de maneiras similares à informação biológica e compostos descritos anteriormente.
[00258] Para ilustrar adicionalmente, os métodos desta invenção podem ser implementados em um ambiente de computação localizado ou distribuído. Em um ambiente distribuído, os métodos podem ser implementados um único computador compreendendo múltiplos processadores ou em uma pluralidade de computadores. Os computadores podem ser ligados, por exemplo, através de um barramento comum, mas mais preferivelmente o(s) computador(s) é(são) nós em uma rede. A rede pode ser uma rede local ou de área ampla generalizada ou dedicada e, em certas modalidades preferidas, os computadores podem ser componentes de uma Intranet ou uma Internet.
[00259] Em uma modalidade da internet, um sistema de cliente tipicamente executa um navegador da Web e é acoplado a um computador servidor que executa um servidor da Web. O navegador da Web é tipicamente um programa tal como Web Explorer da IBM, Internet explorer da Microsoft, NetScape, Opera, ou Mosaic. O servidor da Web é tipicamente, mas não necessariamente, um programa tal como HTTP Daemon da IBM ou outro www daemon (por exemplo, formas baseadas em LINUX do programa). O computador do cliente é acoplado bidirecionalmente com o computador servidor por uma linha ou por meio de um sistema sem fio. Por sua vez, o computador servidor é acoplado bidirecionalmente com um website (servidor que hospeda o website) que provê acesso ao software que implementa os métodos desta invenção.
[00260] Como mencionado, um usuário de um cliente conectado na Intranet ou Internet pode fazer com que o cliente solicite recursos que são parte do(s) sítio(s) da rede que hospeda a(s) aplicação(s) provendo uma implementação dos métodos desta invenção. Programa(s) do servido então processa(m) a solicitação para retornar os recursos especificados (considerando que eles estão atualmente disponíveis). A convenção de nomeação padrão (isto é, Localizador de Recurso Uniforme (“URL”)) engloba diversos tipos de nomes de localizações, atualmente incluindo subclasses tal como Hipertext Transport Protocol (“http”), File Transport Protocol (“ftp”), gofer, e Wide Area Information Service (“WAIS”). Quando um recurso é transferido, ele pode incluir URLs de recursos adicionais. Assim, o usuário do cliente pode facilmente saber da existência de novos recursos que ele não especificamente solicitou.
[00261] O software que implementa o(s) método(s) desta invenção pode rodar localmente no servidor que hospeda o website em uma arquitetura cliente-servidor verdadeira. Assim, o computador do cliente posta solicitações ao servidor hospedeiro que roda o(s) processo(s) solicitado(s) localmente e então transfere os resultados de volta para o cliente. Alternativamente, os métodos desta invenção podem ser implementados em um formato “multitier” no qual um componente do método(s) é(são) feito(s) localmente pelo cliente. Isto pode ser implementado por software transferido do servidor mediante solicitação pelo (por exemplo, uma aplicação Java) ou pode ser implementado por software “permanentemente” instalado no cliente.
[00262] Em uma modalidade, aplicação(s) que implementa(m) os métodos desta invenção são divididas em quadros. Neste paradigma, é útil ver uma aplicação nem tanto como uma coleção de recursos ou funcionalidade mas, em vez disso, como uma coleção de quadros ou vistas discretas. Uma aplicação típica, por exemplo, geralmente inclui um conjunto de itens de menu, cada uma das quais invoca um quadro particular, ou seja, uma forma que manifesta certa funcionalidade da aplicação. Com esta perspectiva, uma aplicação é vista não como um corpo monolítico de código, mas como uma coleção de pequenos aplicativos, ou feixes de funcionalidade. Desta maneira, de dentro de um navegador, um usuário selecionaria um enlace de página da rede que, por sua vez, invocaria um quadro particular da aplicação (isto é, uma subaplicação). Assim, por exemplo, um ou mais quadros podem prover funcionalidade para entrar e/ou codificar molécula(s) biológica(s) em um ou mais espaços de dados, enquanto um outro quadro provê ferramentas para refinar um modelo do espaço de dados.
[00263] Em certas modalidades, os métodos desta invenção são implementados como um ou mais quadros que proveem, por exemplo, a(s) seguinte(s) funcionalidade(s): função(s) para codificar duas ou mais moléculas biológicas em cadeias de caracteres para prover uma coleção de duas ou mais diferentes cadeias de caracteres iniciais em que cada das ditas moléculas biológicas compreende um conjunto de subunidades selecionado; funções para selecionar pelo menos duas subcadeias a partir das cadeias de caracteres; funções para concatenar as subcadeias para formar uma ou mais cadeias de produto aproximadamente do mesmo comprimento de uma ou mais das cadeias de caracteres iniciais; funções para adicionar (colocar) as cadeias de produto em uma coleção de cadeias; funções para criar e manipular representação computacional/modelos de enzimas e substratos, funções para ancorar uma representação computacional de um substrato (por exemplo, um ligante) com a representação computacional de uma enzima (por exemplo, uma proteína); funções para aplicar dinâmica molecular nos modelos moleculares; funções para calcular várias restrições entre moléculas que afetam reações químicas envolvendo as moléculas (por exemplo, distância ou ângulo entre uma fração do substrato e um sítio ativo da enzima); e funções para implementar qualquer recurso apresentado aqui.
[00264] Uma ou mais dessas funcionalidades podem também ser implementadas exclusivamente em um servidor ou em um computador do cliente. Essas funções, por exemplo, funções para criar ou manipular modelos computacionais de moléculas biológicas, podem prover uma ou mais janelas em que o usuário pode inserir ou manipular representação(s) de moléculas biológicas. Além do mais, as funções também, opcionalmente, proveem acesso a bases de dados privadas e/ou públicas acessíveis através de uma rede local e/ou a intranet, por meio do que uma ou mais sequências contidas nas bases de dados podem ser alimentadas nos métodos desta invenção. Assim, por exemplo, em uma modalidade, o usuário pode, opcionalmente, ter a capacidade de solicitar uma busca de GenBank® e entrar com uma ou mais das sequências retornadas por uma busca como esta em uma função de codificação e/ou geração de diversidade.
[00265] Métodos de implementar Intranet e/ou modalidades de Intranet de processos computacionais e/ou de acesso de dados são bem conhecidos pelos versados na técnica e são documentados com bastante detalhe (Vide, por exemplo, Cluer et al. (1992) ““A General Frameword for the Optimization of Object-Oriented Queries”, Proc SIGMOD International Conference on Management of Data, San Diego, Califórnia, Jun. 2-5, 1992, SIGMOD Record, vol. 21, Issue 2, Jun., 1992; Stonebraker, M., Editor; ACM Press, pp. 383-392; ISO-ANSI, Working Draft, “Information TechnologyDatabase Language SQL,” Jim Melton, Editor, International Organization for Standardization and American National Standards Institute, Jul. 1992; Microsoft Corporation, “ODBC 2.0 Programamer’s Reference and SDK Guide. The Microsoft Open Database Standard for Microsoft Windows.TM e Windows NTTM, Microsoft Open Database Connectiviti.TM. Software Development Kit,” 1992, 1993, 1994 Microsoft Press, pp. 3-30 e 41-56; ISO Working Draft, “Database Language SQL-Part 2:Foundation (SQL/Foundation),” CD9075-2:199.chi.SQL, Sep. 11, 1997 e similares). Detalhes relevantes adicionais relativos a aplicações baseadas em rede são encontrados em WO 00/42559, intitulado ““METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS”, por Selifonov e Stemmer.
[00266] Em algumas modalidades, os métodos para explorar, triar e/ou desenvolver sequências de polinucleotídeos ou polipeptídeos podem ser implementados como um sistema multiusuários um sistema de computador com uma pluralidade de unidades de processamento e memórias distribuídas em uma rede de computador, em que a rede pode incluir intranet em LAN e/ou a Internet. Em algumas modalidades, a arquitetura de computação distribuída envolve uma “nuvem”, que é uma coleção de sistemas de computador disponível em uma rede de computador para computação e armazenamento de dados. O ambiente de computação envolvendo uma nuvem é referido como um ambiente de computação de nuvem. Em algumas modalidades, um ou mais usuários podem acessar os computadores da nuvem distribuídos em uma intranet e/ou na Internet. Em algumas modalidades, um usuário pode acessar remotamente, por meio de um cliente da rede, computadores servidores que implementam os métodos para triagem e/ou desenvolvimento de variantes de proteína anteriormente descritas.
[00267] Em algumas modalidades envolvendo um ambiente de computação de nuvem, máquinas virtuais (VMs) são aprovisionadas nos computadores servidores, e os resultados das máquinas virtuais podem ser reenviados ao usuário. Uma máquina virtual (VM) é uma emulação baseada em software de um computador. Máquinas virtuais podem ser baseadas em especificações de um computador hipotético ou emular a arquitetura de computador e funções de um computador do mundo real. A estrutura e funções de VMs são bem conhecidas na técnica. Tipicamente, uma VM é instalada em uma plataforma hospedeira que inclui hardware do sistema, e a própria VM inclui hardware virtual do sistema e software convidado.
[00268] O hardware do sistema hospedeiro para uma VM inclui uma ou mais Unidades de Processamento Central (CPUs), memória, um ou mais discos rígidos e vários outros dispositivos. O hardware do virtual do sistema da VM inclui uma ou mais CPUs virtuais, memória virtual, um ou mais discos rígidos virtuais e um ou mais dispositivos virtuais. O software convidado da VM inclui software do sistema convidado e aplicações convidadas. Em algumas implementações, software do sistema convidado inclui um sistema operacional convidado com unidades para dispositivos virtuais. Em algumas implementações, as aplicações convidadas da VM incluem pelo menos uma instância de um sistema de triagem de proteína virtual como anteriormente descrito.
[00269] Em algumas modalidades, o número de VMs aprovisionadas pode ser ajustado ao tamanho da carga computacional do problema a ser solucionado. Em algumas modalidades, um usuário pode solicitar uma máquina virtual de uma nuvem, a VM incluindo um sistema de triagem virtual. Em algumas modalidades, o ambiente de computação de nuvem pode aprovisionar uma VM com base na solicitação do usuário. Em algumas modalidades, uma VM pode existir em uma imagem da VM previamente armazenada, que pode ser armazenada em um repositório de imagem. O ambiente de computação de nuvem pode buscar e transferir a imagem para um servidor ou um sistema do usuário. O ambiente de computação de nuvem pode então executar a imagem no servidor ou sistema do usuário.
IX. EXEMPLOS Exemplo 1
[00270] O exemplo seguinte ilustra um processo de triar virtualmente variantes de enzima e desenvolver enzimas de atividade catalítica e seletividade desejadas implementando várias modalidades.
[00271] Resumidamente, o processo envolveu criar modelos de homologia tridimensional de um painel real de enzimas e triar virtualmente os elementos da enzima painel para selecionar uma primeira variante que (a) ancorou com o substrato em uma postura ativa, (b) ancorou em uma conformação pro-S, e (c) teve a menor energia de ligação total (ou pontuação do ancoragem) entre aquelas que ancoraram em posturas ativas e em uma conformação pro-S. O processo então usou a primeira variante como uma espinha dorsal da rodada 1, ou sequência parental, para criar uma biblioteca de variante virtual da rodada 1 usando técnicas de mutagênese virtual para evolução direcionada virtual. Então, o processo criou modelos de elementos da biblioteca de variante virtual da rodada 1, triou a biblioteca de variante virtual da rodada 1, e selecionou uma segunda variante como uma espinha dorsal da rodada 2 usando métodos de seleção similares na seleção da espinha dorsal da rodada 1. O processo também selecionou variantes adicionais da biblioteca de variante virtual da rodada 1. As variantes adicionais (a) ancoraram com o substrato em posturas ativas, e (b) tiveram baixa energia de ligação total (ou pontuação do ancoragem) entre aquelas que ancoram em posturas ativas. O processo então recombinou a espinha dorsal da rodada 2 com as variantes adicionais para introduzir diversidade em uma biblioteca de variante da rodada 2. Finalmente, o processo computacionalmente modelou modelada, triou e selecionou variantes, produzindo variantes de enzima virtuais com atividade e seletividade melhoradas, comparadas com a espinha dorsal da rodada 1 e rodada 2.
[00272] Mais especificamente, o processo exemplificativo começou criando 194 modelos de homologia de um painel de enzimas real. Essas enzimas catalisam um substrato nativo que é estruturalmente ou funcionalmente relacionado com um substrato desejado. O processo ancorou o substrato desejado nos modelos de homologia, e virtualmente triou elementos do painel de enzima real para encontrar somente uma variante que (a) ancorou com o substrato desejado em uma postura ativa, e (b) ancorou em uma conformação pro-S. Ligar com sucesso em uma postura ativa sugeriu que o ligante provavelmente passou por uma transformação catalítica ou que desempenha algum papel desejado tal como ligar covalentemente com o sítio de ligação. O ancoragem do substrato desejado e dos elementos do painel foi feito por métodos de ancoragem descritos em detalhes anteriormente. As frações funcionalmente relevantes do substrato desejado foram comparadas com o substrato nativo colocando os dois substratos nas mesmas coordenadas X, Y, Z em um espaço de ancoragem. Se uma postura do substrato desejado foi ativa, pro-S, ou pro-R, foi determinado pela distância entre as frações do substrato desejado e o substrato nativo. O critério da distância foi estabelecido em 1,25 Á para este exemplo. O valor e regras do critério (exigindo que a média, min, max, etc. das distâncias seja menor que o critério) podem ser ajustados em diferentes aplicações e em várias rodadas de evolução direcionada.
[00273] Observou-se que esta variante poderia se ligar no substrato tanto em conformações pro-S quanto pro-R. Suspeitou-se que a variante pode não se muito seletiva. Para derivar uma enzima ativa e S seletiva para o substrato desejado, esta variante foi selecionada como uma espinha dorsal da rodada 1 para criar uma biblioteca de variante da rodada 1 por mutagênese na primeira rodada de evolução direcionada in silico. Houver 15 posições de sítio ativo identificadas nesta espinha dorsal da rodada 1, e 19 aminoácidos possíveis para cada posição que seria diferente da variante da espinha dorsal da rodada 1, chegando a 285 diferentes possíveis mutações puntuais. Em evolução da rodada 1, 1.000 mutantes foram gerados para a biblioteca de variante da rodada 1, cada mutante tendo um número aleatório de mutações, em que o número aleatório foi selecionado de uma distribuição Gaussiana de média = 4 e SD=2. As mutações foram aleatoriamente escolhidas das 285 possíveis mutações puntuais.
[00274] Então, o processo usou métodos de ancoragem e triagem similares àqueles supradescritos para o painel de enzima real, com a exceção de que o critério para determinar atividade e seletividade de posturas foi estabelecido em um valor mais rigoroso de 1 Á, ao contrário de 1,25 Á. O processo identificou uma variante compreendendo a mutação tendo a menor energia de ligação total entre todos os mutantes que se ligariam em posturas ativa e pro-S. De fato, a mutação nesta variante impediu que o substrato se ligasse em uma conformação pro-R indesejada, representando uma mutação benéfica para seletividade. O processo assim selecionou esta variante como a espinha dorsal para uma evolução direcionada da rodada 2.
[00275] Entretanto, a energia de ligação da espinha dorsal da rodada 2 a 0,38303 kcal/mol foi relativamente alta, mesmo comparada com aquela determinada para a espinha dorsal da rodada 1 (-4,005 kcal/mol), sugerindo que a evolução poderia melhorar adicionalmente as propriedades benéficas da enzima. Uma evolução direcionada da rodada 2 foi realizada in silico introduzindo 29 mutações na espinha dorsal da rodada 2. As 29 mutações foram derivadas de 29 variantes da biblioteca da rodada 1 tendo a menor energia de ligação entre todas as variantes obtidas da evolução da rodada 1. Na evolução da rodada 2, 1.000 mutantes foram gerados para produzir a biblioteca de variante da rodada 2, cada mutante tendo um número aleatório de mutações, em que o número aleatório foi selecionado de uma distribuição Gaussiana de média = 6 e SD=4. As mutações foram aleatoriamente escolhidas das 29 possíveis mutações derivadas de 29 variantes.
[00276] Então, o processo usou métodos de ancoragem e triagem similares àqueles supradescritos para determinar que a maioria das variantes favoreceu a ligação do substrato em uma conformação pro-S desejada somente, e pelo menos 10 variantes tiveram melhor energia de ligação do que as espinhas dorsais da rodada 1 e da rodada 2. Vide Tabela 1 para as energias de ligação das variantes melhoradas da evolução da rodada 2 e espinhas dorsais da rodada 1 e rodada 2. Além de mostrar os dados da Tabela 1, a Figura 5 mostra a seletividade das 10 variantes melhoradas da evolução da rodada 2, bem como as espinhas dorsais da rodada 1 e rodada 2. A figura ilustra que triagem virtual do painel de enzima primeiro identificou a espinha dorsal da rodada 1 que teve uma baixa energia de ligação, mas não foi S- seletiva. O processo então melhorou a S-seletividade usando evolução direcionada in silico (mutagênese) para obter a espinha dorsal da rodada 2. O processo finalmente melhorou a ligação do substrato na evolução da rodada 2 através de recombinação, produzindo variantes de enzima que tiveram alta afinidade com o substrato desejado e foram enantiosseletivas. Tabela 1. Energias de ligação de Variantes da Evolução da Rodada 2
Figure img0001
Figure img0002
[00277] A diversidade provida nas duas rodadas de evolução foi gerada por mutagênese e recombinação, inspiradas por operações genéticas biológicas. Em algumas aplicações, o método de triagem de proteína virtual pode ser combinado com modelos de sequência-atividade que guiam métodos de evolução direcionada. Um modelo de atividade de sequência foi construído com técnicas de regressão linear múltipla de acordo com métodos descritos na Patente U.S. No. 7.783.428. Na figura 6A, a energia de ligação prevista do modelo de atividade de sequência é colocada em gráfico em função da energia observada obtida pelo sistema de triagem virtual para um conjunto de teste de sequências. Validação cruzada do modelo de atividade de sequência foi feita testando um conjunto de validação de sequências extraído do conjunto de teste. O modelo responde por 90,9% da variância no conjunto de teste (R2=0,909). Dados de validação cruzada na figura 6B mostram que o modelo de atividade de sequência foi preciso na previsão de energia de ligação das sequências de mutações particulares em posições particulares, que respondem por 82,9% da variância no conjunto de validação (R2=.829).
[00278] O modelo pode ser usado para identificar aminoácidos para mutagênese. Entre outras maneiras de usar um modelo de atividade de sequência para guiar evolução direcionada, uma maneira se baseia nos coeficientes de regressão para uma mutação particular de um resíduo específico em uma posição específica, que reflete a contribuição da mutação para a atividade de proteína. Especificamente, um processo de evolução direcionada poderia selecionar as posições para mutação avaliando os coeficientes dos termos do modela sequência-atividade para identificar um ou mais de aminoácidos que contribuem para energia de ligação substancial calculada pelo sistema de triagem virtual. Por exemplo, neste exemplo, mutação 1 tem um grande coeficiente positivo, indicando que mutação 1 aumenta a atividade até um grande valor. Vide, Figura 6C. Ao contrário, mutação 27 tem um grande coeficiente negativo, sugerindo que esta mutação deve ser evitada a fim de obter uma alta atividade, como medida na figura 6C. Exemplo 2
[00279] Exemplo 2 provê uma validação experimental de triar virtualmente variantes de cetorredutase para o R-enantiômero de um álcool quirral a partir de uma cetona pro-quiral, como a reação mostrada no topo da figura 7.
[00280] O processo envolveu criar modelos de homologia tridimensionais de dois painéis existentes de variantes de enzima de cetorredutase (formato de 96 poços para cada painel) e triar virtualmente os 192 elementos da cetorredutase Painéis para selecionar variantes que (a) ancoraram com o substrato em uma postura ativa, (b) ancoraram em uma conformação pro-R, e (c) tiveram pontuação do ancoragem favorável.
[00281] O processo identificou 24 variantes que podem levar a posturas ativa e energeticamente favoráveis, que podem ser priorizadas para adicionalmente desenvolvimento e triagem. Para validar a utilidade e validade dos resultados da triagem virtual in silico, o processo também fez triagem in vitro para todos 192 elementos com um protocolo padrão, e substrato/produtos foram detectados com cromatografia líquida de alto desempenho (HPLC).
[00282] Os resultados estão mostrados na figura 7, onde o eixo-s é % conversão calculada como (Área de PicO(R)-álcool + Área de PicO(S)-álcool ) + (Área de Pico(R)-álcool + Área de Pico(S)-álcool + Área de Picocetona)x 100% e eixo- y é % e.e. no sentido do produto R desejado (um índice de enantioseletividade) calculado como (Área de Pico(R)-álcool - Área de Pico(S)- álcool H( Área de Pico^cool + Área de Pico^álcool) x 100%. As 24 variantes priorizadas por triagem virtual foram enfatizadas como Quadrado Vermelho e as demais variantes foram salientadas como Diamante Azul. Os resultados sugerem: 1) triagem virtual pode ajudar determinar se uma conversão desejada é viável com um conjunto de variantes de enzima antes de qualquer triagem in vitro; 2) uma boa quantidade de variantes previstas certamente deu alta atividade (% Conversão) e enantioseletividade (% e.e.), a despeito do fato de que um substrato pequeno e flexível como este é normalmente considerada um desafio para modelagem. Triagem virtual pode portanto filtrar reações muito improváveis para triagem in vitro e selecionar menos amostras para testar (24 vs. 192, neste caso), que pode levar a reduções significantes de tempo de custo.
Exemplo 3
[00283] Exemplo 3 provê uma validação experimental de evolução direcionada virtual de transaminase para redução C=O estereosseletiva em CH-NH2, como a reação mostrada no topo da figura 8.
[00284] O processo envolveu criar modelos de homologia tridimensionais de 228 sequências virtuais de mutagênese saturada in silico de 12 posições de sítio ativo da espinha dorsal (12 posições x 19 AA/posição = 228 variantes, 1 mutação/variante) e triar virtualmente as 228 variantes virtuais para selecionar variantes que (a) ancoraram com o substrato em uma postura ativa, (b) ancoraram em uma conformação que leva a estereosseletividade desejada, e (c) tiveram a menor energia de ligação total entre aquelas que ancoraram em posturas ativas e em uma conformação alvejada.
[00285] O processo então identificou 12 variantes ou 12 mutações que podem levar a posturas ativas e energeticamente favoráveis. As 12 mutações foram usadas para sintetizar uma biblioteca, que foi triada in vitro. A triagem in vitro foi realizada para 360 variantes (uma ou mais de uma mutação por variante) com um protocolo proprietário. Substrato/produtos foram detectados com HPLC.
[00286] Os resultados para as melhores variantes da triagem in vitro são mostrados na figura 8, onde o eixo-x são as amostras triadas, e o eixo-y é FIOPC definida como Vezes de Melhoria em Relação ao Controle Positivo e calculado como (%ConversãoVariante - %ConversãoNegativeControl) + (%ConversãoPositiveControi - %ConversãONegativeControi) x 100%. Controle positivo é a espinha dorsal de triagem virtual e triagem in vitro e controle Negativo é o vetor vazio sem enzima.
[00287] A triagem da biblioteca in vitro resultou em 13% das variantes tendo um FIOPC > 1,5 e 5,3% com um FIOPC >2. O acerto superior teve um FIOPC de 2,4. Triagem virtual pode portanto filtrar mutações deletérias para triagem in vitro e ajudar projetar bibliotecas mais alvejadas, que pode levar a significantes reduções de tempo e custo. Por exemplo, se tivéssemos que estender a etapa de mutagênese saturada in vitro, pelo menos outras 800 variantes precisariam ser triadas.
[00288] Embora o exposto tenha sido descrito com um certo detalhe com propósitos de clareza e entendimento, ficará claro aos versados na técnica mediante uma leitura desta descrição que várias mudanças na forma e detalhe podem ser feitas sem fugir do verdadeiro escopo da descrição. Por exemplo, todas as técnicas e aparelho supradescritos podem ser usados em várias combinações. Todas publicações, patentes, pedidos de patente, ou outros documentos citados neste pedido estão incorporados pela referência em sua íntegra com todos os propósitos na mesma extensão que se cada publicação, patente, pedido de patente individual, ou outro documento fosse individualmente indicado para ser incorporado pela referência com todos os propósitos.

Claims (25)

1. Método implementado usando um sistema de computador que inclui um ou mais processadores e memória do sistema, para triar uma pluralidade de diferentes variantes de enzima para atividade com um substrato, o método caracterizado pelo fato de que compreende: (a) criar ou receber um modelo estrutural para cada uma da pluralidade de diferentes variantes enzimáticas, em que a pluralidade de diferentes variantes enzimáticas compreende pelo menos dez variantes diferentes e em que cada modelo estrutural contém uma representação computacional tridimensional de um sítio ativo de uma variante enzimática; (b) ancorar, para cada variante da enzima, pelo sistema de computador uma representação computacional do substrato a uma representação computacional de três dimensões de um sítio ativo da variante da enzima, em que a ancoragem (i) gera uma pluralidade de posturas do substrato no sítio ativo, em que uma postura compreende uma posição ou orientação do substrato em relação ao sítio ativo da variante enzimática, e (ii) identifica energeticamente posturas favoráveis do substrato no sítio ativo, em que uma postura energeticamente favorável é uma postura com uma energia favorável à ligação entre o substrato e a variante enzimática; (c) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o substrato se submeter a uma reação catalítica no sítio ativo; e (d) selecionar pelo menos uma das variantes de enzima tendo um sítio ativo no qual o substrato tenha uma ou mais posturas ativas como determinado em (c).
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a representação computacional do substrato representa uma espécie ao longo da coordenada da reação para a atividade enzimática, a espécie sendo selecionada do substrato, um intermediário de reação do substrato ou um estado de transição do substrato.
3. Método de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que a pluralidade de variantes de enzima compreende um painel de enzimas que podem inverter múltiplos substratos e em que os membros do painel possuem pelo menos uma mutação relativa a uma sequência de referência.
4. Método de acordo com a reivindicação 3, caracterizado pelo fato de que pelo menos uma mutação é uma mutação de resíduo único no sítio ativo da enzima.
5. Método de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que a pluralidade de variantes compreende uma ou mais enzimas que podem catalisar uma reação química selecionada de oxirredução, transferação, hidrólise, isomerização, ligação e quebra da ligação química por uma reação a não ser hidrólise, oxidação ou redução.
6. Método de acordo com a reivindicação 5, caracterizado pelo fato de que a enzima é selecionada de oxidorredutase, transferase, hidrolase, isomerase, ligase e liase.
7. Método de acordo com a reivindicação 5, caracterizado pelo fato de que a pluralidade de variantes compreende uma ou mais enzimas que podem catalisar uma reação química selecionada de redução de cetona, transaminação, oxidação, hidrólise de nitrila, redução de imina, redução de enona, hidrólise de acila e desalogenação de halo-hidrina.
8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que a enzima é selecionada de cetona redutase, transaminase, citocromo P450, mono-oxigenase de Baeyer-Villiger, monoamina oxidase, nitrilase, imina redutase, enona redutase, acilase e halo-hidrina desidrogenase.
9. Método de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que a pluralidade de variantes compreende pelo menos cerca de milhares de variantes diferentes.
10. Método de acordo com qualquer uma das reivindicações 1 a 9, caracterizado pelo fato de que adicionalmente compreende identificar as restrições para o substrato se submeter à transformação química catalisada identificando uma ou mais posturas de um substrato nativo, um intermediário de reação do substrato nativo, ou um estado de transição do substrato nativo quando o substrato nativo se submete à transformação química catalisada por uma enzima tipo selvagem.
11. Método de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que as restrições compreendem um ou mais do seguinte: posição, distância, ângulo e restrições de torção.
12. Método de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que as restrições compreendem uma distância entre uma fração particular no substrato e um resíduo particular ou fração do resíduo no sítio ativo.
13. Método de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que as restrições compreendem uma distância entre uma fração particular no substrato e um resíduo particular ou fração do resíduo em um cofator.
14. Método de acordo com qualquer uma das reivindicações 1 a 13, caracterizado pelo fato de que as restrições compreendem uma distância entre uma fração particular no substrato e um substrato nativo idealmente posicionado no sítio ativo.
15. Método de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que o método adicionalmente compreende aplicar um conjunto de uma ou mais restrições enzimáticas à pluralidade de variantes de enzima, em que uma ou mais restrições enzimáticas são similares às restrições de uma enzima tipo selvagem quando um substrato nativo se submete a uma transformação química catalisada na presença da enzima tipo selvagem.
16. Método de acordo com qualquer uma das reivindicações 1 a 15, caracterizado pelo fato de que a pluralidade das posturas do substrato é obtida por uma ou mais operações de ancoragem selecionadas do grupo consistindo em: dinâmicas moleculares de alta temperatura, rotação aleatória, refinamento por anelamento simulado com base em grelha, minimização com base em grelha ou de campo de força completa e quaisquer combinações dos mesmos.
17. Método de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que adicionalmente compreende: preparar uma pluralidade de oligonucleotídeos que contém ou codifica pelo menos uma porção de pelo menos uma variante selecionada em (c); e realizar uma ou mais rodadas da evolução direcionada usando a pluralidade de oligonucleotídeos.
18. Método de acordo com qualquer uma das reivindicações 1 a 17, caracterizado pelo fato de que pelo menos uma variante da enzima tem atividade catalítica e/ou seletividade desejada.
19. Método de acordo com qualquer uma das reivindicações 1 a 18, caracterizado pelo fato de que adicionalmente compreende sintetizar pelo menos uma variante da enzima selecionada em (c).
20. Meio de armazenamento legível por computador, caracterizado pelo fato de possuir armazenado nele instruções executáveis pelo computador que, quando executadas por um ou mais processadores de um sistema de computador, fazem com que o sistema de computador implemente um método para triagem virtual das variantes de enzima, as instruções compreendendo: (a) criar ou receber um modelo estrutural para cada uma da pluralidade de diferentes variantes enzimáticas, em que a pluralidade de diferentes variantes enzimáticas compreende pelo menos dez variantes diferentes e em que cada modelo estrutural contém uma representação computacional tridimensional de um sítio ativo de uma variante enzimática; (b) para cada variante da enzima, ancorar uma representação computacional do substrato a uma representação computacional de três dimensões de um sítio ativo da variante da enzima, em que a ancoragem (i) gera uma pluralidade das posturas do substrato no sítio ativo, em que uma postura compreende uma posição ou orientação do substrato em relação ao sítio ativo da variante enzimática, e (ii) identifica posturas energeticamente favoráveis do substrato no sítio ativo, em que uma postura energeticamente favorável é uma postura com uma energia favorável à ligação entre o substrato e a variante enzimática; (c) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o substrato se submeter à reação catalítica no sítio ativo; e (d) selecionar pelo menos uma das variantes de enzima tendo um sítio ativo no qual o substrato tenha uma ou mais posturas ativas como determinado em (c).
21. Meio de armazenamento legível por computador de acordo com a reivindicação 20, caracterizado pelo fato de que adicionalmente compreende instruções executáveis por computador que, quando executadas por um ou mais processadores de um sistema de computador, fazem com que o sistema de computador implemente um método, como definido em qualquer uma das reivindicações definidas em 2 a 28.
22. Sistema, caracterizado pelo fato de que compreende: um ou mais processadores; e memória do sistema; em que um ou mais processadores e memória são configurados para implementar um método para virtualmente triar variantes de enzima para atividade com um substrato, o método compreendendo: (a) criar ou receber um modelo estrutural para cada uma da pluralidade de diferentes variantes enzimáticas, em que a pluralidade de diferentes variantes enzimáticas compreende pelo menos dez variantes diferentes e em que cada modelo estrutural contém uma representação computacional tridimensional de um sítio ativo de uma variante enzimática; (b) para cada variante da enzima, ancorar uma representação computacional do substrato a uma representação computacional de três dimensões do sítio ativo da variante da enzima, em que a ancoragem (i) gera uma pluralidade das posturas do substrato no sítio ativo, em que uma postura compreende uma posição ou orientação do substrato em relação ao local ativo da variante enzimática, e (ii) identifica as posturas energeticamente favoráveis do substrato no sítio ativo, em que uma postura energeticamente favorável é uma postura com uma energia favorável à ligação entre o substrato e a variante enzimática; (c) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o substrato se submeter à reação catalítica no sítio ativo; e (d) selecionar pelo menos uma das variantes de enzima tendo um sítio ativo no qual o substrato tenha uma ou mais posturas ativas como determinado em (c).
23. Sistema de acordo com a reivindicação 22, caracterizado pelo fato de que um ou mais processadores e memória são configurados para implementar um método, como definido em qualquer das reivindicações 2 a 28.
24. Método implementado usando um sistema de computador que inclui um ou mais processadores e memória do sistema, para triar uma pluralidade de diferentes variantes de proteína para interação com um ligante, caracterizado pelo fato de que o método compreende: (a) criar ou receber um modelo estrutural para cada uma da pluralidade de diferentes variantes de proteínas, em que a pluralidade de diferentes variantes de proteínas compreende pelo menos dez variantes diferentes e em que cada modelo estrutural contém uma representação computacional tridimensional de um local sítio de uma variante proteica; (b) ancorar, para cada variante de proteína, pelo sistema de computador, uma representação computacional do ligante a uma representação computacional de três dimensões de um sítio ativo da variante de proteína, em que a ancoragem (i) gera uma pluralidade das posturas do ligante no sítio ativo, em que uma postura compreende uma posição ou orientação do ligante em relação ao sítio ativo da variante de proteína, e (ii) identifica posturas energeticamente favoráveis do ligante no sítio ativo, em que uma postura energeticamente favorável é uma postura com uma energia favorável à ligação entre o ligante e a variante proteica; (c) para cada postura energeticamente favorável, determinar se a postura é ativa, em que uma postura ativa atende uma ou mais restrições para o ligante se submeter a uma interação particular com variante de proteína; e (d) selecionar pelo menos uma das variantes de proteína tendo um sítio ativo no qual o ligante tem uma ou mais posturas ativas como determinado em (c).
25. Método de acordo com a reivindicação 24, caracterizado pelo fato de que o ligante é selecionado de um substrato, um intermediário de um substrato, um estado de transição de um substrato, um produto de um substrato, um inibidor de uma variante de proteína, um agonista de uma variante de proteína e um antagonista de uma variante de proteína.
BR112016006285-0A 2013-09-27 2014-09-26 Método implementado usando um sistema de computador, meio de armazenamento legível por computador, e, sistema BR112016006285B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361883838P 2013-09-27 2013-09-27
US61/883,838 2013-09-27
PCT/US2014/057899 WO2015048572A1 (en) 2013-09-27 2014-09-26 Automated screening of enzyme variants

Publications (2)

Publication Number Publication Date
BR112016006285A2 BR112016006285A2 (pt) 2017-08-01
BR112016006285B1 true BR112016006285B1 (pt) 2022-09-06

Family

ID=51662390

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016006285-0A BR112016006285B1 (pt) 2013-09-27 2014-09-26 Método implementado usando um sistema de computador, meio de armazenamento legível por computador, e, sistema

Country Status (15)

Country Link
US (3) US10696964B2 (pt)
EP (2) EP3049973B1 (pt)
JP (3) JP6857029B2 (pt)
KR (1) KR102342205B1 (pt)
CN (1) CN105765592B (pt)
AU (1) AU2014324669B2 (pt)
BR (1) BR112016006285B1 (pt)
CA (1) CA2923755C (pt)
DK (2) DK3418929T3 (pt)
ES (2) ES2693150T3 (pt)
HU (2) HUE053049T2 (pt)
IL (1) IL244457B (pt)
RU (2) RU2016116253A (pt)
SG (1) SG11201601695WA (pt)
WO (1) WO2015048572A1 (pt)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2016116253A (ru) 2013-09-27 2017-11-01 Кодексис, Инк. Автоматизированный скрининг вариантов фермента
DK3049979T3 (da) 2013-09-27 2020-02-17 Codexis Inc Struktur-baseret prædiktiv konstruktion
EP3069284B1 (en) * 2013-11-15 2020-06-10 Hinge Therapeutics, Inc. Computer-assisted modeling for treatment design
SG11201703258PA (en) 2014-11-25 2017-05-30 Codexis Inc Engineered imine reductases and methods for the reductive amination of ketone and amine compounds
HUE062016T2 (hu) 2014-12-22 2023-09-28 Codexis Inc Humán alfa-galaktozidáz variánsok
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
WO2017155945A1 (en) * 2016-03-09 2017-09-14 President And Fellows Of Harvard College Methods and systems of cell-free enzyme discovery and optimization
EP3579867A4 (en) 2017-02-13 2021-03-10 Codexis, Inc. MANIPULATED PHENYLALANINE AMMONIA LYASE POLYPEPTIDES
JP6917050B2 (ja) * 2017-03-06 2021-08-11 学校法人早稲田大学 最適特性を有する非天然型タンパク質の製造方法
CA3061133A1 (en) 2017-04-27 2018-11-01 Codexis, Inc. Ketoreductase polypeptides and polynucleotides
WO2018208665A1 (en) * 2017-05-08 2018-11-15 Codexis, Inc. Engineered ligase variants
EP3404567A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
EP3642748A4 (en) * 2017-06-19 2021-03-10 Jungla LLC INTERPRETATION OF GENETIC AND GENOMIC VARIANTS VIA AN INTEGRATED COMPUTING AND EXPERIMENTAL FRAMEWORK FOR DEEP MUTATION LEARNING
CA3066767A1 (en) 2017-06-30 2019-01-03 Codexis, Inc. T7 rna polymerase variants
EP3645711A4 (en) 2017-06-30 2021-04-21 Codexis, Inc. T7 RNA POLYMERASE VARIANTS
WO2019012095A1 (en) * 2017-07-14 2019-01-17 C-Lecta Gmbh TCO-reductase
CN107832577B (zh) * 2017-10-30 2021-07-13 中国农业大学 一种筛选几丁质酶OfChtⅠ抑制剂的方法
CN107974484A (zh) * 2017-11-10 2018-05-01 嘉兴欣贝莱生物科技有限公司 根皮素生物合成过程中查尔酮合成酶建模方法
US20190272887A1 (en) * 2018-03-05 2019-09-05 The Board Of Trustees Of The Leland Stanford Junior University Machine Learning and Molecular Simulation Based Methods for Enhancing Binding and Activity Prediction
EP3613855A1 (en) * 2018-08-23 2020-02-26 Clariant Produkte (Deutschland) GmbH Method for the production of a nucleic acid library
EP3640864A1 (en) 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
US11060075B2 (en) 2018-10-29 2021-07-13 Codexis, Inc. Engineered DNA polymerase variants
SG11202105668PA (en) 2018-12-14 2021-06-29 Codexis Inc Engineered tyrosine ammonia lyase
CA3123598A1 (en) 2018-12-20 2020-06-25 Codexis, Inc. Human alpha-galactosidase variants
CN109841263B (zh) * 2019-02-22 2023-08-15 成都分迪科技有限公司 蛋白降解药物分子库及其构建方法
JP7344509B2 (ja) * 2019-09-20 2023-09-14 公立大学法人 富山県立大学 光学活性フルオロアルコールおよび光学活性クロロフルオロアルコールの製造方法
EP4053269A4 (en) * 2019-10-28 2022-11-02 Asymchem Laboratories (Tianjin) Co., Ltd TRANSAMINASE MUTANT AND USE THEREOF
BR112022011760A2 (pt) 2019-12-20 2022-08-30 Codexis Inc Fragmento de alfa glicosidase ácida recombinante e/ou de alfa glicosidase ácida recombinante biologicamente ativa, alfa glicosidase ácida recombinante, composição, sequência polinucleotídica recombinante, vetor de expressão, vetor de expressão pdh, célula hospedeira, método para produzir uma variante de alfa glicosidase ácida recombinante, variante de alfa glicosidase ácida recombinante, composição farmacêutica para o tratamento da doença de pompe, composição farmacêutica, método para tratar e/ou prevenir os sintomas da doença de pompe em um indivíduo, e, uso das composições
CN111681703A (zh) * 2020-05-09 2020-09-18 北京纽伦智能科技有限公司 一种蛋白结构的对接方法及分布式蛋白结构对接系统
CN114822717A (zh) * 2021-01-28 2022-07-29 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备及存储介质
WO2023022783A1 (en) * 2021-08-17 2023-02-23 University Of Southern California System and method for computational enzyme design based on maximum entropy
CN113921082B (zh) * 2021-10-27 2023-04-07 云舟生物科技(广州)股份有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Family Cites Families (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
JPH04179495A (ja) 1990-11-14 1992-06-26 M D Res Kk 融合蛋白質、およびペプチド又は蛋白質の製造方法
US5426039A (en) 1993-09-08 1995-06-20 Bio-Rad Laboratories, Inc. Direct molecular cloning of primer extended DNA containing an alkane diol
US6117679A (en) 1994-02-17 2000-09-12 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6335160B1 (en) 1995-02-17 2002-01-01 Maxygen, Inc. Methods and compositions for polypeptide engineering
US6406855B1 (en) 1994-02-17 2002-06-18 Maxygen, Inc. Methods and compositions for polypeptide engineering
US20060257890A1 (en) 1996-05-20 2006-11-16 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US5834252A (en) 1995-04-18 1998-11-10 Glaxo Group Limited End-complementary polymerase reaction
US5928905A (en) 1995-04-18 1999-07-27 Glaxo Group Limited End-complementary polymerase reaction
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US6395547B1 (en) 1994-02-17 2002-05-28 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6995017B1 (en) 1994-02-17 2006-02-07 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US5837458A (en) 1994-02-17 1998-11-17 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6165793A (en) 1996-03-25 2000-12-26 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6309883B1 (en) 1994-02-17 2001-10-30 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6096548A (en) 1996-03-25 2000-08-01 Maxygen, Inc. Method for directing evolution of a virus
US6506602B1 (en) 1996-03-25 2003-01-14 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6326204B1 (en) 1997-01-17 2001-12-04 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
US7148054B2 (en) 1997-01-17 2006-12-12 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
EP2261373A3 (en) 1997-01-17 2011-12-14 Codexis Mayflower Holdings, LLC Evolution of whole cells and organisms by recursive sequence recombination
US5914245A (en) 1998-04-20 1999-06-22 Kairos Scientific Inc. Solid phase enzyme kinetics screening in microcolonies
US6365408B1 (en) 1998-06-19 2002-04-02 Maxygen, Inc. Methods of evolving a polynucleotides by mutagenesis and recombination
JP4221100B2 (ja) 1999-01-13 2009-02-12 エルピーダメモリ株式会社 半導体装置
US6376246B1 (en) 1999-02-05 2002-04-23 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
WO2000042560A2 (en) 1999-01-19 2000-07-20 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides
US6368861B1 (en) 1999-01-19 2002-04-09 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
WO2000042559A1 (en) 1999-01-18 2000-07-20 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6436675B1 (en) 1999-09-28 2002-08-20 Maxygen, Inc. Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US6917882B2 (en) 1999-01-19 2005-07-12 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7024312B1 (en) 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7702464B1 (en) 2001-08-21 2010-04-20 Maxygen, Inc. Method and apparatus for codon determining
US6961664B2 (en) 1999-01-19 2005-11-01 Maxygen Methods of populating data structures for use in evolutionary simulations
US20070065838A1 (en) 1999-01-19 2007-03-22 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
AU3391900A (en) 1999-03-05 2000-09-21 Maxygen, Inc. Encryption of traits using split gene sequences
US6969763B1 (en) 1999-05-12 2005-11-29 Isis Pharmaceuticals, Inc. Molecular interaction sites of interleukin-2 RNA and methods of modulating the same
US7430477B2 (en) 1999-10-12 2008-09-30 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6519065B1 (en) 1999-11-05 2003-02-11 Jds Fitel Inc. Chromatic dispersion compensation device
EP1272839A4 (en) * 2000-03-23 2006-03-01 California Inst Of Techn METHOD AND APPARATUS FOR PREDICTING LINK INTERACTIONS FOR LIGANDS
EP1272967A2 (en) 2000-03-30 2003-01-08 Maxygen, Inc. In silico cross-over site selection
US20020133297A1 (en) 2001-01-17 2002-09-19 Jinn-Moon Yang Ligand docking method using evolutionary algorithm
US7465567B2 (en) 2001-04-16 2008-12-16 California Institute Of Technology Peroxide-driven cytochrome P450 oxygenase variants
US7226768B2 (en) 2001-07-20 2007-06-05 The California Institute Of Technology Cytochrome P450 oxygenases
DK2390803T3 (da) 2002-03-01 2014-01-27 Codexis Mayflower Holdings Llc Fremgangsmåder, systemer og software til identificering af funktionelle biomolekyler
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
WO2003078583A2 (en) 2002-03-09 2003-09-25 Maxygen, Inc. Optimization of crossover points for directed evolution
US20060099667A1 (en) * 2002-10-28 2006-05-11 Francois Andre Method for performing restrained dynamics docking of one or multiple substrates on multi-specific enzymes
US20060121455A1 (en) * 2003-04-14 2006-06-08 California Institute Of Technology COP protein design tool
CN1468959A (zh) * 2003-06-02 2004-01-21 复旦大学 非典型性肺炎冠状病毒蛋白质空间构象模型及其应用
EP1639091B1 (en) 2003-06-17 2012-12-05 California University Of Technology Regio- and enantioselective alkane hydroxylation with modified cytochrome p450
US8005620B2 (en) 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering
US7435570B2 (en) 2003-08-11 2008-10-14 California Institute Of Technology Thermostable peroxide-driven cytochrome P450 oxygenase variants and methods of use
JP2005309877A (ja) 2004-04-22 2005-11-04 National Institute Of Advanced Industrial & Technology 機能性生体分子の配列解析方法
WO2006044378A2 (en) 2004-10-12 2006-04-27 University Of Iowa Research Foundation Rapid computational identification of targets
WO2006121455A1 (en) 2005-05-10 2006-11-16 The Salk Institute For Biological Studies Dynamic signal processing
JP2009525274A (ja) * 2006-01-23 2009-07-09 ジョゼフ・ピー・エリコ 標的薬物開発の方法および組成物
RU2008140858A (ru) 2006-03-15 2010-04-20 Ксир (Za) Способ скрининга соединений, обладающих активностью ингибитора глутамин синтетазы
EP2046806A4 (en) 2006-07-05 2009-10-21 Scripps Research Inst CHIMERIC RECOMBINASES WITH ZINC FINGERS OPTIMIZED FOR CATALYSIS BY DIRECT EVOLUTION
US7814234B2 (en) 2006-10-30 2010-10-12 Microsoft Corporation Offline execution of web based applications
KR101502634B1 (ko) 2007-02-08 2015-03-16 코덱시스, 인코포레이티드 케토 환원 효소 및 이의 용도
US20090118130A1 (en) 2007-02-12 2009-05-07 Codexis, Inc. Structure-activity relationships
US7977078B2 (en) 2007-08-24 2011-07-12 Codexis, Inc. Ketoreductase polypeptides for the production of (R)-3-hydroxythiolane
WO2009036404A2 (en) 2007-09-13 2009-03-19 Codexis, Inc. Ketoreductase polypeptides for the reduction of acetophenones
KR20100061571A (ko) 2007-09-28 2010-06-07 코덱시스, 인코포레이티드 케토리덕타제 폴리펩티드 및 이의 용도
SI2205727T1 (sl) 2007-10-01 2015-09-30 Codexis, Inc. Polipeptidi ketoreduktaze za izdelavo azetidinona
MX2010003724A (es) 2007-10-04 2010-09-14 Halcyon Molecular Secuenciacion de polimeros de acido nucleico con microscopia electronica.
JP4564097B2 (ja) 2007-11-12 2010-10-20 株式会社インシリコサイエンス インシリコスクリーニング装置、および、インシリコスクリーニング方法
US8383346B2 (en) 2008-06-13 2013-02-26 Codexis, Inc. Combined automated parallel synthesis of polynucleotide variants
CA2726850C (en) 2008-06-13 2015-06-02 Codexis, Inc. Method of synthesizing polynucleotide variants
ES2438576T3 (es) 2008-06-24 2014-01-17 Codexis, Inc. Procesos biocatalíticos para la preparación de compuestos de prolina bicíclica fusionada considerablemente pura estereoméricamente
LT2315773T (lt) 2008-07-25 2016-11-10 Glaxosmithkline Biologicals S.A. Polipeptidai, polinukleotidai ir kompozicijos, skirti naudoti latentinės tuberkuliozės gydymui
HUE026181T2 (en) 2008-08-27 2016-05-30 Codexis Inc Ketoreductase polypeptide for the preparation of 3-aryl-3-hydroxypropanamine from 3-aryl-3-ketopropanamine
WO2010054319A2 (en) 2008-11-10 2010-05-14 Codexis, Inc. Penicillin-g acylases
WO2010077470A2 (en) 2008-11-19 2010-07-08 University Of Washington Enzyme catalysts for diels-alder reactions
EP2379713A4 (en) 2008-12-18 2013-07-10 Codexis Inc RECOMBINANT HALOHYDRIN DEHALOGENASE POLYPEPTIDES
WO2010075574A2 (en) 2008-12-25 2010-07-01 Codexis, Inc. Enone reductases
EP2385983B1 (en) 2009-01-08 2017-12-20 Codexis, Inc. Transaminase polypeptides
JP5707344B2 (ja) 2009-02-26 2015-04-30 コデクシス, インコーポレイテッド トランスアミナーゼ生体触媒
US8614081B2 (en) 2009-07-23 2013-12-24 Codexis, Inc. Nitrilase biocatalysts
SG181535A1 (en) 2009-12-08 2012-07-30 Codexis Inc Synthesis of prazole compounds
CN102939383B (zh) 2009-12-30 2015-04-29 先锋国际良种公司 用于靶向多核苷酸修饰的方法和组合物
EP2649187B1 (en) 2010-12-08 2017-11-22 Codexis, Inc. Biocatalysts and methods for the synthesis of armodafinil
CN102156823B (zh) * 2011-02-18 2015-04-22 复旦大学 一种靶向作用于蛋白激酶非活性构象的化合物筛选方法
JP2015522015A (ja) 2012-06-29 2015-08-03 ウイスコンシン アラムニ リサーチ ファンデーション 続発性副甲状腺機能亢進症を治療するための2−メチレン−19−ノル−(20S)−1α,25−ジヒドロキシビタミンD3の使用
US20140303952A1 (en) 2013-04-08 2014-10-09 City University Of Hong Kong Protein-ligand docking
CN103265635A (zh) * 2013-04-28 2013-08-28 中山大学附属第一医院 一种通用的靶向蛋白嵌合型分子化合物的构建方法
CN103324861B (zh) 2013-07-10 2016-07-20 南京大学 基于分子动力学模拟的核受体介导内分泌干扰物质的虚拟筛选方法
DK3049979T3 (da) 2013-09-27 2020-02-17 Codexis Inc Struktur-baseret prædiktiv konstruktion
RU2016116253A (ru) 2013-09-27 2017-11-01 Кодексис, Инк. Автоматизированный скрининг вариантов фермента

Also Published As

Publication number Publication date
KR20160057482A (ko) 2016-05-23
HUE053049T2 (hu) 2021-06-28
US10696964B2 (en) 2020-06-30
AU2014324669B2 (en) 2020-06-04
CA2923755A1 (en) 2015-04-02
HUE039618T2 (hu) 2019-01-28
CN105765592A (zh) 2016-07-13
US20200277597A1 (en) 2020-09-03
EP3418929A1 (en) 2018-12-26
DK3418929T3 (da) 2021-02-01
RU2019140645A (ru) 2020-01-27
US11535845B2 (en) 2022-12-27
CN105765592B (zh) 2019-12-17
JP2019083025A (ja) 2019-05-30
US20230048421A1 (en) 2023-02-16
EP3418929B1 (en) 2020-12-09
ES2693150T3 (es) 2018-12-07
SG11201601695WA (en) 2016-04-28
JP6857029B2 (ja) 2021-04-14
CA2923755C (en) 2023-03-14
BR112016006285A2 (pt) 2017-08-01
NZ717658A (en) 2020-11-27
WO2015048572A1 (en) 2015-04-02
IL244457A0 (en) 2016-04-21
JP2016537700A (ja) 2016-12-01
AU2014324669A1 (en) 2016-03-24
RU2016116253A (ru) 2017-11-01
IL244457B (en) 2021-05-31
ES2857711T3 (es) 2021-09-29
JP2021131901A (ja) 2021-09-09
KR102342205B1 (ko) 2021-12-21
US20150133307A1 (en) 2015-05-14
EP3049973B1 (en) 2018-08-08
DK3049973T3 (en) 2018-10-22
EP3049973A1 (en) 2016-08-03

Similar Documents

Publication Publication Date Title
US11535845B2 (en) Automated screening of enzyme variants
US11342046B2 (en) Methods and systems for engineering biomolecules
Garcia et al. Computationally guided discovery and experimental validation of indole-3-acetic acid synthesis pathways
Wang et al. Using RNA-seq for analysis of differential gene expression in fungal species
NZ717658B2 (en) Automated screening of enzyme variants
Schwarz Low-coverage transcriptomics for understanding genetic regulation of complex traits

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: G06F 19/00 , G06F 19/16

Ipc: C12N 15/10 (2006.01), G16B 35/00 (2006.01), G16B 3

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 26/09/2014, OBSERVADAS AS CONDICOES LEGAIS