BR112015018449B1

BR112015018449B1 - Método implementado por computador para identificar moléculas biológicas tendo uma atividade desejada, meio de armazenamento lido por computador, e, sistema de computação

Info

Publication number: BR112015018449B1
Application number: BR112015018449-9A
Authority: BR
Inventors: Allan Gregory Cope
Original assignee: Codexis, Inc
Priority date: 2013-01-31
Filing date: 2014-01-29
Publication date: 2022-05-31
Also published as: US20170204405A1; KR102215219B1; CN105144190A; EP2951754B1; CN109360608B; AU2014212432A1; WO2014120819A1; IL240055A0; SG11201505969XA; AU2014212430B2; CA2898777C; CN109360608A; AU2014212430A1; EP2951754A4; JP2017189176A; AU2014212432B2; EP2951579A1; JP2016511884A; US9665694B2; CN105144190B

Abstract

MÉTODO PARA IDENTIFICAR MOLÉCULAS BIOLÓGICAS PARA AFETAR UMA ATIVIDADE DESEJADA E SISTEMA DE COMPUTAÇÃO. A presente invenção estabelece métodos para procurar de forma rápida e eficiente espaços de dados biologicamente relacionados. Mais especificamente, a presente invenção estabelece métodos para identificar biomoléculas com as propriedades desejadas, ou que sejam mais apropriadas para adquirir tais propriedades, a partir de complexas bibliotecas de biomoléculas ou conjuntos de tais bibliotecas. A presente invenção também estabelece os métodos para modelar as relações das atividades sequenciais, incluindo, mas não se limitando a técnicas de acréscimo ou subtração gradual, regressão Bayesiana, regressão conjunta e outros métodos. A presente invenção também estabelece sistemas digitais e softwares para executar os métodos estabelecidos na presente invenção.

Description

Campo da Invenção

[01] A presente invenção relaciona-se com os campos da biologia molecular, evolução molecular, bioinformática, e sistemas digitais. Mais especificamente, a invenção relaciona-se com os métodos para prever de forma computacional a atividade de uma biomolécula e/ou guiar a evolução direcionada. Sistemas, incluindo sistemas digitais, e softwares de sistema para executar esses métodos também são fornecidos. Os métodos da presente invenção possuem utilidade na otimização de proteínas para uso industrial e terapêutico.

Histórico da Invenção

[02] O design de proteínas tem sido conhecido há muito tempo como uma tarefa difícil quanto mais não seja devido à explosão combinatória das possíveis moléculas que constituem um espaço sequencial pesquisável. Um espaço sequencial de proteínas é imenso e é impossível explorar exaustivamente usando os métodos conhecidos atualmente na tecnologia existente. Por causa dessa complexidade, muitos métodos aproximados têm sido usados para projetar proteínas melhores; o principal entre eles é o método de evolução direcionada. Hoje, a evolução direcionada de proteínas é dominada por vários formatos de rastreamento e recombinação de alta capacidade, geralmente realizados iterativamente.

[03] Ao mesmo tempo, várias técnicas computacionais têm sido propostas para explorar o espaço da atividade sequencial. Embora cada técnica computacional tenha vantagens em certos contextos, novas maneiras de pesquisar espaços sequenciais de forma eficiente para identificar proteínas funcionais seria altamente desejável.

Referência à Listagem de Sequencia

[04] A Listagem de Sequência submetida juntamente com este documento é ora incorporada para referência complementar. A cópia eletrônica da Listagem Sequencial está gravada em disco compacto não regravável (CD) nos termos da Resolução No 228/2009 do Instituto Nacional da Propriedade Industrial - INPI, em uma forma legível por computador no formato de texto (.txt).

Descrição Resumida da Invenção

[05] A presente invenção apresenta as técnicas para gerar e usar modelos de atividade sequencial que empreguem termos não lineares, particularmente os termos que respondam pelas interações entre duas ou mais subunidades em uma sequência. Os modelos de atividade sequencial descrevem as atividades, características, ou propriedades das moléculas biológicas como funções de várias sequências biológicas. Esses termos não lineares podem ser termos de “produtos cruzados” que envolvam a multiplicação de duas ou mais variáveis, cada uma representando a presença (ou ausência) das subunidades que participam da interação. Algumas concretizações envolvem técnicas para selecionar os termos não lineares que melhor descrevam a atividade da sequência. Observe que geralmente há muito mais termos de interação não linear possíveis do que verdadeiras interações entre as subunidades. Logo, para evitar sobreajustamento, somente um número limitado de termos não lineares costuma ser considerado e aqueles empregados devem refletir as interações que afetam consideravelmente a atividade.

[06] Um aspecto da presente invenção estabelece um método para preparar um modelo de atividade sequencial que possa ajudar a identificar moléculas biológicas com a atividade incrementada desejada, o método compreende: (a) receber dados sobre sequências e atividades para um grande número de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, através do qual o modelo básico preveja a atividade como função da presença ou ausência de subunidades da sequência; (c) preparar pelo menos um novo modelo através do acréscimo ou subtração de pelo menos um novo termo de interação com ou a partir do modelo básico, através do qual o novo termo de interação represente a interação entre duas ou mais subunidades interativas; (d) determinar a capacidade de pelo menos um novo modelo de prever a atividade como função da presença ou ausência do subunidades; e (e) determinar se seria necessário acrescentar ou subtrair o novo termo de interação com ou a partir do modelo básico com base na capacidade de pelo menos um novo modelo de prever a atividade conforme determinada em (d) e com um viés contra o acréscimo do novo termo de interação. O modelo derivado poderá então ser usado em várias aplicações, tais como de bibliotecas da evolução direcionada de proteínas para identificar proteínas com as atividades e propriedades biológicas desejadas.

[07] Em algumas concretizações, através das quais o método determina se o novo termo de interação deve ser acrescentado ao modelo básico para produzir um modelo atualizado, o método também inclui passos adicionais para procurar por termos de interação adicionais que possam melhorar ainda mais o modelo atualizado. Especificamente, o método inclui: (f) repetição (c) usar o modelo atualizado no lugar do modelo básico e acrescentar ou subtrair um termo de interação diferente daquele acrescentado/subtraído em (c); e (g) repetição (d) e (e) usar o modelo atualizado no lugar do modelo básico. Em algumas concretizações, o método também inclui (h) repetição (f) e (g) usar outro modelo atualizado. Em várias concretizações, a sequência pode ser um genoma inteiro, um cromossomo inteiro, segmento de um cromossomo, coleção de sequências genéticas para genes interativos, genes, sequência de ácidos nucleicos, proteína, polissacarídeo, etc. Em uma ou mais concretizações, as subunidades das sequências podem ser cromossomos, segmentos de cromossomos, haplótipos, genes, nucleotídeos, códons, mutações, aminoácidos, carboidratos (mono, di, tri, ou oligoméricos), etc.

[08] Em um ou mais concretizações consistentes com as concretizações acima, é estabelecido um método para identificar resíduos de aminoácidos a serem modificados em uma biblioteca de proteínas variantes. Nessas concretizações, um grande número de moléculas biológicas constitui um conjunto de treinamento de uma biblioteca de proteínas variantes. A biblioteca de proteínas variantes poderá incluir proteínas de várias fontes. Em um exemplo, os membros incluem proteínas de ocorrência natural tais como aquelas codificadas pelos membros de uma única família de genes. Em outro exemplo, as sequências incluem proteínas obtidas através do uso de um mecanismo de geração de diversidade baseado em recombinação. Por exemplo, a recombinação mediada pela fragmentação do DNA, a recombinação mediada por oligonucleotídeo sintético ou uma combinação dos mesmos poderá ser realizada em ácidos nucleicos codificando toda ou parte de uma ou mais proteínas precursoras de ocorrência natural para essa finalidade. Ainda em outro exemplo, os membros são obtidos implementando-se um protocolo de planejamento de experimentos (PDE) para identificar as sequências sistematicamente variadas.

[09] Em algumas concretizações, pelo menos um termo de interação é um termo de produto cruzado contendo o produto de uma variável representando a presença de um resíduo interativo e outra variável representando a presença de outro resíduo interativo. A forma do modelo de atividade sequencial poderá ser uma soma de pelo menos um termo de produto cruzado e um ou mais termos lineares, com cada um dos termos lineares representando o efeito de um resíduo variável em um conjunto de treinamento de uma biblioteca de proteínas variantes. O pelo menos um termo de produto cruzado poderá ser selecionado a partir de um grupo de potenciais termos de produtos cruzados através de várias técnicas incluindo o acréscimo ou subtração gradual de termos sem substituição.

[010] Em uma ou mais concretizações, um modelo incluindo termos de produtos cruzados é adaptado aos dados disponíveis usando técnicas de regressão bayesianas, através das quais o conhecimento anterior é usado para determinar as posteriores distribuições de probabilidade do modelo.

[011] Em uma ou mais concretizações, dois ou mais modelos novos são criados, cada um dos quais incluía pelo menos um termo de interação diferente. Em tais concretizações, o método também inclui preparar um modelo conjunto com base em dois ou mais modelos novos. O modelo conjunto incluía termos de interação de dois ou mais modelos novos. O modelo conjunto pondera os termos de interação de acordo com a capacidade dos dois ou mais modelos de prever a atividade de interesse.

[012] O modelo de atividade sequencial poderá ser produzido a partir do conjunto de treinamento através de muitas técnicas diferentes. Em certas concretizações, o modelo é um modelo de regressão tal como um modelo de mínimos quadrados parciais, um modelo de regressão bayesiana, ou um modelo de regressão dos componentes principais. Em outra concretização, o modelo é uma rede neural.

[013] Usar o modelo de atividade sequencial para identificar resíduos para fixação ou variação poderá envolver qualquer uma das muitas técnicas analíticas diferentes possíveis. Em alguns casos, uma “sequência de referência” é usada para definir as variações. Tal sequência poderá ser uma prevista pelo modelo como tendo o maior valor (ou um dos maiores valores) da atividade desejada. Em outro caso, a sequência de referência poderá ser aquela de um membro da biblioteca original de proteínas variantes. A partir da sequência de referência, o método poderá selecionar subsequências para efetuar as variações. Além disso ou alternativamente, o modelo de atividade sequencial classifica as posições dos resíduos (ou resíduos específicos em certas posições) na sua ordem de impacto sobre a atividade desejada.

[014] Um objetivo do método poderá ser gerar uma nova biblioteca de proteínas variantes. Como parte desse processo, o método poderá identificar as sequências que deverão ser usadas para gerar essa nova biblioteca. Tais sequências incluem variações dos resíduos identificados em (e), (g), ou (h) acima ou são precursoras usadas para introduzir subsequentemente tais variações. As sequências poderão ser modificadas executando mutagênese ou um mecanismo de geração de diversidade baseado em recombinação para gerar a nova biblioteca de proteínas variantes. Isso poderá fazer parte de um procedimento de evolução direcionada. A nova biblioteca também poderá ser usada para desenvolver um novo modelo de atividade sequencial. A nova biblioteca de proteínas variantes é analisada para avaliar os efeitos sobre uma atividade em particular tal como estabilidade, atividade catalítica, atividade terapêutica, resistência a um patógeno ou toxina, toxicidade, etc.

[015] Em algumas concretizações, o método envolve selecionar um ou mais membros da nova biblioteca de proteínas variantes para produção. Um ou mais deles poderá então ser sintetizado e/ou expresso em um sistema de expressão. Em uma concretização específica, o método continua da seguinte maneira: (i) fornecendo um sistema de expressão a partir do qual um membro selecionado da nova biblioteca de proteínas variantes possa ser expresso; e (ii) expressando o membro selecionado da nova biblioteca de proteínas variantes.

[016] Em algumas concretizações, no lugar de usar sequências de aminoácidos, os métodos empregam sequências de nucleotídeos para gerar os modelos e prever a atividade. As variações nos grupos de nucleotídeos, e.g., códons, afetam a atividade dos peptídeos codificados pelas sequências de nucleotídeos. Em algumas concretizações, o modelo poderá estabelecer um viés para códons que sejam expressos preferencialmente (se comparados a outros códons codificandoo mesmo aminoácido) dependendo do hospedeiro empregado para expressar o peptídeo.

[017] Outro aspecto da presente invenção relaciona-se com o aparato e os produtos de programas de computador incluindo mídias legíveis em máquinas nas quais são fornecidas instruções para os programas e/ou arranjos de dados para implementar os métodos e os sistemas de softwares descritos acima. Frequentemente, as instruções para os programas são fornecidas como um código para executar certas operações do método. Os dados, se empregados para implementar os elementos dessa invenção, poderão ser fornecidos como estruturas de dados, tabelas da base de dados, objetos de dados, ou outros arranjos apropriados das informações especificadas.Qualquer um dos métodos ou sistemas descritos na presente invenção poderá ser representado, no todo ou em parte, como tais instruções para os programas e/ou dados fornecidos em qualquer mídia apropriada legível em máquina.

[018] Esses e outros elementos são descritos com maior detalhe abaixo na descrição detalhada e em conjunto com as seguintes figuras.

Breve Descrição das Figuras

[019] A Figura 1 mostra um método gradual geral para preparar um modelo de atividade sequencial.

[020] A Figura 2 é um fluxograma exibindo uma sequência de operações para gerar uma ou mais gerações de bibliotecas de proteínas variantes, através da qual as operações usam um modelo de atividade sequencial tal como um daqueles obtidos na Figura 1 para orientar a geração de bibliotecas de proteínas variantes. As bibliotecas de variantes geradas podem fornecer dados sobre sequências e atividades para preparar um ou mais novos modelos de atividade sequencial, formando um ciclo de modelagem-exploração de evolução guiada.

[021] As Figuras 3A-3H são gráficos mostrando exemplos nos quais os recursos preditivos de certos modelos lineares e não lineares são comparados.

[022] A Figura 4A-4B mostra os fluxogramas dos processos que implementam métodos graduais de adição e subtração para preparar um modelo de atividade sequencial. A Figura 4A mostra um exemplo específico de um método de adição gradual para preparar um modelo; e a Figura 4B mostra um exemplo específico de um método de subtração gradual para preparar um modelo.

[023] A Figura 5 mostra um fluxograma de um processo para implementar a regressão bayesianana evolução direcionada de variantes da sequência de acordo com uma concretização.

[024] A Figura 6 mostra um fluxograma de um processo para implementar regressão conjunta na evolução direcionada de variantes da sequência de acordo com uma concretização.

[025] A Figura 7 é um fluxograma exibindo um método de valor p de carga inicial para gerar bibliotecas de proteínas variantes de acordo com uma concretização.

[026] A Figura 8 é um esquema de dispositivo digital exemplar.

Descrição Detalhada da Invenção I. DEFINIÇÕES

[027] A menos que definido de qualquer outro modo na presente invenção, todos os termos técnicos e científicos usados na presente invenção possuem o mesmo significado conforme comumente compreendido por uma pessoa com conhecimentos básicos da tecnologia existente. Vários dicionários científicos que incluemos termos incluídos na presente invenção são bastante conhecidos e estão disponíveis aos conhecedores da tecnologia existente. Qualquer método e material similar ou equivalente àqueles descritos na presente invenção pode ser usado na prática das concretizações divulgadas na presente invenção.

[028] Os termos definidos imediatamente abaixo são mais amplamente compreendidos por referência à concretização como um todo. As definições têm a única finalidade de descrever as concretizações particulares e ajudar a compreender os complexos conceitos descritos nesta concretização. Elas não têm a intenção de limitar o escopo integral da presente invenção. Especificamente, deve ser entendido que essa invenção não é limitada a sequências, composições, algoritmos, sistemas, metodologias, protocolos, e reagentes particulares descritos, pois eles poderão variar, dependendo do contexto em que forem usados por aqueles que tenham conhecimento da tecnologia existente.

[029] Conforme usadas nesta concretização e nas alegações em anexo, as formas singulares “um”, “uma”, e “o/a” incluem suas referentes no plural a menos que o conteúdo e o contexto indiquem claramente de qualquer outro modo. Assim, por exemplo, a referência a “um dispositivo” inclui uma combinação de dois ou mais tais dispositivos, e assim por diante.

[030] A menos que indicado de qualquer outro modo, uma conjunção “ou” deve ser usada no seu sentido correto como um operador lógico booleano, abrangendo tanto a seleção de características na alternativa (A ou B, onde a seleção de A é mutuamente exclusiva de B) quanto a seleção de características em conjunto (A ou B, onde tanto A quanto B são selecionados). Em alguns pontos do texto, o termo “e/ou” é usado para a mesma finalidade, que não deverá ser interpretada como indicado que “ou” é usado com referência a alternativas mutuamente exclusivas.

[031] Uma “biomolécula” ou “molécula biológica” refere-se a uma molécula que costuma ser encontrada em um organismo biológico. Em algumas concretizações, as moléculas biológicas compreendem macromoléculas biológicas poliméricas com várias subunidades (i.e., “biopolímeros”). As biomoléculas típicas incluem, mas não limitam-se a, moléculas que compartilham algumas características estruturais de ocorrência natural em polímeros tais como RNAs (formadas de subunidades de nucleotídeos), DNAs (formadas de subunidades de nucleotídeos), e peptídeos ou polipeptídeos (formadas de subunidades de aminoácidos), incluindo, e.g., RNAs, análogas aoRNA, DNAs, análogas ao DNA, polipeptídeos, análogas polipeptídeo, ácidos peptídeos nucleicos (PNAs), combinações de RNA e DNA (e.g., quimeraplastos), ou afins. Não é a intenção que as biomoléculas sejam limitadas a qualquer molécula em particular, pois qualquer molécula biológica apropriada poderá ser usada na presente invenção, incluindo mas não limitando-se a, e.g., lipídeos, carboidratos, ou outras moléculas orgânicas compostas de uma ou mais moléculas geneticamente codificáveis (e.g., um ou mais enzimas ou caminhos enzimáticos) ou afins.

[032] Os termos “polinucleotídeo” e “ácido nucleico” referem-se a desoxirribonucleotídeos ou ribonucleotídeos e polímeros (e.g., oligonucleotídeos, polinucleotídeos, etc.) da mesma em forma ou de cadeia única ou dupla. Esses termos incluem, mas não se limitam a, DNA de cadeia única, dupla ou tripla, DNA genômico, cDNA, RNA, híbrido de DNA-RNA, polímeros compreende bases de purina e pirimidina, e/ou outras bases nucleotídicas naturais, química ou bioquimicamente modificadas, não naturais ou derivadas. Os exemplos a seguirnão são exemplos limitados de polinucleotídeos: genes, fragmentos de genes, fragmentos cromossômicos, ESTs, exões, íntrons, mRNA, tRNA, rRNA, ribozimas, cDNA, polinucleotídeos recombinantes, polinucleotídeos ramificados, plasmídeos, vetores, DNA isolado de qualquer sequência, RNA isolado de qualquer sequência, sondas de ácido nucleico, e iniciadores. Em algumas concretizações, os polinucleotídeos compreendem nucleotídeos modificados, tais como nucleotídeos metilados e análogos de nucleotídeo, uracilo, outros açúcares e grupos de ligação tais como fluororribose e tioato, e/ou ramos de nucleotídeos. Em algumas concretizações alternativas, a sequência de nucleotídeos é interrompida por componentes não nucleotídeos.

[033] A menos que especificamente limitado, o termo abrange ácidos nucleicos contendo análogos conhecidos de nucleotídeos naturais que possuam propriedades vinculantes similares ao do ácido nucleico de referência e são metabolizados de maneira similar aos nucleotídeos de ocorrência natural. A menos que indicado de qualquer outro modo, uma sequência particular de ácidos nucleicos também abrange implicitamente as variantes modificadas de forma conservadora dos mesmos (e.g., substituições de códons degenerados) e sequências complementares assim como a sequência explicitamente indicada. Especificamente, substituições de códons degenerados poderão ser obtidas gerando-se sequências nas quais a terceira posição de um ou mais códons selecionados (ou todos) é substituída por resíduos de base mista e/ou deoxiinosina (Batzer et al. (1991) Nucleic Acid Res. 19:5081; Ohtsuka et al. (1985) J. Biol. Chem. 260:2605-2608; Rossolini et al. (1994) Mol. Cell. Probes 8:91-98). O termo ácido nucleico é usado de forma intercambiável com, e.g., oligonucleotídeo, polinucleotídeo, cDNA e mRNA.

[034] Os termos “proteína”, “polipeptídeo” e “peptídeo” são usados de forma intercambiável para denotar um polímero de pelo menos dois aminoácidos ligados de forma covalente por uma ligação entre amidas, independente do comprimento ou modificação pós-translacional (e.g., glicosilação, fosforilação, lipidação, miristilação, ubiquitinação, etc.). Em alguns casos, o polímero tem pelo menos cerca de 30 resíduos de aminoácidos, e geralmente pelo menos cerca de 50 resíduos de aminoácidos. Mais comumente, eles contêm pelo menos cerca de 100 resíduos de aminoácidos. Os termos incluem composições convencionalmente consideradas como sendo fragmentos de proteínas ou peptídeos integrais. Essa definição incluios aminoácidos D e L, e misturas de aminoácidos D e L. Os polipeptídeos descritos na presente invenção não se restringem aos aminoácidos geneticamente codificados. De fato, além dos aminoácidos geneticamente codificados, os polipeptídeos descritos na presente invenção poderão ser compostos de, no todo ou em parte, aminoácidos não codificados de ocorrência natural e/ou sintéticos. Em algumas concretizações, um polipeptídeo é uma porção do polipeptídeo ancestral ou parental integral, contendo acréscimos ou deleções de aminoácidos (e.g., lacunas) ou substituições se comparados à sequência de aminoácidos do polipeptídeo parental integral, mantendo ao mesmo tempo a atividade funcional (e.g., atividade catalítica).

[035] Conforme usado na presente invenção, o termo “celulase” refere-se a uma categoria de enzimas capazes de hidrolisar celulose (ligações β-1,4-glucano ou β-D-glucosidica) para encurtar as cadeias de celulose, oligossacáridos, celobiose e/ou glucose. Em algumas concretizações, o termo “celulase” abrange as beta-glucosidases, endoglucanases, celobiohidrolases, celobiosedesidrogenases, endoxilanases, beta-xilosidases, arabinofuranosidases, alfa-glucuronidases, acetilxilan esterases, feruloil esterases, e/ou alfa-glucuronil esterases. Em algumas concretizações, o termo “celulase” abrange enzimas hidrolisadoras de hemicelulose, incluindo mas não limitando-se a endoxilanases, beta-xilosidases, arabinofuranosidases, alfa- glucuronidases, acetilxilan esterase, feruloil esterase, e alfa-glucuronil esterase. Uma “célula fúngica produtora de celulase” é uma célula fúngica que expressa e secreta pelo menos uma enzima hidrolisadora de celulose. Em algumas concretizações, as células fúngicas produtoras de celulase expressam e secretam uma mistura de enzimas hidrolisadoras de celulose. “Celulolíticas”, “hidrolisadoras de celulose”, “degradantes de celulose,” e termos similares referem-se a enzimas tais como endoglucanases e celobiohidrolases (estas últimas também são denominadas “exoglucanases”) que agem sinergisticamente para decompor a celulose em di- ou oligossacáridos solúveis tais como a celobiose, que são então hidrolisados ainda mais em glucose pela beta-glucosidase. Em algumas concretizações, a celulase é uma celulase recombinante selecionada a partir de β-glucosidases (BGLs), celobiohidrolases Tipo 1 (CBH1s), celobiohidrolases Tipo 2 (CBH2s), glicosídeo hidrolase 61s (GH61s), e/ou endoglucanases (EGs). Em algumas concretizações, a celulase é uma celulase recombinante de Myceliophthora selecionada a partir de β- glucosidases (BGLs), celobiohidrolases Tipo 1 (CBH1s), celobiohidrolases Tipo 2 (CBH2s), glicosídeohidrolase 61s (GH61s), e/ou endoglucanases (EGs). Em algumas outras concretizações, a celulase é uma celulase recombinante selecionada a partir de EG1b, EG2, EG3, EG4, EG5, EG6, CBH1a, CBH1b, CBH2a, CBH2b, GH61a e/ou BGL.

[036] O termo “sequência” é usado na presente invenção para referir-se à ordem e identidade de qualquer sequência biológica, incluindo mas não limitando-se a, um genoma inteiro, um cromossomo inteiro, segmento de um cromossomo, coleção de sequências genéticas para genes interativos, gene, sequência de ácidos nucleicos, proteína, polissacarídeo, etc. Em alguns contextos, uma sequência refere-se à ordem e identidade de resíduos de aminoácidos em uma proteína (i.e., uma sequência de proteínas ou cadeia de caracteres de proteínas) ou à ordem e identidade de nucleotídeos em um ácido nucleico (i.e., uma sequência de ácidos nucleicos ou cadeia de caracteres de ácidos nucleicos). A sequência poderá ser representada por uma cadeia de caracteres. Uma “sequência de ácidos nucleicos” refere-se à ordem e identidade dos nucleotídeos que compreendem um ácido nucleico. Uma “sequência de proteínas” refere-se à ordem e identidade dos aminoácidos que compreendem uma proteína ou peptídeo.

[037] “Códon” refere-se auma sequência específica de três nucleotídeos consecutivos que faz parte do código genético e que especifica um aminoácido em particular em uma proteína ou inicia ou interrompe a síntese de proteínas.

[038] “Sequência nativa” ou “sequência de tipo selvagem” refere-se a um polinucleotídeo ou polipeptídeo isolado de uma fonte de ocorrência natural. A “sequência nativa” incluias formas recombinantes de um polipeptídeo ou polinucleotídeo nativo que possuam uma sequência idêntica à forma nativa.

[039] O termo “gene” é usado amplamente para referir-se a qualquer segmento de DNA ou outro ácido nucleico associado a uma função biológica. Assim, os genes incluem sequências de codificação e opcionalmente, as sequências regulatórias necessárias para a sua expressão. Os genes também incluem opcionalmente segmentos não expressos de ácidos nucleicos que, por exemplo, formam sequências de reconhecimento para outras proteínas. Os genes podem ser obtidos a partir de uma variedade de fontes, incluindo a clonagem de uma fonte de interesse ou a síntese de informações sequenciais conhecidas ou previstas, e poderão incluir sequências projetadas para ter os parâmetros desejados.

[040] Um “motivo” refere-se a um padrão de subunidades em ou entre moléculas biológicas. Por exemplo, o termo “motivo” pode ser usado em referência a um padrão de subunidades da molécula biológica não codificada ou a um padrão de subunidades de uma representação codificada de uma molécula biológica.

[041] O termo “cromossomo” é usado em referência a uma estrutura organizada de DNA e às relativas células encontradas na proteína, e compreende um único pedaço de DNA em espiral incluindo muitos genes, elementos regulatórios, e outras sequências de nucleotídeos. O termo também é usado em referência à sequência de DNA da estrutura.

[042] “Triagem” refere-se ao processo no qual uma ou mais propriedades de uma ou mais biomoléculas são determinadas. Por exemplo, os típicos processos de triagem incluem aqueles nos quais uma ou mais propriedades de um ou mais membros de uma ou mais bibliotecas são determinadas. Um “sistema de expressão” é um sistema para expressar uma proteína ou peptídeo codificado por um gene ou outro ácido nucleico.

[043] “Célula hospedeira” ou “célula hospedeira recombinante” refere-se a uma célula que compreende pelo menos uma molécula de ácido nucleico recombinante. Assim, por exemplo, em algumas concretizações, as células hospedeiras recombinantes expressam genes que não são encontrados na forma nativa (i.e., não recombinante) da célula.

[044] “Evolução direcionada”, “evolução guiada,” ou “evolução artificial” refere- se aos processos in vitro ou in vivo para modificar artificialmente uma ou mais sequências de biomoléculas (ou uma cadeia de caracteres representando aquela sequência) através de seleção artificial, recombinação, ou outra manipulação. Em algumas concretizações, a evolução direcionada ocorre em uma população reprodutiva na qual há (1) variedades de indivíduos, com algumas variedades sendo (2) hereditárias, da qual algumas variedades (3) diferem em termos de adequação. O sucesso reprodutivo é determinado pelo resultado da seleção de uma propriedade predeterminada tal como uma propriedade benéfica. A população reprodutiva pode ser, e.g., uma população física ou uma população virtual em um sistema de computação.

[045] Em certas concretizações, os métodos de evolução direcionada geram bibliotecas de proteínas variantes ao recombinar variantes codificadoras de genes a partir de uma biblioteca de proteínas parentais variantes. Os métodos podem empregar oligonucleotídeos contendo sequências ou subsequências para codificar as proteínas de uma biblioteca parental variante. Alguns do oligonucleotídeos da biblioteca parental variante poderão ter uma relação bastante estreita, diferindo somente na escolha dos códons para aminoácidos alternados selecionados para serem variados por recombinação com outras variantes. O método pode ser realizado para um ou múltiplos ciclos até que os resultados desejados sejam obtidos. Se múltiplos ciclos forem usados, cada um deles envolverá um passo de triagem para identificar quais variantes com um desempenho aceitável deverão ser usadas em um ciclo de recombinação subsequente.

[046] “Inversão” e “inversão de genes” referem-se aos métodos de evolução direcionada para introduzir diversidade ao recombinar uma coleção de fragmentos de polinucleotídeos parentais através de uma série de ciclos de extensão da cadeia. Em certas concretizações, um ou mais dos ciclos de extensão da cadeia é auto iniciador; i.e., realizado sem o acréscimo de iniciadores além dos próprios fragmentos. Cada ciclo envolve o pareamento de fragmentos de cadeia única através de hibridização, o subsequente alongamento de fragmentos pareados através da extensão da cadeia, e desnaturação. Durante a inversão, uma crescente cadeia de ácidos nucleicos costuma ser exposta a várias hibridizações diferentes de parceiros em um processo às vezes denominado “comutação de modelos”.Conforme usado na presente invenção, “comutação de modelos” refere-se à capacidade de comutar um domínio de ácido nucleico a partir de um ácido nucleico com um segundo domínio de um segundo ácido nucleico (i.e., o primeiro e o segundo ácidos nucleicos servem como estruturas no procedimento de inversão).

[047] A comutação de modelos frequentemente produz sequências quiméricas, que resultam da introdução de cruzamentos entre fragmentos de origens diferentes. Os cruzamentos são criados através de recombinações de modelos comutados durante os vários ciclos de hibridização, extensão e desnaturação. Assim, a inversão comumente leva à produção de sequências de polinucleotídeos variantes. Em algumas concretizações, as sequências variantes compreendem uma “biblioteca” de variantes. Em algumas concretizações dessas bibliotecas, as variantes contêm segmentos da sequência de dois ou mais de polinucleotídeos parentais.

[048] Quando dois ou mais polinucleotídeos parentais são empregados, os polinucleotídeos parentais individuais são tão suficientemente homólogos que fragmentos de diferentes matrizes hibridizam sob as condições de hibridização empregadas nos ciclos de inversão. Em algumas concretizações, a inversão permite recombinar polinucleotídeos parentais com uma homologia relativamente limitada. Geralmente, os polinucleotídeos parentais individuais possuem domínios distintos e/ou únicos e/ou outras características de sequência de interesse. Ao usar polinucleotídeos parentais com distintas características de sequência, a inversão pode produzir altamente polinucleotídeos variantes diversificados.

[049] Várias técnicas de inversão são conhecidas pela tecnologia existente. Veja e.g., Patentes nos EUA Nos. 6,917,882, 7,776.598, 8,029,988, 7,024,312, e 7,795,030, todas as quais foram incorporadas a este texto por referência na sua integralidade.

[050] Um “fragmento” é qualquer porção de uma sequência de nucleotídeos ou aminoácidos. Os fragmentos podem ser produzidos usando qualquer método apropriado conhecido da tecnologia existente, incluindo mas não limitando-se à clivagem de uma sequência de polipeptídeos ou polinucleotídeos. Em algumas concretizações, fragmentos são produzidos através do uso de nucleases que clivam polinucleotídeos. Em algumas outras concretizações, fragmentos são gerados usando técnicas de síntese química e/ou biológica. Em algumas concretizações, fragmentos compreendem subsequências de pelo menos uma sequência parental, gerado usando alongamento parcial de cadeia de ácido(s) nucleico(s) complementar(es).

[051] “Polipeptídeo parental”, “polinucleotídeo parental,” “ácido nucleico parental,” e “parental” são geralmente usados para referir-se a um polipeptídeo de tipo selvagem, polinucleotídeo de tipo selvagem, ou uma variante usada como um ponto de partida em um procedimento para geração de diversidade tal como uma evolução direcionada. Em algumas concretizações, a própria matriz é produzida via inversão ou outro procedimento para geração de diversidade. Em algumas concretizações, os mutantes usados na evolução direcionada estão diretamente relacionados com um polipeptídeo parental. Em algumas concretizações, o polipeptídeo parental é estável quando exposto a extremos de temperatura, pH e/ou condições do solvente e pode servir de base para gerar variantes para inversão. Em algumas concretizações, o polipeptídeo parental não é estável sob extremos de temperatura, pH e/ou condições do solvente, e o polipeptídeo parental é desenvolvido para gerar uma variante robusta.

[052] Um “ácido nucleico parental” codifica um polipeptídeo parental.

[053] “Mutante”, “variante,” e “sequência variante” conforme usados na presente invenção, referem-se a uma sequência biológica que difere em algum aspecto de uma sequência padrão ou de referência. A diferença pode ser denominada uma “mutação”. Em algumas concretizações, um mutante é uma sequência de aminoácidos (i.e., polipeptídeos) ou polinucleotídeos que foi alterada por pelo menos uma substituição, inserção, cruzamento, deleção, e/ou outra operação genética. Para os fins da presente invenção, mutantes e variantes não se limitam a um método particular através do qual elas são geradas. Em algumas concretizações, um mutante ou sequência variante possui atividades ou propriedades maiores, menores, ou substancialmente similares, em comparação com a sequência parental. Em algumas concretizações, o polipeptídeo variante compreende um ou mais resíduos de aminoácidos que sofreram mutação, se comparados à sequência de aminoácidos do polipeptídeo de tipo selvagem (e.g., um polipeptídeo parental). Em algumas concretizações, um ou mais resíduos de aminoácidos de polipeptídeo são mantidos constantes, são invariáveis, ou não sofrem mutação se comparados a um polipeptídeo parental nos polipeptídeos variantes que compõem a pluralidade. Em algumas concretizações, o polipeptídeo parental é usado como base para gerar variantes com melhor estabilidade, atividade, ou outra propriedade.

[054] “Mutagênese” é o processo de introduzir uma mutação em uma sequência padrão ou de referência tal como um ácido nucleico parental ou polipeptídeo parental.

[055] Uma “biblioteca” ou “população” refere-se a uma coleção de pelo menos duas moléculas, cadeias de caracteres, e/ou modelos diferentes, tais como sequências de ácidos nucleicos (e.g., genes, oligonucleotídeos, etc.) ou produtos da expressão (e.g., enzimas ou outras proteínas) a partir das mesmas. Uma biblioteca ou população geralmente incluía um certo número de moléculas diferentes. Por exemplo, uma biblioteca ou população costumava incluir pelo menos cerca de 10 moléculas diferentes. As grandes bibliotecas costumam incluir pelo menos cerca de 100 moléculas diferentes, e mais comumente pelo menos cerca de 1000 moléculas diferentes. Para alguns pedidos, a biblioteca incluía pelo menos cerca de 10000 ou mais moléculas diferentes. Em certas concretizações, a biblioteca contém um número variante ou ácidos nucleicos ou proteínas quiméricas produzidas através de um procedimento de evolução direcionada.

[056] Dois ácidos nucleicos são “recombinados” quando as sequências de cada um dos dois ácidos nucleicos são combinadas em um ácido nucleico progênie. Duas sequências são “diretamente” recombinadas quando ambos os ácidos nucleicos são substratos para recombinação.

[057] “Seleção” refere-se ao processono qual uma ou mais biomoléculas são identificadas como tendo uma ou mais propriedades de interesse. Assim, por exemplo, é possível triar uma biblioteca para determinar uma ou mais propriedades de um ou mais membros da biblioteca. Se um ou mais dos membros da biblioteca for/forem identificados como possuindo uma propriedade de interesse, ele será selecionado. A seleção pode incluir o isolamento de um membro da biblioteca, mas isso não é necessário. Além disso, a seleção e a triagem podem ser, e geralmente são, simultâneas.

[058] Uma “variável dependente” representa um resultado ou efeito, ou é testada para ver se ela é o efeito. As “variáveis independentes” representamos dados de entrada ou causas, ou são testadas para ver se elas são a causa. Uma variável dependente pode ser estudada para ver se e o quanto ela varia conforme as variáveis independentes variem.

[059] No modelo linear estocástico simples yi = a + bxi + ei onde o termo yi é o valor ith da variável dependente e xi é o valor ith da variável independente. O termo ei é conhecido como o “erro” e contém a variabilidade da variável dependente não explicada pela variável independente.

[060] Uma variável independente também é conhecida como “variável preditora”, “regressora”, “variável controlada”, “variável manipulada”, “variável explicativa”, ou “variável de input”.

[061] “Ortogonal/ortogonalidade” refere-se a uma variável independente que não tem nenhuma relação com outras variáveis independentes em um modelo ou qualquer outra relação.

[062] O termo “modelo de atividade sequencial” refere-se a qualquer modelo matemático que descreve a relação entre atividades, características, ou propriedades de moléculas biológicas por um lado, e várias sequências biológicas por outro lado.

[063] O termo “cadeia de caracteres codificados” refere-se a uma representação de uma molécula biológica que preservou informações sequenciais/estruturais relativas àquela molécula. Em algumas concretizações, a cadeia de caracteres codificados contém informações sobre as mutações sequenciais em uma biblioteca de variantes. As cadeias de caracteres codificados de biomoléculas juntamente com informações sobre as atividades das biomoléculas podem ser usadas como um conjunto de treinamento para um modelo de atividade sequencial. As propriedades não sequenciais das biomoléculas podem ser armazenadas ou de qualquer outro modo associadas a cadeias de caracteres codificados para as biomoléculas.

[064] “Sequência de referência” é uma sequência a partir da qual uma variação sequencial é efetuada. Em alguns casos, uma “sequência de referência” é usada para definir as variações. Tal sequência poderá ser aquela prevista por um modelo como tendo o maior valor (ou um dos maiores valores) para a atividade desejada. Em um outro caso, a sequência de referência poderá ser aquela de um membro de uma biblioteca original de proteínas variantes. Em certas concretizações, uma sequência de referência é a sequência de uma proteína precursora ou ácido nucleico.

[065] “Conjunto de treinamento” refere-se a um conjunto de dados ou observações de atividades sequenciais no qual um ou mais modelos são encaixados e construídos. Por exemplo, para um modelo de atividade sequencial de proteínas, um conjunto de treinamento compreende as sequências residuais para uma biblioteca de proteínas variantes inicial ou melhor. Geralmente, esses dados incluem informações sobre sequências residuais completas ou parciais, juntamente com um valor da atividade para cada proteína da biblioteca. Em alguns casos, vários tipos de atividades (e.g., dados sobre taxas constantes e dados sobre estabilidade térmica) são fornecidas conjuntamente no conjunto de treinamento. A atividade é às vezes uma propriedade benéfica.

[066] O termo “observação” são as informações sobre uma proteína ou outra entidade biológica que podem ser usadas em um conjunto de treinamento para gerar um modelo tal como um modelo de atividade sequencial. O termo “observação” pode referir-se a qualquer molécula biológica sequenciada e doseada, incluindo variantes de proteínas. Em certas concretizações, cada observação é um valor da atividade e uma sequência associada a uma variante em uma biblioteca. Geralmente, quanto mais observações forem empregadas para criar um modelo de atividade sequencial, melhor será o poder preditivo daquele modelo de atividade sequencial.

[067] Conforme usado na presente invenção, o termo “propriedade benéfica” pretende referir-se a um fenotípico ou outra característica identificável que confere algum benefício a uma proteína ou uma composição de matéria ou processo associado à proteína. Os exemplos de propriedades benéficas incluem um aumento ou diminuição, quando comparado a uma proteína precursora, das propriedades catalíticas, propriedades vinculantes, e estabilidade de uma proteína variante quando exposta a extremos de temperatura, pH, etc., sensibilidade a estímulos, inibição, e situações afins. Outras propriedades benéficas podem incluir um perfil alterado em resposta a um estímulo em particular. Outros exemplos de propriedades benéficas são estabelecidos abaixo. Os valores das propriedades benéficas podem ser usados como valores das atividades nas observações usadas em um conjunto de treinamento para um modelo de atividade sequencial.

[068] “Sequenciamento da próxima geração” ou “sequenciamento de alto rendimento” são técnicas de sequenciamento que paralelizam o processo de sequenciamento, produzindo milhares ou milhões de sequências de uma só vez. Os exemplos de métodos de sequenciamento da próxima geração apropriados incluem, mas não limitam-se a, sequenciamento de uma única molécula em tempo real (e.g., Pacific Biosciences, Menlo Park, Califórnia), sequenciamento por semicondutor de íons (e.g., Ion Torrent, South San Francisco, Califórnia), pirosequenciamento (e.g., 454, Branford, Connecticut), sequenciamento por ligação (e.g., SOLid sequencing of Life Technologies, Carlsbad, Califórnia), sequenciamento por síntese e do terminador reversível (e.g., Illumina, San Diego, Califórnia), tecnologias de ressonância magnética de ácidos nucleicos tais como microscopia eletrônica de transmissão, e afins. Outras técnicas exemplares são descritas na descrição detalhada desta invenção.

[069] “Poder preditivo” refere-se à capacidade de um modelo de prever corretamente os valores de uma variável dependente para dados sob várias condições. Por exemplo, o poder preditivo de um modelo de atividade sequencial refere-se à capacidade de modelo de prever a atividade das informações sequenciais.

[070] “Validação cruzada” refere-se a um método para testar a generalizabilidade da capacidade de um modelo de prever um valor de interesse (i.e., o valor da variável dependente). O método prepara um modelo usando um conjunto de dados, e testa o erro do modelo usando um conjunto de dados diferente. O primeiro conjunto de dados é visto como um conjunto de treinamento, e o segundo conjunto de dados é um conjunto de validação.

[071] “Variância sistemática” refere-se aos diferentes descritores de um item ou conjunto de itens que estão sendo modificados em combinações diferentes.

[072] “Dados sistematicamente variados” refere-se aos dados produzidos, derivados, ou resultantes de diferentes descritores de um item ou conjunto de itens que estão sendo modificados em combinações diferentes. Muitos descritores diferentes podem ser modificados ao mesmo tempo, mas em diferentes combinações. Por exemplo, os dados sobre as atividades coletados de polipeptídeos nos quais combinações de aminoácidos tenham sido modificadas são dados sistematicamente variados.

[073] O termo “sequências sistematicamente variadas” refere-se a um conjunto de sequências no qual cada resíduo é visto em vários contextos. Em princípio, o nível de variação sistemática pode ser quantificado pelo grau em que as sequências são ortogonais entre si (i.e., maximamente diferentes se comparadas à média).

[074] O termo “alternância” refere-se à introdução de vários tipos de resíduos de aminoácidos em uma posição específica nas sequências de variantes de proteínas da biblioteca otimizada.

[075] Os termos “regressão” e “análise de regressão” referem-se às técnicas usadas para compreender quais entre as variáveis independentes estão relacionadas com a variável dependente, e para explorar as formas dessas relações. Em circunstâncias restritas, a análise de regressão pode ser usada para inferir as relações causais entre as variáveis independentes e dependentes. Ela é uma técnica estatística para estimar as relações entre as variáveis. Ela incluía muitas técnicas para modelar e analisar inúmeras variáveis, quando o foco é a relação entre uma variável dependente e uma ou mais variáveis independentes. Mais especificamente, a análise de regressão ajuda a compreender como o valor típico da variável dependente muda quando qualquer uma das variáveis independentes é variada, enquanto as outras variáveis independentes são mantidas fixas. Técnicas de regressão podem ser usadas para gerar modelos de atividade sequencial a partir de conjuntos de treinamento compreendendo várias observações, que possam conter informações sobre sequências e atividades.

[076] Parcial de Mínimos Quadrados ou PLS é uma família de métodos que descobre um modelo de regressão linear projetando as variáveis previstas (e.g., atividades) e as variáveis observáveis (e.g., sequências) em um novo espaço. A PLS também é conhecida como projeção de estruturas latentes. Tanto os dados de X (variáveis independentes) quanto de Y (variáveis dependentes) são projetados nos novos espaços. A PLS é usada para descobrir as relações fundamentais entre duas matrizes (X e Y). A abordagem das variáveis latentes é usada para modelar as estruturas de covariância nos espaços X e Y. Um modelo de PLS tentará descobrir a direção multidimensional no espaço X que explique a direção máxima da variância multidimensional no espaço Y. A regressão PLS é particularmente apropriada quando a matriz de preditoras possui mais variáveis do que observações, e quando há multicolinearidade entre os valores de X.

[077] Um “descritor” refere-se a algo que serve para descrever ou identificar um item. Por exemplo, os caracteres de uma cadeia de caracteres podem ser descritores de aminoácidos em um polipeptídeo sendo representados pela cadeia de caracteres.

[078] Em um modelo de regressão, a variável dependente relaciona-se às variáveis independentes por uma soma de termos. Cada termo inclui um produto de uma variável independente e um relativo coeficiente de regressão. No caso de um modelo de regressão puramente linear, os coeficientes de regressão são dados por β na seguinte forma de expressão: yi = β1xi1 + . . . + βpxip+ εi = xiTβ + εi onde yi é a variável dependente, xi são as variáveis independentes, εi é o erro variável, e T denota a transposição, que é o produto interno dos vetores xi e β.

[079] “Regressão de componentes principais” (PCR) refere-se a uma análise de regressão que usa a análise dos componentes principais ao estimar os coeficientes de regressão. Na PCR no lugar de regredir a variável dependente diretamente sobre as variáveis independentes, os componentes principais das variáveis independentes são usados. A PCR comumente usa apenas um subconjunto dos componentes principais na regressão.

[080] “Análise de componentes principais” (ACP) refere-se a um procedimento matemático que usa uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas em um conjunto de valores de variáveis linearmente não correlacionadas chamadas componentes principais. O número de componentes principais é menor que ou igual ao número de variáveis originais. Essa transformação é definida de tal forma que o primeiro componente principal possui a maior variância possível (isto é, responde tanto pela variabilidade dos dados quanto possível), e cada componente sucessivo por sua vez possuia maior variância possível contanto que ele seja ortogonal (i.e., não correlacionado com) aos componentes anteriores.

[081] “Rede neural” é um modelo contendo um grupo interconectado de elementos de processamento ou “neurônios” que processam informações usando uma abordagem conexionista para computar os dados. As redes neurais são usadas para modelar relações complexas entre dados de entrada e resultados ou para descobrir padrões nos dados. A maior parte das redes neurais processa dados de forma não linear, distribuída, e em paralelo. Na maioria dos casos uma rede neural é um sistema adaptativo que modifica sua estrutura durante uma fase de aprendizado. As funções são realizadas coletivamente e em paralelo pelos elementos de processamento, no lugar de haver uma clara delineação de subtarefas às quais as várias unidades são atribuídas.

[082] Geralmente, uma rede neural envolve uma rede de elementos de processamento simples que apresentam um complexo comportamento global determinado pelas conexões entre os elementos de processamento e os parâmetros dos elementos. As redes neurais são usadas com algoritmos projetados para alterar a força das conexões na rede para produzir um fluxo de sinais desejado. A força é alterada durante o treinamento ou aprendizado.

[083] “Floresta aleatória” refere-se a uma combinação de preditores de árvores de classificação de tal modo que cada árvore depende dos valores de um vetor aleatório amostrado de forma independente e com a mesma distribuição para todas as árvores da floresta. Uma floresta aleatória é um conjunto de aprendizado que consiste de um ensacado de elementos de aprendizado não podados da árvore de tomada de decisões com uma seleção aleatória de características em cada divisãoda árvore de tomada de decisões. Uma floresta aleatória cultiva um grande número de árvores de classificação, cada uma das quais vota pela classe mais popular. A floresta aleatória então classifica uma variável tomando a classe votada mais popular de todos os preditores das árvores da floresta.

[084] “Distribuição de probabilidade a priori”, ou “a priori”, de uma quantidade p incerta é a distribuição de probabilidade que expressa a incerteza sobre p antes dos dados de interesse (e.g., um conjunto de treinamento de sequências de proteínas) serem levados em conta. A quantidade desconhecida poderá ser um parâmetro, coeficiente, variável, variável latente, ou similar (e.g., um coeficiente em um modelo de regressão múltipla).

[085] “Distribuição de probabilidade posterior”, ou “posterior”, de uma quantidade p incerta é a distribuição de probabilidade que expressa a incerteza sobre p após os dados de interesse serem levados em conta.

[086] O termo “regressão linear bayesiana” refere-se a uma abordagem para aregressão linear na qual a análise estatística é realizada no contexto da inferência bayesiana. A crença anterior no modelo de regressão linear, incluindo a função de distribuição de probabilidade a priori do parâmetro do modelo, é combinada com a função de probabilidade dos dados de acordo com a teorema de Bayes para produzir a distribuição de probabilidade posterior para os parâmetros.

[087] “Sobreajustamento” refere-se a uma condição que ocorre quando um modelo estatístico descreve um erro ou ruído aleatório no lugar da relação subjacente. O sobreajustamento costuma ocorrer quando um modelo é excessivamente complexo, tal como haver parâmetros demais com relação ao número de observações. Um modelo que tenha sido sobreajustado geralmente terá um desempenho preditivo insatisfatório, pois ele poderá exagerar as flutuações menores dos dados. Em algumas concretizações, um modelo matemático é usado para descrever a relação entre uma ou mais variáveis independentes (VIs) e uma variável dependente (VD). O modelo pode ser escrito como VD = Expressão algébrica de (VIs). Uma “expressão algébrica” pode incluir variáveis, coeficientes, constantes, e símbolos operacionais, tais como sinais de mais e de menos. 4x2 + 3xy + 7y + 5 é uma expressão algébrica bivariada.

[088] Em algumas concretizações, os “termos” de uma expressão algébrica ou de um modelo matemático são os elementos separados pelos sinais de mais ou de menos. Nesse contexto, o exemplo acima possui quatro termos, 4x2, 3xy, 7y, e 5. Os termos podem consistir de variáveis e coeficientes (4x2, 3xy e 7y), ou constantes (5). Nas expressões algébricas, as variáveis podem assumir vários valores para representar as condições de mudança de um sistema. Por exemplo, ela pode ser uma variável contínua representando a velocidade de um carro em movimento ou uma variável discreta com vários valores não contínuos representando tipos de aminoácidos. Uma variável pode ser o valor variável de um bit representando a presença ou ausência de uma entidade, e.g., a presença ou ausência de um resíduo de um tipo específico em uma posição específica. Na expressão algébrica acima, as variáveis são x e y.

[089] Em algumas concretizações, os “termos” de uma expressão podem ser elementos da expressão que são demarcados por outros sinais, tais como de multiplicação.

[090] “Coeficiente” refere-se a um valor escalar multiplicado por uma variável dependente ou uma expressão contendo uma variável dependente. No exemplo acima, os “coeficientes” são a parte numérica dos termos em uma expressão algébrica. Em 4x2 + 3xy + 7y + 5, o coeficiente do primeiro termo é 4. O coeficiente do segundo termo é 3, e o coeficiente do terceiro termo é 7. Se um termo consistir apenas devariáveis, seu coeficiente será 1.

[091] “Constantes” são os termos da expressão algébrica que contêm somente números. Isto é, elas são os termos sem variáveis. Na expressão 4x2 + 3xy + 7y + 5, o termo constante é “5”.

[092] Um “termo linear” é um termo com um grau 1, ou uma única variável elevada à potência de 1. No exemplo acima, o termo 7y é um termo linear porque seu grau é 1 (y1 ou simplesmente y). Por outro lado, o termo 4x2 é um termo quadrático porque o x possui um grau 2, e 3xy é um termo quadrático bivariado porque x e y possuem cada um deles um grau 1, o produto levando a um grau 2.

[093] Em alguns lugares do texto, “termo linear” e “termo de não interação” são usados de forma intercambiável na presente invenção para referir-se a um termo de um modelo de regressão compreendendo o produto de uma única variável independente e um coeficiente associado, através do quala única VI representaa presença/ausência de um único resíduo.

[094] Em algumas concretizações, “termo não linear”, “termo de produto cruzado,” e “termo de interação” são usados de forma intercambiável nesta invenção ao se referirem a um termo de um modelo de regressão compreendendo o produto de duas ou mais variáveis independentes e um coeficiente associado. É mais comum que “termos não lineares” sejam usados para indicar termos com um graumais ou menos 1, e.g., uma função de potência ou função exponencial da variável independente. Alguns exemplos de termos não lineares incluem xy, x2, x1/3, xy, e ex. Assim, em alguns pontos do texto, “termo não linear” refere-se a um sentido mais amplo do que um termo incluindo o produto de duas variáveis independentes.

[095] Em algumas concretizações, um termo de interação poderá ser implementado como termo incluindo uma função não linear de duas ou mais VIs, e.g., a função do produto, função de potência, ou função exponencial de duas ou mais VIs, cada VI representandoa presença de um resíduo de um tipo específico em uma posição específica. Por exemplo, em y = ax1 + bx2 + cx1x2, as variáveis x1 e x2 podem representar a presença/ausência de dois resíduos em particular em uma localização em particular, e o termo cx1x2 é um termo de interação representando o efeito da interação dos dois resíduos em particular. Em outras concretizações, um termo de interação pode ser implementado como um termo incluindo uma única VI representando a interação de dois ou mais resíduos. Por exemplo, em y = ax1 + bx2 + cz, as variáveis x1 e x2 podem representar a presença/ausência de dois resíduos em particular em uma localização em particular, e o termo cz é um termo de interação representando o efeito da interação dos dois resíduos em particular. Nesse último exemplo, o termo de interação cz não é um termo de produto cruzado. Embora tecnicamente falando cz seja um termo linear, ele não é rotulado assim na presente invenção para evitar confusão com os termos lineares e não de interação ax1 e bx2. Conforme usado na invenção, o termo “modelo linear” refere-se aos modelos que só incluem termos lineares. Por outro lado, o termo “modelo não linear” refere-se aos modelos que incluem tanto termos lineares quanto não lineares. Em algumas concretizações, os modelos não lineares incluem termos de interação implementados como termos de produtos cruzados.

[096] De forma geral um modelo linear ou um sistema linear satisfaz a superposição principal e a homogeneidade de grau 1. A superposição principal estabelece que, para todos os sistemas lineares, a resposta consolidada em um dado lugar e tempo causada por dois ou mais estímulos é a quantidade de respostas que teriam sido causadas por cada estímulo individualmente. Isso também é conhecido como aditividade. Se o dado de entrada A produza resposta X e o dado de entrada B produza resposta Y então o dado de entrada (A + B) produza resposta (X + Y). A homogeneidade de grau 1 refere-se a qualquer modelo cujo resultado ou variável dependente (VD) seja proporcionalmente modificado ao seu dado de entrada ou variável independente. Por outro lado, um “modelo não linear” é um modelo que não satisfaz a superposição principal ou homogeneidade de grau 1.

[097] “Subunidades interativas” refere-se a duas ou mais subunidades de uma sequência que possuem um efeito sinergético sobre a atividade modelada da sequência, o efeito sinergético sendo separado e diferente dos efeitos individuais das subunidades sobre a atividade modelada.

[098] O termo “modelo básico” é usado em referência a um modelo de atividade sequencial fornecido no início de um processo para melhorar um modelo.

[099] O termo “modelo atualizado” é usado em referência a um modelo de atividade sequencial que é direta ou indiretamente derivado de um modelo básico, que possui um melhor poder preditivo se comparado com o modelo básico e/ou um outro modelo do qual ele seja derivado.

[0100] Uma “função de probabilidade” ou “probabilidade” de um modelo é uma função dos parâmetros de um modelo estatístico. A probabilidade de um conjunto de valores dos parâmetros dados alguns resultados observados é igual à probabilidade daqueles resultados observados dado aqueles valores dos parâmetros, i.e., L(θ|x) = P(x|θ).

[0101] “Simulações de Monte Carlo” são simulações que dependem de um grande número de amostragens aleatórias para obter resultados numéricos que simulem um fenômeno real. Por exemplo, desenhar um grande número de variáveis uniformes pseudoaleatórias do intervalo (0,1), e atribuir valores menores que ou iguais a 0.50 como cara e maior que 0.50 como coroa, é uma simulação de Monte Carlo do comportamento de jogar repetidamente uma moeda.

[0102] Um “algoritmo de Metropolis” ou “algoritmo de Metropolis-Hastings” é um método de Monte Carlo em cadeias de Markov (MCMC) para obter uma sequência de amostras aleatórias a partir de uma distribuição de probabilidade para a qual a amostragem direta seja difícil. Essa sequência de amostragem pode ser usada para aproximar a distribuição (i.e., para gerar um histograma), ou para computar um integral (tal como um valor esperado). O algoritmo de Metropolis-Hastings e outros algoritmos MCMC costumam ser usados para a amostragem de distribuições multidimensionais, especialmente quando o número de dimensões é alto. O objetivo do algoritmo de Metropolis-Hastings é gerar assintoticamente estados x de acordo com uma distribuição desejadaP(x) e usa um processo estocástico para fazê-lo. A ideia do algoritmo é condicionar o processo estocástico de tal modo que ele convirja assintoticamente para a distribuição única P(x).

[0103] Uma “cadeia de Markov” é uma sequência de variáveis aleatórias X1, X2, X3... com a propriedade de Markov. Em outras palavras, dado o presente estado, os estados passados e futuros são independentes. Formalmente,

[0104] Os possíveis valores de Xi formam um conjunto contável S chamado espaço do estado da cadeia. Um sistema de “cadeias de Markov” é um sistema matemático que passa por transições de um estado para outro, entre um número finito ou contável de estados possíveis. É um processo aleatório geralmente caracterizado como sem memória: o próximo estado só dependerá do estado atual e não da sequência de eventos que o precedeu.

[0105] O “Critério de Informação de Akaike” (CIA) é uma medida do relativo grau de ajuste de um modelo estatístico, e costuma ser usado como um critério para a seleção de modelos entre um conjunto finito de modelos. O CIA baseia-se no conceito de entropia informacional, oferecendo de fato uma medida relativa das informações perdidas quando um dado modelo é usado para descrever a realidade. Ele pode ser usado para descrever o equilíbrio entre viés e variância na construção de modelos, ou de forma geral entre a precisão e a complexidade do modelo. O CIA pode ser calculado como: AIC = —2logeL + 2k, no qual L é a probabilidade máxima da função e k é o número de parâmetros livres do modelo a serem estimados.

[0106] “Critério de Informação Bayesiano” é um critério para a seleção de modelos entre um conjunto finito de modelos, e é estreitamente relacionado com o CIA. O CIB pode ser calculado como: BIC = -2logeL + kloge(n), no qual n é o número de observações de dados. Conforme o número de observações aumente, o CIB geralmente penaliza o número extra de parâmetros livres mais pesadamente do que oCIA.

[0107] Um “algoritmo genético” é um processo que emula os processos evolucionários. Os algoritmos genéticos (AGs) são usados em uma ampla variedade de campos para solucionar problemas que não sejam totalmente caracterizados ou complexos demais para permitir uma caracterização total, mas para os quais alguma avaliação analítica está disponível. Isto é, os AGs são usados para solucionar problemas que possam ser avaliados por alguma medida quantificável para o valor relativo de uma solução (ou pelo menos o valor relativo de uma potencial solução em comparação com outra). No contexto da presente invenção, um algoritmo genético é um processo para selecionar ou manipular cadeias de caracteres em um computador, geralmente onde a cadeia de caracteres corresponde a uma ou mais moléculas biológicas (e.g., ácidos nucleicos, proteínas ou afins).

[0108] O termo “operação genética” (ou “OG”) refere-se às operações genéticas biológicas e/ou computacionais, através das quais todas as modificações em qualquer população de qualquer tipo de cadeia de caracteres (e, portanto, em qualquer propriedade física dos objetos físicos codificados por tais cadeias) podem ser descritas em consequência da aplicação aleatória e/ou predeterminada de um conjunto finito de funções algébricas lógicas. Os exemplos de OG incluem mas não limitam-se a multiplicação, cruzamento, recombinação, mutação, ligação, fragmentação, etc.

[0109] “Modelo de conjunto” é um modelo cujos termos incluem todos os termos de um conjunto de modelos, através do qual os coeficientes do modelo de conjunto de termos se baseiam em coeficientes ponderados dos termos correspondentes dos modelos individuais do grupo. A ponderação dos coeficientes se baseia no poder preditivo e/ou adequação dos modelos individuais. II. GERAÇÃO DE MELHORES BIBLIOTECAS DE VARIANTES DE PROTEÍNAS

[0110] Em uma abordagem de evolução guiada para explorar sequências de proteínas, os modelos de atividade sequencial são usados para orientar a geração de variantes de proteínas. Um aspecto da presente invenção estabelece vários métodos para preparar modelos de atividade sequencial baseados em bibliotecas de proteínas e que possam ser usados para procurar por novas e melhores bibliotecas de proteínas. Esta seção primeira fornece uma visão geral do processo para procurar por proteínas novas e melhores, e depois fornece maiores detalhes sobre as questões relativas à seleção de uma biblioteca inicial, construindo um modelo de atividade sequencial, e usando o modelo para orientar a exploração de novas proteínas.

[0111] Esta invenção fornece exemplos ilustrativos envolvendo sequências residuais de aminoácidos e atividades de proteínas, mas fica entendido que a abordagem descrita na presente invenção também pode ser implementada para outras sequências e atividades biológicas. Por exemplo, em várias concretizações, uma sequência pode ser um genoma inteiro, um cromossomo inteiro, o segmento de um cromossomo, uma coleção de sequências genéticas para genes interativos, gene, sequência de ácidos nucleicos, proteína, polissacarídeo, etc. Em uma ou mais concretizações, as subunidades das sequências podem ser cromossomos, segmentos de cromossomos, haplótipos, genes, nucleotídeos, códons, mutações, aminoácidos, mono, di, tri, ou carboidratos oligoméricos, etc.

[0112] Geralmente, no início de uma rodada particular da evolução direcionada de sequências, um conjunto de treinamento de variantes de proteínas sequenciadas e doseadas é obtido. Uma dada rodada de evolução direcionada produz um certo número de proteínas variantes que variam em uma ou mais mutações a partir do peptídeo parental ou dos peptídeos usados no início da rodada de evolução direcionada. Os peptídeos variantes produzidos durante uma rodada de evolução direcionada são doseados para a atividade. Aqueles peptídeos que possuem a atividade desejada e/ou uma melhor atividade se comparados aos peptídeo(s) parental(is) são selecionados para uso em pelo menos uma outra rodada de evolução direcionada.

[0113] Variantes de proteínas sequenciadas e doseadas também podem ser usadas para produzir um modelo de atividade sequencial. Geralmente, elas são usadas em um modelo de atividade sequencial se de fato elas forem sequenciadas. Cada uma das variantes de proteínas sequenciadas e doseadas é denominada uma “observação”. Geralmente, quanto mais observações forem empregadas para criar um modelo de atividade sequencial, melhor será o poder preditivo daquele modelo de atividade sequencial.

[0114] Até o advento da tecnologia de sequenciamento paralelo massivo da próxima geração, era difícil sequenciar de forma econômica mais de 10 a 30 peptídeos variantes produzidos em qualquer rodada de evolução direcionada. Agora com a aplicação do sequenciamento da próxima geração, muitas mais proteínas variantes produzidas em uma rodada de evolução direcionada podem ser sequenciadas. Consequentemente, um grupo muito maior de dados dos conjuntos de treinamento pode ser usado para produzir modelos de atividade sequencial. Os modelos de atividade sequencial agora podem ser gerados usando um conjunto de treinamento que inclua não somente os peptídeos de melhor desempenho de uma rodada, mas também alguns peptídeos que não seriam de interesse para outras rodadas de evolução direcionada, mas cuja informações da atividade sequencial poderiam ser aplicadas para produzir um modelo de atividade sequencial mais robusto.

[0115] Em algumas concretizações, costuma ser desejável produzir modelos de atividade sequencial comum a boa capacidade de prever a atividade de uma sequência arbitrária. O poder preditivo pode ser caracterizado pela precisão da previsão assim como pela consistência com a qual o modelo prevê a atividade de forma precisa. Além disso, um modelo pode ser caracterizado pela sua capacidade de prever a atividade de forma precisa sobre uma ampla variedade de espaços sequenciais. Por exemplo, o poder preditivo pode ser caracterizado em termos dos valores residuais entre as atividades calculadas e efetivas para um dado teste e/ou conjunto de validação de peptídeos. Um modelo com um maior poder preditivo generalizado tende a produzir valores residuais menores e mais consistentes em diferentes conjuntos de dados de validação. Um modelo que seja sobreajustado a um conjunto de dados de teste tende a produzir valores residuais maiores e menos consistentes para os dados de validação, como mostrado no exemplo abaixo. Um aspecto da presente invenção estabelece um método para encontrar de forma eficiente um modelo com alto poder preditivo em diferentes conjuntos de dados. A. VISÃO GERAL DO PROCESSO PARA PROCURAR POR MELHORES VARIANTES DE PROTEÍNAS

[0116] Modelos de atividades sequenciais tais como descritos na presente invenção podem ser usados para ajudar a identificar um ou mais “genes” parentais em uma biblioteca inicial de variantes para passarem pela evolução direcionada. Após uma rodada de evolução ser realizada, uma nova biblioteca de variantes será identificada, fornecendo um novo conjunto de observações, que poderá ser reintroduzido como dados para preparar um modelo de atividade sequencial novo ou refinado. Esse processo de alternar entre a preparação de um modelo de atividade sequencial baseado nas novas observações e realizar a evolução direcionada com base no modelo de atividade sequencial pode formar um circuito iterativo de modelagem-exploração, que poderá ser repetido até que as proteínas e bibliotecas desejadas sejam obtidas.

[0117] Por causa do circuito de feedback entre os modelos de atividade sequencial e as bibliotecas de variantes, os melhores modelos e melhores bibliotecas de variantes dependem um do outro para a exploração de proteínas com melhores atividades. Portanto, gargalos e aperfeiçoamentos nos domínios da modelagem e/ou do sequenciamento poderão afetar ambos os domínios. Em algumas concretizações da invenção, aperfeiçoamentos das eficiências das modelagens devido a melhores técnicas de modelagem geram melhores modelos para orientar a exploração das sequências. Em algumas concretizações, tecnologias de sequenciamento da próxima geração são usadas para melhorar a velocidade de sequenciamento in vitro, assim como para fornecer dados de validação cruzada para melhorar os modelos computacionais in silico.

[0118] Em algumas concretizações da invenção, os modelos úteis de atividade sequencial exigem robustas técnicas matemáticas de modelagem e um grande número de “observações”. Essas observações são os dados fornecidos em um conjunto de treinamento para um modelo. Especificamente, cada observação é um valor da atividade e uma relativa sequência para uma variante em uma biblioteca. Historicamente, o sequenciamento tem sido um passo limitador no desenvolvimento de grandes conjuntos de treinamento e consequentemente, modelos de atividade sequencial cada vez mais robustos. Nos métodos comumente usados atualmente, são geradas bibliotecas de variantes possuindo talvez centenas de variantes. Porém, somente uma pequena fração dessas variantes é efetivamente sequenciada. Em uma típica rodada de evolução direcionada, somente cerca de 10 a 30 variantes com maior atividade são efetivamente sequenciadas. Idealmente, uma fração muito maior de variantes da biblioteca seria sequenciada, incluindo algumas variantes com atividades relativamente baixas. Ferramentas de sequenciamento da próxima geração possuem uma velocidade de sequenciamento muito melhor, tornando possível incluir variantes de baixa e alta atividade em um conjunto de treinamento. Em algumas concretizações, a inclusão de variantes com uma ampla gama de níveis de atividade resulta na produção de modelos de melhor desempenho e/ou que são melhores para prever a atividade em uma variedade mais ampla de sequências e espaços de atividade.

[0119] Alguns modelos de regressão linear de atividades sequenciais citados na presente invenção incluem resíduos individuais como variáveis independentes para prever qualquer atividade de interesse. Os modelos de regressão linear de atividades sequenciais não incluem termos para representar as interações entre dois ou mais valores residuais. Se uma interação entre dois dos valores residuais tiver um efeito sinergético sobre a atividade, um modelo linear poderá prover um valor artificialmente inflado dos coeficientes associados aos dois resíduos interativos. Consequentemente, uma pessoa que trabalhe com o modelo poderá concluir erroneamente que ao simplesmente efetuar uma substituição de resíduos conforme o proposto pelo valor relativamente alto do coeficiente, a atividade de um peptídeo resultante seria maior que o esperado.Isso ocorre porque o pesquisador não compreende como uso de um modelo linear que a maior atividade associada à substituição de resíduos é essencialmente um resultado da interação daquela substituição com uma outra substituição. Se o pesquisador tiver compreendido a importância dessa interação, então ele ou ela poderia realizar ambas substituições concomitantemente e obter o aumento da atividade sugerido pelo modelo linear.

[0120] Se dois resíduos interagirem para suprimir a atividade de forma não linear, o modelo linear atribuirá valores menores para os coeficientes associados a esses resíduos do que seria apropriado se os resíduos fossem considerados puramente como isolados entre si. Em outras palavras, realizar uma das substituições, mas não a outra para os resíduos interativos produzirá um resultado da atividade maior do que seria sugerido pelo modelo linear.

[0121] Como um modelo linear pode ser inadequado quando as interações resíduo-resíduo têm um forte impacto sobre a atividade, modelos não lineares com termos de interação não lineares representando as interações entre resíduos costumam ser necessários para obter previsões precisas da atividade. Porém, os modelos que utilizam termos não lineares trazem desafios computacionais e empíricos. Muito especialmente, há potenciais termos de interação demais a serem levados consideração para desenvolver/utilizar um modelo, o que requer um volume considerável de computação. Uma limitação muito maior é o potencial número de observações necessárias para produzir um modelo com um número significativo de termos de interação resíduo-resíduo. Além disso, pode haver uma tendência da técnica de criação de modelos sobreajustar os dados, dado um número particular de observações disponíveis. Para lidar com esse desafio, selecionar e limitar cuidadosamente os termos de interação fornecidos no modelo de atividade sequencial é uma consideração importante no desenvolvimento de muitos modelos.

[0122] A Figura 1 apresenta um fluxograma mostrando uma implementação de um processo para preparar um modelo de atividade sequencial. Como ilustrado, um processo 100 começa no bloco 103 para fornecer dados sobre sequências e atividades para genes variantes (“observações”). Os dados da sequência podem ser obtidos de, por exemplo, um conjunto de treinamento compreendendo sequências residuais para uma biblioteca de proteínas variantes inicial ou melhor. Geralmente, esses dados incluem informações completas ou parciais sobre sequências residuais, juntamente com um valor da atividade para cada proteína da biblioteca. Em alguns casos, vários tipos de atividades (e.g., dados sobre taxas constantes e dados sobre estabilidade térmica) são fornecidos conjuntamente no conjunto de treinamento. Outras fontes de dados também podem ser consideradas, conforme determinado pelos resultados desejados. Algumas fontes de dados apropriadas incluem, mas não se limitam a, referências da literatura que descrevam informações sobre peptídeos particulares de relevância para a modelo de atividade sequencial em construção. As fontes de informações adicionais incluem, mas não se limitam a, rodadas de evolução direcionada anteriores ou diferentes no mesmo projeto. De fato, pretende-se que as informações derivadas das rodadas de evolução direcionada anteriores (usando qualquer método apropriado, incluindo mas não limitando-se àqueles fornecidos na presente invenção) poderão ser usadas para desenvolver bibliotecas, variantes, etc.,produzidas posteriormente.

[0123] Em muitas concretizações, os membros individuais da biblioteca de proteínas variantes representam uma ampla variedade de sequências e atividades. Isso facilita a geração de um modelo de atividade sequencial que seja aplicável em uma ampla região do espaço sequencial. As técnicas para gerar tais bibliotecas diversificadas incluem, mas não se limitam a, a variação sistemática das sequências de proteínas e técnicas de evolução direcionada, conforme o descrito na presente invenção. Porém, em algumas concretizações alternativas, é desejável gerar modelos de sequências genéticas em uma família particular de genes (e.g., uma cinase particular encontrada em várias espécies ou organismos). Como muitos resíduos serão idênticos entre todos os membros da família, o modelo só descreve aqueles resíduos que variam. Assim, em algumas concretizações, modelos estatísticos baseados em tais conjuntos de treinamento relativamente pequenos, se comparados ao conjunto de todas as possíveis variantes, são válidos em um sentido local. Nomeadamente, os modelos só são válidos para dadas observações de dadas variantes. Em algumas concretizações, o objetivo não é encontrar uma função de adequação global, pois sabe-se que em alguns modelos, isso está além da capacidade e/ou necessidade do(s) sistema(s) de modelo(s) em consideração.

[0124] Dados sobre as atividades podem ser obtidos usando qualquer meio apropriado conhecido pela tecnologia existente, incluindo mas não limitando-se a ensaios e/ou triagens devidamente projetados para medir as magnitudes da atividade/atividades de interesse. Tais técnicas são bem conhecidas e não são essenciais para a atual invenção. Os princípios para projetar ensaios ou triagens apropriadas são amplamente compreendidos e conhecidos pela tecnologia existente. As técnicas para obter sequências de proteínas também são bem conhecidas e não são fundamentais para a atual invenção. Como citado antes, tecnologias de sequenciamento da próxima geração poderão ser usadas. A atividade usada com as concretizações descritas na presente invenção poderá ser a estabilidade proteica (e.g., estabilidade térmica). Porém, muitas concretizações importantes consideram outras atividades, tais como atividade catalítica, resistência a patógenos e/ou toxinas, atividade terapêutica, toxicidade, e situações afins. De fato, não se pretende que a presente invenção seja limitada a qualquer método de ensaio/triagem e/ou método de sequenciamento em particular, pois qualquer método apropriado e conhecido pela tecnologia existente poderá ser usado na presente invenção.

[0125] Após os dados dos conjuntos de treinamento terem sido gerados ou adquiridos, o processo os utiliza para gerar um modelo básico de atividade sequencial que preveja a atividade como função das informações sequenciais. Veja o bloco 105. Esse modelo é uma expressão, algoritmo ou outra ferramenta que prevê a relativa atividade de uma proteína em particular quando fornecida com informações sequenciais sobre aquela proteína. Em outras palavras, as informações sobre as sequências de proteínas são dados de entrada e uma previsão da atividade é o resultado. Em algumas concretizações, o modelo básico não inclui nenhum termo de interação. Em tais casos, o modelo básico pode ser descrito como um “modelo linear”. Em outras concretizações, o modelo básico incluía todos os termos de interação disponíveis, em cujo caso o modelo básico pode ser descrito como um modelo não linear ou um modelo de interação.

[0126] Para muitas concretizações, o modelo básico pode classificar a contribuição de vários resíduos da atividade. Os métodos para gerar tais modelos, os quais todos se aplicam à rubrica de aprendizado de máquina, (e.g., regressão de mínimos quadrados parciais (PLS), regressão de componentes principais (PCR), e regressão linear múltipla (MLR), regressão linear bayesiana) são discutidos abaixo, juntamente com o formato das variáveis independentes (informações sequenciais), o formato da(s) variável(is) dependente(s) (atividade), e a forma do próprio modelo (e.g., uma expressão linear de primeira ordem).

[0127] Após um modelo básico de atividade sequencial ser gerado, o processo acrescenta ou subtrai iterativamenteos termos de interação de um conjunto de termos de interação disponíveis ao ou baseado no modelo básico e avalia os novos modelos resultantes para aperfeiçoar o modelo básico para produzir um modelo final. Veja o bloco 107. Quando o modelo básico inclui todos os termos de interação disponíveis, o processo subtrai tais termos de forma gradual. Quando o modelo básico não inclui nenhum termo de interação, o processo acrescenta tais termos de forma gradual.

[0128] Ao avaliar um novo modelo, os métodos da presente invenção não apenas levam em consideração a variância que um modelo representa dado um conjunto de dados, mas também a capacidade do modelo de prever dados novos. Em algumas concretizações, essa abordagem para a seleção de modelos penaliza os modelos que possuem mais coeficientes/parâmetros do que os modelos equivalentes que possuem menos coeficientes/parâmetros para evitar sobreajustar o modelo ao conjunto de dados fornecido. Os exemplos de métodos de seleção incluem, mas não se limitam a, o Critério de Informação de Akaike (CIA) e o Critério de Informação Bayesiano (CIB), e as variações dos mesmos.

[0129] Em uma série de modelos aninhados, como nos modelos de regressão com progressivamente mais termos de interação (e coeficientes associados) do que um modelo básico, os modelos mais complexos também proporcionam adequações boas ou melhores do que os mais simples mesmo que os coeficientes extras sejam espúrios, porque o modelo mais complexo possui um grau extra de liberdade. Certas concretizações da presente invenção empregam métodos de seleção de modelos que penalizamos modelos mais complexos do ganho em termos do grau de ajuste ser mais que contrabalançado pelo custo dos parâmetros espúrios.

[0130] Algoritmos exemplares para gerar modelos de atividade sequencial de acordo com as operações dos blocos 105 e 107 são apresentados abaixo. Tais técnicas incluem, mas não se limitam a, técnicas graduais que evitam a inclusão de termos de interação adicionais em um modelo. Porém, não se pretende que a presente invenção se limite a esses exemplos específicos.

[0131] Em um aspecto, a presente invenção estabelece métodos para preparar um modelo de atividade sequencial que possa ajudar a identificar moléculas biológicas para afetar uma atividade desejada. Em algumas concretizações, o método compreende: (a) receber dados sobre sequências e atividades para um grande número de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, através do qual o modelo básico preveja a atividade como função da presença ou ausência de subunidades da sequência; (c) preparar pelo menos um novo modelo através do acréscimo ou subtração de pelo menos um novo termo de interação com ou a partir do modelo básico, através do qual o novo termo de interação represente a interação entre duas ou mais subunidades interativas; (d) determinar a capacidade de pelo menos um novo modelo de prever a atividade como função da presença ou ausência de subunidades; e (e) determinar se seria necessário acrescentar ou subtrairo novo termo de interação com ou a partir do modelo básico com base na capacidade de pelo menos um novo modelo de prever a atividade conforme determinada em (d) e com um viés contra o acréscimo do novo termo de interação. O modelo derivado poderá então ser usado em várias aplicações, tais como na evolução direcionada de bibliotecas de proteínas para identificar proteínas com as atividades e propriedades biológicas desejadas.

[0132] Em algumas concretizações, através das quais o método determina se o novo termo de interação deve ser acrescentado ao modelo básico para produzir um modelo atualizado, o método também inclui: (f) repetição (c) usar o modelo atualizado no lugar do modelo básico e acrescentar ou subtrair um termo de interação diferente daquele acrescentado/subtraído em (c); e (g) repetição (d) e (e) usar o modelo atualizado no lugar do modelo básico. Em algumas concretizações, o método também inclui: (h) repetição (f) e (g) usar um outro modelo atualizado.

[0133] Após as observações para um conjunto de treinamento serem selecionadas e uma técnica matemática para produzir o modelo de atividade sequencial ser escolhida, o modelo básico será criado. O modelo básico costuma ser gerado sem levar em conta sua capacidade preditiva. Ele é simplesmente produzido de acordo com um procedimento definido para produzir um modelo básico a partir das observações disponíveis (i.e., o conjunto de observações), conforme o descrito na presente invenção. Como estabelecido acima, os modelos de sequências podem descrever várias sequências, enquanto em algumas concretizações, os modelos descrevem proteínas. Neste último caso, o modelo básico é simplesmente um modelo linear com um único termo para cada uma das mutações presentes na coleção de peptídeos usados para criar o conjunto de treinamento. Nessas concretizações, o modelo básico não inclui nenhum termo representando interações entre resíduos nos peptídeos. Em algumas concretizações, o modelo básico não inclui um termo separado para toda e cada mutação presente no conjunto de observações.

[0134] Nas abordagens alternativas, o modelo básico inclui não somente os termos que descrevem cada uma das mutações isoladamente, mas inclui além disso os termos para todos os potenciais resíduos interativos. Em último caso, todas as interações concebíveis entre as mutações observadas são usadas no modelo básico. Isso inclui um termo para toda e cada interação pareada entre mutações, assim como os termos para toda e cada possível interação de três resíduos, assim como todas as possíveis interações de quatro resíduos, etc. Algumas concretizações incluem apenas as interações pareadas ou as interações pareadas e as interações de três resíduos. Uma interação de três resíduos é uma interação que afeta as atividades entre três distintas subunidades.

[0135] Em uma ou mais concretizações usando um modelo linear simples como modelo básico, os esforços subsequentes para melhorar o modelo incluem acrescentar novos termos que representem distintas interações. Nas concretizações alternativas onde o modelo básico inclui todos os termos lineares e não lineares, os esforços subsequentes para melhorar o modelo envolvem remover seletivamente alguns dos termos de interação não lineares.

[0136] Em uma ou mais concretizações da invenção, o processo para melhorar o modelo básico envolve acrescentar ou subtrair iterativamente termos de interação do modelo básico para determinar se o modelo resultante melhora suficientemente a qualidade do modelo. Em cada iteração, o poder preditivo do modelo atual é determinado e comparado a um outro modelo, e.g., o modelo básico ou o modelo atualizado.

[0137] Nas concretizaçõesnas quais uma medida de poder preditivo já leva conta a capacidade de um modelo de ser generalizado para outros conjuntos de dados, aquela medida sozinha pode determinar se um modelo candidato deve ser selecionado. Por exemplo, uma medida tal como CIA ou CIB leva tanto a probabilidade (ou erro residual) quanto o número de parâmetros do modelo em consideração. A “função de probabilidade” ou “probabilidade” de um modelo é uma função dos parâmetros de um modelo estatístico. A probabilidade de um conjunto de valores dos parâmetros dados alguns dos resultados observados é igual à probabilidade daqueles resultados observados dados aqueles valores dos parâmetros, i.e. L(θ|x) = P(x|θ). Um cálculo exemplar da probabilidade do modelo é descrito em uma seção abaixo. Medidas tais como CIA e CIB vão contra um modelo que possua mais parâmetros se o modelo que possui mais parâmetros capturar a mesma quantidade de variância dos dados como ocorre com um modelo que possui menos parâmetros. Se uma medida de poder preditivo só considerar o erro residual, a magnitude do aperfeiçoamento do erro residual deve ser considerada para determinar se é necessário incorporar ou não a modificação associada à iteração atual ao melhor modelo atualizado atual. Isso pode ser realizado comparando-se a magnitude do aperfeiçoamento com relação a um limiar. Se a magnitude for menor que o limiar, a modificação em consideração na iteração atual não será aceita. Se, alternativamente, a magnitude do aperfeiçoamento exceder o limiar, então a modificação em consideração será incorporada ao modelo atualizado e o modelo atualizado servirá como o novo modelo melhore assim por diante para as demais iterações.

[0138] Em certas concretizações, cada iteração considera o acréscimo ou subtração de um único termo de interação do melhor modelo atual em consideração. No caso de um modelo aditivo, i.e., caso o modelo básico só contenha termos lineares, um conjunto de todos os termos de interação disponíveis poderá ser considerado. Cada um desses termos de interação é considerado sucessivamente até que o processo seja concluído e um melhor modelo final seja obtido.

[0139] Em alguns casos, ao determinar que o processo efetivamente convergiu e é improvável que ocorram mais melhorias, o processo de geração do modelo é encerrado antes de todos os termos de interação disponíveis no conjunto terem sido considerados.

[0140] A Figura 2 mostra como um modelo pode ser usado iterativamente para orientar a criação de novas bibliotecas de proteínas variantes com a finalidade de explorar as sequências de proteínas e os espaços de atividade, em um processo (Veja, 200). Após um modelo final ser gerado, o modelo final é empregado para identificar as várias posições dos resíduos (e.g., posição 35) ou valores específicos dos resíduos (e.g.glutamina na posição 35) que se prevê que afetarão a atividade. Veja o bloco 207. Além de identificar tais posições, o modelo pode ser usado para “classificar” as posições dos resíduos ou os valores dos resíduoscom base nas suas contribuições para a atividade desejada (atividades?). Por exemplo, o modelo pode prever que glutamina na posição 35 tem o efeito mais pronunciado e positivo sobre a atividade; fenilalanina na posição 208 tem o segundo efeito mais pronunciado e positivo sobre a atividade; e assim por diante. Em uma abordagem específica descrita abaixo, coeficientes de regressão PLS ou PCR são empregados para classificar a importância dos resíduos específicos. Em uma outra abordagem específica, uma matriz de carregamento PLS é empregada para classificar a importância das posições específicas dos resíduos.

[0141] Após o processo ter identificado os resíduos que afetam a atividade, alguns deles são selecionados para variação como indicado no bloco 209 (Figura 2). Isso é feito com o objetivo de explorar o espaço sequencial. Os resíduos são selecionados usando qualquer um dos vários protocolos de seleção diferentes, alguns dos quais são descritos abaixo. Em um exemplo ilustrativo, os resíduos específicos que se prevê que tenham o impacto mais benéfico sobre a atividade são preservados (i.e., não variados). Um certo número de outros resíduos que se prevê que tenham um menor impacto são, porém, selecionados para variação. Em um outro exemplo ilustrativo, as posições dos resíduos considerados como tendo o maior impacto sobre a atividade são selecionadas para variação, mas somente se for considerado que elas variam entre os membros de melhor desempenho do conjunto de treinamento. Por exemplo, se o modelo prever que a posição do resíduo 197 teráo maior impacto sobre a atividade, mas todas ou a maioria das proteínas com alto nível de atividade possuirá leucina nessa posição, a posição 197 não será selecionada para variação nessa abordagem. Em outras palavras, todas ou a maioria das proteínas em uma biblioteca da próxima geração teriam leucina na posição 197. Porém, se algumas “boas” proteínas tivessem valina nessa posição e outras tivessem leucina, então o processo optaria por variar o aminoácido nessa posição. Em alguns casos, podemos descobrir que uma combinação de dois ou mais resíduos interativos tem maior impacto sobre a atividade. Logo, em algumas estratégias, esses resíduos são co-variados.

[0142] Após os resíduos para variação terem sido identificados, o método gera a seguir uma nova biblioteca de variantes que possuia variação de resíduos especificada. Veja o bloco 211 (Figura 2). Várias metodologias estão disponíveis para essa finalidade. Em um exemplo, um mecanismo de geração de diversidade in vitro ou in vivo baseado na recombinaçãoé executado para gerar a nova biblioteca de variantes. Tais procedimentos podem empregar oligonucleotídeos contendo sequências ou subsequências para codificar as proteínasda biblioteca parental variante. Alguns do oligonucleotídeos serão estreitamente relacionados, diferindo somente na escolha de códons para aminoácidos alternados selecionados para variação na posição 209. O mecanismo de geração de diversidade baseado na recombinação pode ser executado para um ou vários ciclos. Se vários ciclos forem usados, cada um deles envolverá um passo de triagem para identificar quais variantes possuem um desempenho aceitável para serem usadas em um ciclo de recombinação subsequente. Isso é uma forma de evolução direcionada. Porém, não se pretende que a presente invenção seja limitada a qualquer método específico do método de geração de diversidade baseado em recombinação, pois qualquer método/técnica adequada pode ser usada na presente invenção.

[0143] Em um exemplo ilustrativo adicional, uma sequência de proteínas de “referência” é escolhida e os resíduos selecionados na posição 209 da Figura 2 são “alternados” para identificar os membros individuais da biblioteca de variantes. As novas proteínas assim identificadas são sintetizadas através de uma técnica apropriada para gerar a nova biblioteca. Em um exemplo, a sequência de referência pode ser um membro de alto desempenho do conjunto de treinamento ou uma sequência “melhor” prevista por um modelo PLS ou PCR.

[0144] Em um outro exemplo ilustrativo, os resíduos para variação em uma rodada de evolução direcionada são selecionados em uma única sequência parental. A matriz pode ser identificada usando os resultados dos modelos de uma rodada de evolução direcionada anterior ou através do uso de dados que identifiquem o membro da biblioteca que possuao melhor desempenho nos testes. Os oligonucleotídeos para a próxima rodada de evolução direcionada podem ser definidos para que incluam porções da estrutura da matriz selecionada com uma ou mais mutações previstas algoritmicamente a partir de um modelo de atividade sequencial para a rodada atual. Esses oligonucleotídeos podem ser produzidos usando qualquer meio apropriado, incluindo mas não limitando-se a, métodos sintéticos.

[0145] Após a nova biblioteca ter sido produzida, ela será triada quanto à atividade, como indicado no bloco 213 (Figura 2). Idealmente, a nova biblioteca fornece um ou mais membros com atividade melhor do que foi observado na biblioteca anterior. Porém, mesmo com tal vantagem, a nova biblioteca poderá fornecer informações importantes. Seus membros poderão ser empregados para gerar modelos melhores que respondam pelos efeitos das variações selecionadas em 209 (Figura 2), e assim prever de forma mais precisa a atividade em regiões mais amplas do espaço sequencial. Além disso, a biblioteca poderá representar uma passagem no espaço sequencial de um máximo local para um máximo global (e.g., na atividade).

[0146] Dependendo do objetivo do processo 200 (Figura 2), em algumas concretizações, é desejável gerar uma série de novas bibliotecas de proteínas variantes, com cada uma delas fornecendo novos membros de um conjunto de treinamento. O conjunto de treinamento atualizado será então usado para gerar um modelo melhor. Para obter o modelo melhor, o processo 200 é mostrado com uma operação de tomada de decisões como mostrada no bloco 215, que determina se uma ainda outra biblioteca de proteínas variantes deve ser produzida. Vários critérios podem ser usados para tomar essa decisão. Os exemplos decritérios de decisão incluem mas não limitam-se ao número de bibliotecas de proteínas variantes geradas até o momento, a atividade das principais proteínas da biblioteca atual, a magnitude da atividade desejada, e o nível de aperfeiçoamento observado nas recentes bibliotecas novas.

[0147] Presumindo que o processo seja usado para continuar com uma nova biblioteca, o processo retornará para a operação do bloco 100 (Figura 2) onde um novo modelo de atividade sequencial será gerado a partir dos dados sobre sequências e atividades obtidos para a atual biblioteca de proteínas variantes. Em outras palavras, os dados sobre sequências e atividades para a atual biblioteca de proteínas variantes atua como parte do conjunto de treinamento para o novo modelo (ou eles poderãoservir para todo o conjunto de treinamento). A partir de então, as operações mostradas nos blocos 207, 209, 211, 213, e 215 (Figura 2) serão realizadas conforme o descrito acima, mas com o novo modelo.

[0148] Quando for determinado que o ponto final do método foi alcançado, o ciclo ilustrado na Figura 2 será finalizado e nenhuma nova biblioteca será gerada. Nesse ponto, o processo ou será simplesmente encerrado ou em algumas concretizações, um ou mais sequências de um ou mais das bibliotecas será/serão selecionadas para desenvolvimento e/ou fabricação. Veja o bloco 217.

B. GERANDO OBSERVAÇÕES

[0149] As bibliotecas de proteínas variantes são grupos de várias proteínasque possuem um ou mais resíduos que variam de membro a membro em uma biblioteca. Essas bibliotecas podem ser geradas usando os métodos descritos na presente invenção e/ou qualquer meio apropriado conhecido pela tecnologia existente. Essas bibliotecassão usadas para fornecer dados para os conjuntos de treinamento usados para gerar modelos de atividade sequencial de acordo com várias concretizações da presente invenção. O número de proteínas incluídas em uma biblioteca de proteínas variantes depende geralmente da aplicação e do custo associado à sua geração. Não é a intenção que a presente invenção seja limitada a qualquer número particular de proteínas nas bibliotecas de proteínas usadas nos métodos da presente invenção. Também não se pretende que a presente invenção seja limitada a qualquer biblioteca ou bibliotecas de proteínas variantes em particular.

[0150] Em um exemplo, a biblioteca de proteínas variantes é gerada a partir de um ou mais proteínas de ocorrência natural, que podem ser codificadas por uma única família de genes. Outros pontos de partida incluindo mas não limitando-se aos recombinantes de proteínas conhecidas ou novas proteínas sintéticas podem ser usados. A partir dessas proteínas germe ou iniciais, a biblioteca pode ser gerada através de várias técnicas. Em um caso, a biblioteca é gerada através de recombinação mediada pela fragmentação do DNA conforme o descrito em Stemmer (1994) Proceedings of the National Academy of Sciences, USA, 1074710751 e WO 95/22625 (ambos os quais são incorporados a este texto por referência), recombinação mediada por oligonucleotídeo sintético conforme o descrito em Ness et al. (2002) Nature Biotechnology 20:1251-1255 e WO 00/42561 (ambos os quais são incorporados a este texto por referência), ou ácidos nucleicos codificando uma parte ou toda uma ou mais proteínas precursoras. Combinações desses métodos também podem ser usadas (e.g., recombinação de fragmentos de DNA e oligonucleotídeos sintéticos) assim como outras baseadas nos métodos de recombinação descritos em, por exemplo, WO97/20078 e WO98/27230, ambos os quais são incorporados a este texto por referência. Qualquer método apropriado usado para gerar bibliotecas de proteínas variantes poderá ser usadona presente invenção. De fato, não se pretende que a presente invenção seja limitada a qualquer método em particular para produzir bibliotecas de variantes.

[0151] Em algumas concretizações, uma única sequência “inicial” (que pode ser uma sequência “ancestral”) pode ser empregada com o objetivo de definir um grupo de mutações usadas no processo de modelagem. Em algumas concretizações, pelo menos uma das sequências iniciais é uma sequência de tipo selvagem.

[0152] Em certas concretizações, as mutações são (a) identificadas na literatura como afetando a especificidade, seletividade, estabilidade do substrato, ou outra propriedade benéfica e/ou (b) previstas computacionalmente para melhorar os padrões de dobramento das proteínas (e.g., empacotando os resíduos internos de uma proteína), a vinculação de moléculas, as interações entre subunidades, inversão de família entre vários homólogos diferentes, etc. Alternativamente, as mutações podem ser introduzidas fisicamente na sequência inicial e os produtos da expressão triados quanto às propriedades benéficas. A mutagênese dirigida é um exemplo de uma técnica útil para introduzir mutações, embora qualquer método apropriado possa ser usado. Assim, alternativamente ou além disso, os mutantes podem ser fornecidos através da síntese de genes, saturação de mutagênese aleatória, bibliotecas combinatórias de resíduos semissintéticos, evolução direcionada, recombinação recursiva de sequências (“RSR”) (Veja e.g., Pedido de Patente nos EUA No. 2006/0223143, incorporado por referência a este texto na sua integralidade), inversão de genes, PCR sujeito a erros, e/ou qualquer outro método apropriado. Um exemplo de um procedimento apropriado de saturação de mutagênese é descrito no Pedido de Patente Publicado nos EUA No. 20100093560, que é incorporado a este texto por referência na sua integralidade.

[0153] A sequência inicial não precisa ser idêntica à sequência de aminoácidos da proteína de tipo selvagem. Porém, em algumas concretizações, a sequência inicial é a sequência da proteína de tipo selvagem. Em algumas concretizações, a sequência inicial inclui mutações não presentes na proteína de tipo selvagem. Em algumas concretizações, a sequência inicial é uma sequência consensual derivada de um grupo de proteínas que possuem uma propriedade em comum, e.g., uma família de proteínas.

[0154] Uma lista representativa e não limitada de famílias ou classes de enzimas que podem servir de fontes de sequências parentais inclui, mas não se limita a, os seguintes: oxidorredutases (E.C.1); transferases (E.C.2); hidrolases (E.C.3); liases (E.C.4); isomerases (E.C. 5) e ligases (E.C. 6). Os subgrupos mais específicos mas não limitados de oxidorredutases incluem desidrogenases (e.g., álcool desidrogenase (carbonilredutases), xiluloseredutases, aldeído redutases, farnesol desidrogenase, lactatodesidrogenases, arabinose desidrogenases, glucose desidrogenase, frutosedesidrogenases, xilose redutases e succinatodesidrogenases), oxidases (e.g., glucose oxidases, hexose oxidases, galactose oxidases e lacases), monoamino oxidases, lipoxigenases, peroxidases,aldeídodesidrogenases, redutases, redutases de acilo-[proteína portadora de acilo] de cadeias longas, desidrogenases do acilo-CoA, ene- redutases, sintases (e.g., sintases de glutamato), nitratoredutases, mono e dioxigenases, e catalases. Os subgrupos mais específicos mas não limitados de transferases incluem metilo, amidino, e transferases de carboxila, transcetolases, transaldolases, aciltransferases, glicosiltransferases, transaminases, transglutaminases e polimerases.Os subgrupos mais específicos mas não limitados de hidrolases incluem hidrolases de éster, peptidases, glicosilases, amilases, celulases, hemicelulases, xilanases, quitinases, glucosidases, glucanases, glucoamilases, acilases, galactosidases, pululanases, fitases, lactases, arabinosidases, nucleosidases, nitrilases, fosfatases, lipases, fosfolipases, proteases, ATPases, e desalogenases. Os subgrupos mais específicos mas não limitados de liases incluem decarboxilases, aldolases, hidratases, desidratases (e.g., anidrases carbônicas), sintases (e.g., isopreno, pineno e farnesenosintases), pectinases (e.g., liases de pectina) e desidrogenases de halo-hidrinas. Os subgrupos mais específicos mas não limitados de isomerases incluem racemases, epimerases, isomerases (e.g., xilose, arabinose, ribose, glucose, galactose e isomerases de manose), tautomerases, e mutases (e.g. mutases transferidoras de acilos, fosfomutases, e aminomutases. Os subgrupos mais específicos mas não limitados de ligases incluem sintases de éster. Outras famílias ou classes de enzimas que podem ser usadas como fontes de sequências parentais incluem transaminases, proteases, cinases e sintases. Essa lista, embora ilustre certos aspectos específicos das possíveis enzimas da presente invenção, não é considerada exaustiva e não apresenta as limitações nem circunscreve o escopo da presente invenção.

[0155] Em alguns casos, as enzimas candidatas e úteis nos métodos descritos na presente invenção podem catalisar uma reação enantiosseletiva tal como uma reação de redução enantiosseletiva, por exemplo. Tais enzimas podem ser usadas para produzir intermediários úteis para asíntese de compostos farmacêuticos, por exemplo.

[0156] Em algumas concretizações, as enzimas candidatas são selecionadas a partir de endoxilanases (EC 3.2.1.8); β-xilosidases (EC 3.2.1.37); alfa-L- arabinofuranosidases (EC 3.2.1.55); alfa-glucuronidases (EC 3.2.1.139); acetilxilanesterases (EC 3.1.1.72); feruloil esterases (EC 3.1.1.73); esterases de cumaroil (EC 3.1.1.73); alfa-galactosidases (EC 3.2.1.22); beta-galactosidases (EC 3.2.1.23); beta-mananases (EC 3.2.1.78); beta-manosidases (EC 3.2.1.25); endo-poligalacturonases (EC 3.2.1.15); pectina metil-esterases (EC 3.1.1.11 ); endo-galactanases (EC 3.2.1.89); pectinaacetil-esterases (EC 3.1.1.6); endo- pectina liases (EC 4.2.2.10); pectatoliases (EC 4.2.2.2); alfa ramnosidases (EC 3.2.1.40); exo-poli-alfa-galacturonosidase (EC 3.2.1.82); 1,4-alfa- galacturonidase(EC 3.2.1.67); exopoligalacturonatoliases (EC 4.2.2.9); ramnogalacturonano endoliases EC (4.2.2.B3); ramnogalacturonanaacetilesterases (EC 3.2.1.B11); ramnogalacturonana galacturonohidrolases (EC 3.2.1.B11); endo-arabinanases (EC 3.2.1.99); lacases (EC 1.10.3.2); peroxidases dependentes de manganésio (EC 1.10.3.2); amilases (EC 3.2.1.1), glucoamilases (EC 3.2.1.3), proteases, lipases, e lignina peroxidases (EC 1.11.1.14). Qualquer combinação de uma, duas, três, quatro, cinco, ou mais de cinco enzimas pode ser usada na composição da presente invenção.

[0157] Em uma ou mais concretizações da invenção, uma única sequência inicial é modificada de várias maneiras para gerar a biblioteca. Em algumas concretizações, a biblioteca é gerada variando-se sistematicamente os resíduos individuais da sequência inicial. Em um exemplo ilustrativo, uma metodologia de design de experimento (PDE) é empregada para identificar as sequências sistematicamente variadas. Em um outro exemplo, um procedimento de “laboratório experimental”, tal como para a recombinação mediada por oligonucleotídeos, é usado para introduzir algum nível de variação sistemática. Não é a intenção que a presente invenção seja limitada a qualquer método em particular para gerar sequências sistematicamente variadas, pois qualquer método apropriado poderá ser usado.

[0158] Conforme usado na presente invenção, o termo “sequências sistematicamente variadas” refere-se a um conjunto de sequências em que cada resíduo é visto em vários contextos. Em princípio, o nível de variação sistemática pode ser quantificado pelo grau em que as sequências são ortogonais entre si (i.e., maximamente diferentes se comparadas à média). Em algumas concretizações, o processo não depende de termos sequências maximamente ortogonais. Porém, a qualidade do modelo será melhor em relação direta com a ortogonalidade do espaço sequencial testado. Em um simples exemplo ilustrativo, uma sequência de peptídeos é variada sistematicamente identificando-se duas posições dos resíduos, cada uma das quais pode ter um de dois aminoácidos diferentes. Uma biblioteca maximamente diversificada inclui todas as quatro sequências possíveis. Tal variação sistemática máxima aumenta exponencialmente com o número de posições variáveis; e.g., em 2N, quando há 2 opções em cada uma das posições N dos resíduos. Pessoas com habilidades básicas na tecnologia existente reconhecerão prontamente que a variação sistemática máxima, porém, não é necessária. A variação sistemática fornece um mecanismo para identificar um conjunto relativamente pequeno de sequências para teste que oferece uma boa amostragem do espaço sequencial.

[0159] Variantes de proteínas com sequências sistematicamente variadas podem ser obtidas de várias maneiras usando técnicas que são bem conhecidas de pessoas com habilidades básicas na tecnologia existente. Como indicado acima, os métodos adequados incluem, mas não se limitam àqueles baseados em métodos de recombinação que gerar variantes com base em uma ou mais sequências de polinucleotídeos “parentais”. Polisequências de nucleotídeos podem ser recombinadas usando uma variedade de técnicas, incluindo, por exemplo, digestão com DNAse de polinucleotídeos a serem recombinados seguida de ligação e/ou remontagem PCR de ácidos nucleicos. Esses métodos incluem, mas não limitam-se a, aqueles descritos em, por exemplo, Stemmer (1994) Proceedings of the National Academy of Sciences USA, 91:10747-10751, No. de Patente dos EUA 5.605.793, “Methods for In Vitro Recombination,” No. de Patente dos EUA 5.811.238, “Methods for Generating Polynucleotides Having Desired Characteristics by Iterative Selection and Recombination,” No. de Patente dos EUA 5.830.721, “DNA Mutagenesis by Random Fragmentation and Reassembly,” No. de Patente dos EUA 5.834.252, “End Complementary Polymerase Reaction,” No. de Patente dos EUA 5.837.458, “Methods and Compositions for Cellular and Metabolic Engineering,” WO98/42832, “Recombination of Polynucleotide Sequences Using Random or Defined Primers,” WO 98/27230, “Methods and Compositions for Polypeptide Engineering,” WO 99/29902, “Method for Creating Polynucleotyde and Polypeptide Sequences,” e situações afins, todas as quais são incorporadas a este texto por referência.

[0160] Métodos de recombinação sintética também são particularmente bastante indicados para gerar bibliotecas de proteínas variantes com variação sistemática. Nos métodos de recombinação sintética, um grande número de oligonucleotídeos é sintetizado que codificam coletivamente um grande número de genes a serem recombinados. Em algumas concretizações, os oligonucleotídeos codificam coletivamente sequências derivadas de genes parentais homólogos. Por exemplo, genes homólogos de interesse são alinhados usando um programa de alinhamento de sequências tal como BLAST (Veja e.g., Atschul, et al., Journal of Molecular Biology, 215:403-410 (1990). Nucleotídeos correspondendo a variações de aminoácidos entre os homólogos são registrados. Essas variações são opcionalmente restritas ainda mais a um subconjunto do total de variações possíveis com base na análise de covariação das sequências parentais, em informações funcionais para as sequências parentais, seleção de modificações conservadoras ou não conservadoras entre as sequências parentais, ou outros critérios apropriados. As variações são opcionalmente ampliadas ainda mais para codificar a diversidade adicional de aminoácidos nas posições identificadas através, por exemplo, de análise de covariação das sequências parentais, informações funcionais para as sequências parentais, seleção de modificações conservadoras ou não conservadoras entre as sequências parentais, ou tolerância aparente de uma posição à variação. O resultado é uma sequência genética degenerada codificando umasequência consensual de aminoácidos derivada das sequências parentais genéticas, com nucleotídeos degenerados nas posiçõesque codificam as variações de aminoácidos. São projetados oligonucleotídeos contendo os nucleotídeos requeridos para montar a diversidade presente no gene degenerado. Detalhes relativos a tais abordagens podem ser encontrados em, por exemplo, Ness et al. (2002), Nature Biotechnology, 20:1251-1255, WO 00/42561, “Oligonucleotide Mediated Nucleic Acid Recombination,” WO 00/42560, “Methods for Making Character Strings, Polynucleotides and Polypeptides having Desired Characteristics,” WO 01/75767, “In Silico CrossOver Site Selection,” e WO 01/64864, “Single-Stranded Nucleic Acid Template- Mediated Recombination and Nucleic Acid Fragment Isolation,” cada um dos quais é incorporado a este texto por referência. As sequências variantes de polinucleotídeos identificadas podem ser transcritas e traduzidas, seja in vitro ou in vivo, para criar um conjunto ou biblioteca de sequências de proteínas variantes.

[0161] O conjunto de sequências sistematicamente variadas também pode ser projetado a priori usando métodos de design de experimento (PDE)para definir as sequências no conjunto de dados. Uma descrição dos métodos de PDE pode ser encontrada em Diamond, W.J. (2001) Practical Experiment Designs: for Engineers and Scientists, John Wiley & Sons e em “Practical Experimental Design for Engineers and Scientists”,de William J Drummond (1981) Van Nostrand Reinhold Co New York, “Statistics for experimenters” George E.P. Box, William G Hunter e J. Stuart Hunter (1978) John Wiley e Sons, New York, ou, e.g., na Internetemitl.nist.gov/div898/handbook/. Há vários pacotes computacionais disponíveis para realizar os cálculos matemáticos relevantes, incluindo Caixa de Ferramentas Estatísticas/Statistics Toolbox (MATLAB®), JMP®, STATISTICA®, e STAT-EASE® DESIGN EXPERT®. O resultado é um conjunto de dados de sequências sistematicamente variado e ortogonalmente dispersado que é apropriado para construir o modelo de atividade sequencial da presente invenção. Conjuntos de dados baseados em PDE também podem ser gerados prontamente usando ou Desenhos Fatoriais de Plackett-Burman ou Fracionários, tal como conhecidos da tecnologia existente. Diamond, W.J. (2001).

[0162] Nas ciências de engenharia e química, desenhos fatoriais fracionários são usados para definir menos experimentos se comparadas a desenhos fatoriais integrais. Nesses métodos, um fator é variado (i.e., “alternado”) entre dois ou mais níveis. Técnicas de otimização são usadas para garantir que os experimentos escolhidos sejam maximamente informativos ao representar a variância de espaço dos fatores. As mesmas abordagens de design (e.g., fatorial fracionário, design D ótimo) podem ser aplicadas na engenharia de proteínas para construir menos sequências onde um dado número de posições seja alternado entre dois ou mais resíduos. Em algumas concretizações, esse conjunto de sequências fornece uma descrição ótima da variância sistemática presente no espaço de sequências proteicas em questão.

[0163] Um exemplo ilustrativo da abordagem PDE aplicada à engenharia de proteínas inclui as seguintes operações: 1) Identificar as posições a serem alternadas com base nos princípios descrito na presente invenção (e.g., presente nas sequências parentais, nível de conservação, etc.) 2) Criar um experimento PDE usando um dos pacotes de softwares estatísticos geralmente disponíveis definindo o número de fatores (i.e., posições variáveis), o número de níveis (i.e., escolhas em cada posição), e o número de experimentos a serem realizados para fornecer uma matriz de resultados. O conteúdo das informações da matriz de resultados (que costuma consistir de 1s e 0s que representam as escolhas de resíduos em cada posição) depende diretamente do número de experimentos a serem realizados (geralmente, quanto mais, melhor). 3) Usar a matriz de resultados para construir um alinhamento de proteínas que codifique os 1s e 0s novamente para as escolhas de resíduos específicas em cada posição. 4) Sintetizaros genes codificando as proteínas representadas no alinhamento de proteínas. 5) Testar as proteínas codificadas pelos genes sintetizados no(s) ensaio(s) relevante(s). 6) Construir um modelo com base nos genes/proteínas testados. 7) Seguir os passos descritos na presente invenção para identificar as posições de importância e para construir uma ou mais bibliotecas subsequentes com uma melhor adequação.

[0164] Em um exemplo ilustrativo, uma proteína na qual os melhores resíduos de aminoácidos em termos funcionais em 20 posições devam ser determinados (e.g., onde há 2 aminoácidos possíveis disponíveis em cada posição) é investigada. Nesse exemplo, um design fatorial com resolução VI seria apropriado. O design com resolução VI é definido como um design que é capaz de elucidar os efeitos de todas as variáveis individuais, sem nenhum efeito de dois fatores sobrepondo-se a elas. O design especificaria então um conjunto de 40 sequências específicas de aminoácidos cobrindo toda a diversidade de 220 (~1 milhão) de sequências possíveis. Essas sequências são então geradas usando qualquer protocolo padrão de síntese de genes e a função e adequação desses clones são determinadas.

[0165] Uma alternativa para as abordagens citadas acima é empregar algumas ou todas as sequências disponíveis (e.g., a base de dados GENBANK® e outras fontes públicas) para fornecer a biblioteca de proteínas variantes. Essa abordagem fornece uma indicação das regiões de espaços sequenciais de interesse.

C. MÉTODOS DE SEQUENCIAMENTO

[0166] Historicamente, o sequenciamento tem sido um passo que limitava o desenvolvimento de grandes conjuntos de treinamento e, consequentemente, de modelos de atividade sequencial cada vez mais robustos. O alto custo e o longo tempo necessário para sequenciar as variantes limitavam o número de observações a algumas poucas dezenas de variantes. Ferramentas de sequenciamento da próxima geração reduziram enormemente o custo e proporcionaram maior velocidade de sequenciamento e volume, tornando possível incluir tanto variantes de baixo quanto de alto nível de atividade em um conjunto de treinamento.

[0167] As ferramentas de sequenciamento da próxima geração podem sequenciar de forma econômica um grande número de pares de bases (e.g., pelo menos cerca de 1.000.000.000 de pares de bases) em uma série. Essa capacidade pode ser utilizada ao sequenciar proteínas variantes, que costumam ter apenas alguns poucos pares de quilobases de comprimento, em uma única série. Geralmente, as ferramentas de sequenciamento da próxima geração são otimizadas para sequenciar genomas grandes individualmente (e.g., o genoma humano) no lugar de sequências muitos menores em uma única série. Para realizar o potencial das ferramentas de sequenciamento da próxima geração de sequenciar paralelamente muitas observações, a origem de cada uma das observações que está sendo sequenciada em uma única série deve ser identificada de forma individual. Em algumas concretizações, sequências de códigos de barras são usadas em todo e cada fragmento alimentado em um sequenciador da próxima geração para uma única série. Em um exemplo, os códigos de barras só identificam um alvéolo em particular em uma placa em particular (e.g., 96 placas de titulação). Em algumas dessas concretizações, cada alvéolo de cada placa contém uma única variante individual. Ao colocar cada variante em códigos de barras, ou mais especificamente cada fragmento de cada variante, as sequências genéticas de várias variantes diferentes podem ser sequenciadas e identificadas em uma única série. No processo, todas as leituras dos fragmentos que possuam o mesmo código de barras são identificadas e processadas juntamente pelo algoritmo que identifica as sequências de comprimento das variantes.

[0168] Em algumas concretizações, o DNA das células de uma variante em um dado alvéolo é extraído e depois fragmentado. Os fragmentos são então transformados em códigos de barras para identificar pelo menos o alvéolo, e às vezes o alvéolo e a placa associados àquela variante. Os fragmentos resultantes são então selecionados em termos de tamanho para produzir sequências com o devido comprimento para o sequenciador da próxima geração. Em um exemplo ilustrativo, os comprimentos de leitura são de cerca de 200 pares de bases. Em algumas concretizações, o código de barras das placas não é aplicado até que os fragmentos de DNA dos vários alvéolos de uma placa sejam primeiramente agrupados. O DNA agrupado é então transformado em códigos de barras para identificar a placa. Em algumas concretizações, cada fragmento, independente de qual alvéolo ele seja derivado, teráo mesmo código de barras da placa. Porém, em algumas concretizações alternativas, os fragmentos possuem diferentes códigos de barras. Além disso, os códigos de barras dos alvéolos e placas podem ser aplicados para identificar o DNA extraído de um dado alvéolo.

[0169] Em uma ou mais concretizações, dados da sequência podem ser obtidos usando métodos de sequenciamento em massa incluindo, por exemplo, o método de sequenciamento de Sanger ou o método de sequenciamento de Maxam-Gilbert, que são considerados métodos de sequenciamento da primeira geração. O método de sequenciamento de Sanger, que envolve usar terminadores rotulados da cadeia de dideóxi, é bem conhecidopela tecnologia existente; veja, e.g., Sanger et al., Proceedings of the National Academy of Sciences of the United States of America 74, 5463-5467 (1997). O método de sequenciamento de Maxam-Gilbert, que envolve executar várias reações de degradação química parciais em frações da amostra de ácido nucleico seguidas da detecção e análise dos fragmentos para inferir a sequência, também é bem conhecida da tecnologia existente; veja, e.g., Maxam et al., Proceedings of the National Academy of Sciences of the United States of America74, 560-564 (1977). Um outro método de sequenciamento em massa é o sequenciamento por hibridização, no qual a sequência de uma amostra é deduzida com base nas suas propriedades de hibridização de um grande número de sequências, e.g., em um microarranjo ou chip genético; veja, e.g., Drmanac, et al., Nature Biotechnology 16, 54-58 (1998).

[0170] Em uma ou mais concretizações, os dados da sequência são obtidos usando métodos de sequenciamento da próxima geração. O sequenciamento da próxima geração também é denominado “sequenciamento de alto rendimento”. As técnicas paralelizam o processo de sequenciamento, produzindo milhares ou milhões de sequências de uma só vez. Os exemplos de métodos de sequenciamento da próxima geração adequados incluem, mas não limitam-se a, sequenciamento de uma única molécula em tempo real (e.g., Pacific Biosciences, Menlo Park, Califórnia), sequenciamento por semicondutor de íons (e.g., Ion Torrent, South San Francisco, Califórnia), pirosequenciamento (e.g., 454, Branford, Connecticut), sequenciamento por ligação (e.g., SOLid sequencing of Life Technologies, Carlsbad, Califórnia), sequenciamento por síntese e do terminador reversível (e.g., Illumina, San Diego, Califórnia), tecnologias de ressonância magnética de ácidos nucleicos tais como microscopia eletrônica de transmissão, e situações afins.

[0171] Em geral, os métodos de sequenciamento da próxima geração costumam usar um passo de clonagem in vitro para amplificar as moléculas de DNA individuais. O PCR em emulsão (emPCR) isola as moléculas de DNA individuais juntamente com grânulos revestidos com oligonucleótidos iniciadores em gotículas aquosas em uma fase de óleo. A PCR produz cópias da molécula de DNA, que vincula os iniciadores ao grânulo, seguida de imobilização para posterior sequenciamento. A emPCR é usada nos métodos por Marguilis et al. (comercializados pela 454 Life Sciences, Branford, CT), Shendure e Porreca et al. (também conhecidos como “sequenciamento Polony”) e SOLiD sequencing, (Applied Biosystems Inc., Foster City, CA). Veja M. Margulies, et al. (2005) “Genome sequencing in microfabricated high-density picolitre reactors” Nature 437: 376-380; J. Shendure, etal. (2005) “Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome” Science 309 (5741): 1728-1732. A amplificação clonal in vitro também pode ser realizada através de “PCR ponte”, onde os fragmentos são amplificados sobre iniciadores colocados em uma superfície sólida. Braslavsky et al. Desenvolveu um método para uma única molécula (comercializado pela Helicos Biosciences Corp., Cambridge, MA) que omite esse passo de amplificação, fixando diretamente as moléculas de DNAa uma superfície. I. Braslavsky, et al. (2003) “Sequence information can be obtained from single DNA molecules” Proceedings of the National Academy of Sciences of the United States of America 100: 3960-3964.

[0172] As moléculas de DNA que forem fisicamente vinculadas a uma superfície podem ser sequenciadas em paralelo. No “sequenciamento por síntese”, uma cadeia complementar é construída com base na sequência de um modelo de cadeia usando um DNA polimerase como sequenciamento eletroforético com corante de terminação. Os métodos de terminadores reversíveis (comercializados pela Illumina, Inc., San Diego, CA e pela Helicos Biosciences Corp., Cambridge, MA) usam versões reversíveis de corantes de terminação, acrescentando um nucleotídeo por vez, e detectam a fluorescência em cada posição em tempo real, através da remoção repetida do grupo bloqueador para permitir a polimerização de um outro nucleotídeo. O “pirosequenciamento” também usa a polimerização do DNA, acrescentando um nucleotídeo por vez e detectando e quantificando o número de nucleotídeos acrescentados em um dado local através da luz emitida pela liberação dos pirofosfatos ligados (comercializado pela454 Life Sciences, Branford, CT). VejaM. Ronaghi, et al. (1996). “Real-time DNA sequencing using detection of pyrophosphaterelease” Analytical Biochemistry 242: 84-89.

[0173] Exemplos específicos de métodos de sequenciamento da próxima geração são descritos em maior detalhe abaixo. Um ou mais concretizações da atual invenção podem usar um ou mais dos seguintes métodos de sequenciamento sem se desviarem dos princípios da invenção.

[0174] O sequenciamento em tempo real de moléculas individuais (também conhecido como SMRT) é um sequenciamento em paralelo de uma única moléculade DNA através da tecnologia de síntese desenvolvida pela Pacific Biosciences. O sequenciamento em tempo real de moléculas individuais utiliza a guia de onda no modo zero (ZMW). Uma única enzima de DNA polimerase é fixada na parte inferior de uma ZMW com uma única molécula de DNA como estrutura. A ZMW é uma estrutura que cria um volume de observação iluminado que é pequeno o suficiente para observar apenas um único nucleotídeo de DNA (também conhecido como ase) sendo incorporado através de DNA polimerase. Cada uma das quatro bases do DNA é afixada a uma das quatro colorações fluorescentes diferentes. Quando um nucleotídeo é incorporado por DNA polimerase, a etiqueta fluorescente é clivada e se dispersa da área de observação da ZMW onde sua fluorescência não é mais observável. Um detector detecta o sinal fluorescente da incorporação do nucleotídeo, e a chamada de base é feita de acordo com a correspondente fluorescência da coloração.

[0175] Uma outra tecnologia de sequenciamento de moléculas individuais aplicável é a tecnologia de Sequenciamento HeliscopeTrue de Uma Única Molécula (Helicos True Single MoleculeSequencing/ tSMS) (e.g. conforme o descrito em Harris T.D. et al., Science 320:106-109 [2008]). Na técnica tSMS, uma amostra de DNA é clivada em cadeias de aproximadamente 100 a 200 nucleotídeos, e uma sequência poli-A é acrescentada à 3â extremidade de cada cadeia de DNA. Cada cadeia é rotulada através do acréscimo de um nucleotídeo adenosina rotulado de forma fluorescente. As cadeias de DNA são então hibridizadas para uma célula de fluxo, contendo milhões de pontos de captura oligo-T que são imobilizados na superfície da célula de fluxo. Em certas concretizações as estruturas podem ter uma densidade de cerca de 100 milhões de estruturas/cm2. A célula de fluxo é então carregada em um instrumento, e.g., sequenciador HeliScope™, e um laser ilumina a superfície da célula de fluxo, revelando a posição de cada estrutura. Uma câmera CCD pode mapear a posição das estruturas sobre a superfície da célula de fluxo. O rótulo fluorescente da estrutura é então clivado e retirado. A reação de sequenciamento começa introduzindo-se uma DNA polimerase e um nucleotídeo rotulado de forma fluorescente. O ácido nucleico oligo-T atua como iniciador. A polimerase incorpora os nucleotídeos rotulados ao iniciador da forma direcionada pela estrutura. A polimerase e os nucleotídeos não incorporados são removidos. As estruturas que possuem uma incorporação direcionada do nucleotídeo rotulado de forma fluorescente são discernidas através da aplicação de ressonância magnética na superfície da célula de fluxo. Após a ressonância magnética, um passo de clivagem remove o rótulo fluorescente, e o processo é repetido com outros nucleotídeos rotulados de forma fluorescente até que o comprimento de leitura desejado seja obtido. Informações sobre a sequência são coletadas em cada passo do acréscimo de nucleotídeos. O sequenciamento de todo o genoma através de tecnologias de sequenciamento de moléculas individuais exclui ou geralmente obvia a amplificação baseada em PCR na preparação de bibliotecas de sequenciamentos, e os métodos permitem a mensuração direta da amostra, no lugar da mensuração de cópias daquela amostra.

[0176] O Sequenciamento por Semicondutor de Íons é um método de sequenciamento de DNA baseado na detecção de íons de hidrogênio que são liberados durante a polimerização de DNA. Esse é um método de “sequenciamento por síntese”, durante o qual uma cadeia complementar é construída com base na sequência de um modelo de cadeia. Um micropoço contendo um molde da cadeia de DNA a ser sequenciado é inundada com uma única espécie de desoxirribonucleotídeo trifosfato (dNTP). Se o dNTP introduzido for complementar ao nucleotídeo do molde principal, ele será incorporado à crescente cadeia complementar. Isso gera a liberação de um íon de hidrogênio que dispara um sensor de íons ISFET, que indica que ocorreu uma reação. Se repetições de homopolímeros estiverem presentes no modelo sequencial, várias moléculas dNTP serão incorporadas em um único ciclo. Isso gera um número correspondente de hidrogênios liberados e um sinal eletrônico proporcionalmente maior. Essa tecnologia difere das outras tecnologias de sequenciamento na medida em que nenhum nucleotídeo modificado ou elemento óptico é usado. O sequenciamento por semicondutor de íons também pode ser denominado sequenciamento por torrente de íons, sequenciamento mediado por pH, sequenciamento por silício, ou sequenciamento por semicondutor.

[0177] No pirosequenciamento, o íon de pirofosfato liberado pela reação de polimerização é reagido com adenosina 5‘ fosfosulfato através de sulfurilase do ATP para produzir ATP; o ATP impulsiona então a conversão de luciferina em oxiluciferina mais luz através da luciferase. Como a fluorescência é transiente, nenhum passo separado para eliminar a fluorescência é necessário nesse método. Um tipo de desoxirribonucleotídeo trifosfato (dNTP) é acrescentado por vez, e as informações sequenciais são discernidas e de acordo com as quais o dNTP gera um sinal significativo em um ponto da reação. O instrumento Roche GS FLX disponível no mercado adquire a sequência usando esse método. Essa técnica e a aplicação da mesma são discutidas em detalhe, por exemplo, em Ronaghi et al., Analytical Biochemistry 242, 84-89 (1996) e Margulies et al., Nature437, 376-380 (2005) (retificação em Nature 441, 120 (2006)). Uma tecnologia de pirosequenciamento disponível no mercado é o sequenciamento 454 (Roche) (e.g. conforme o descrito em Margulies, M. et al. Nature 437:376380 [2005]).

[0178] No sequenciamento por ligação, uma enzima ligase é usada para juntar um oligonucleotídeo de cadeia dupla parcial com uma cornija ao ácido nucleico que está sendo sequenciado, e que possui uma cornija; para que a ligação ocorra, as cornijas devem ser complementares. As bases na cornija do oligonucleotídeo de cadeia dupla parcial podem ser identificadas de acordo com um fluoróforo conjugado ao oligonucleotídeo de cadeia dupla parcial e/ou a um oligonucleotídeo secundário que se hibridiza com uma outra parte do oligonucleotídeo de cadeia dupla parcial. Após a aquisição dos dados sobre fluorescência, o complexo ligado é clivado a montante do ponto de ligação, tal como por uma enzima de restrição tipo IIs, por exemplo, Bbvl, que recorta em um ponto uma distância fixa do seu ponto de reconhecimento (que foi incluído no oligonucleotídeo de cadeia dupla parcial). Essa reação de clivagem apenas expõe uma nova cornija a montante da cornija anterior, e o processo é repetido. Essa técnica e a aplicação da mesma são discutidas em detalhe, por exemplo, em Brenner et al., Nature Biotechnology18, 630-634 (2000). Em algumas concretizações, o sequenciamento por ligação é adaptado aos métodos da invenção através da obtenção de um produto da amplificação em círculo rolante a partir de uma molécula circular de ácido nucleico, e usando o produto da amplificação em círculo rolante como a estrutura do sequenciamento por ligação.

[0179] Um exemplo de tecnologia de sequenciamento por ligação disponível no mercado é a tecnologia SOLiD™ (Applied Biosystems). No sequenciamento por ligação SOLiD™, o DNA genômico é recortado em fragmentos, e adaptadores são afixados nas extremidades 5’ e 3’ dos fragmentos para gerar uma biblioteca de fragmentos. Alternativamente, adaptadores internos podem ser introduzidos por adaptadores de ligação nas extremidades 5’ e 3’ dos fragmentos, circularizando os fragmentos, digerindo o fragmento circularizado para gerar um adaptador interno, e fixando os adaptadores nas extremidades 5’ e 3’ dos fragmentos resultantes para gerar uma biblioteca de elementos conjugados e pareados. A seguir, populações de grânulos clonais são preparadas em microreatores contendo grânulos, iniciadores, estrutura, e componentes PCR. Após o PCR, as estruturas são desnaturadas e os grânulos são enriquecidos para separar os grânulos com estruturas estendidas. As estruturas dos grânulos selecionados estão sujeitas a uma modificação de 3’ que permite a ligação com uma lâmina de vidro. A sequência pode ser determinada através de hibridização sequencial e da ligação de oligonucleotídeos parcialmente aleatórios a uma base central determinada (ou par de bases) que é identificada por um fluoróforo específico. Após uma cor ser registrada, o oligonucleotídeo ligado é clivado e removido e o processo é então repetido.

[0180] No sequenciamento do terminador reversível, um nucleotídeo fluorescente rotulado por coloração análogo que é um terminador de cadeia reversível devido à presença de um grupo bloqueador é incorporado a uma reação de extensão de base única. A identidade da base é determinada de acordo como fluoróforo; em outras palavras, cada base é pareada com um fluoróforo diferente. Após os dados da fluorescência/sequência serem adquiridos, o fluoróforo e o grupo bloqueador são removidos quimicamente, e o ciclo é repetido para adquirir a próxima base de informações sequenciais. O instrumento Illumina AG opera através desse método. Essa técnica e a aplicação da mesma são discutidas em detalhe, por exemplo, em Ruparel et al., Proceedings of the National Academy of Sciences of the United States of America 102, 5932-5937 (2005), e Harris et al., Science320, 106-109 (2008).

[0181] Um exemplo de método de sequenciamento do terminador reversível disponível no mercado é o sequenciamento por síntese e o sequenciamento reversível baseado no terminador da Illumina (e.g. conforme o descrito em Bentley et al., Nature 6:53-59 [2009]). A tecnologia de sequenciamento da Illumina depende da fixação doDNA genômico fragmentado a um planar, uma superfície opticamente transparente sobre a qual as âncoras dos oligonucleotídeos são vinculadas. O DNA molde tem suas extremidades reparadas para gerar extremidades cegas de 5’-fosforiladas, e a atividade de polimerase do fragmento de Klenowé usada para acrescentar uma única base A na extremidade 3’ dos fragmentos fosforilados cegos do DNA. Esse acréscimo prepara os fragmentos de DNA para ligação com adaptadores de oligonucleotídeos, que possuam uma cornija de uma única base T na sua extremidade 3’ para aumentar a eficiência da ligação. Os oligonucleotídeos adaptadores são complementares às âncoras das células de fluxo. Sob condições que limitam a diluição, o DNA molde modificado pelos adaptadores e de uma única cadeia é acrescentado à célula de fluxo e imobilizado nas âncoras através dehibridização. Os fragmentos de DNA fixados são estendidos e amplificados por pontes para criar um sequenciamento célula de fluxo de ultra alta densidade com centenas de milhões de agrupamentos, cada um contendo ~1,000 cópias do mesmo molde. Os moldes são sequenciados usando uma robusta tecnologia de sequenciamento de DNA por síntese de quatro cores que emprega terminadores reversíveis com colorações fluorescentes removíveis. A detecção da fluorescência de alta sensibilidade é obtida usando excitação de laser e ótica de reflexão interna total. Breves leituras de sequências de cerca de 20-40 bp e.g. 36 bp, são alinhadas com relação a um genoma de referência de máscara repetida e mapeamentos individuais das breves leituras de sequências do genoma de referência são identificados usando softwares para canais de análise de dados especialmente desenvolvidos. Genomas de referência sem máscara repetida também podem ser usados. Não importa se genomas de referência de máscara repetida ou sem máscara repetida são usados, somente as leituras que mapearem unicamente o genoma de referência serão contadas. Após a conclusão da primeira leitura, os moldes poderão ser regenerados in situ para possibilitar uma segunda leitura da extremidade oposta dos fragmentos. Assim, ou o sequenciamento de uma única extremidade ou o sequenciamento de extremidades pareadas dos fragmentos de DNA podem ser usados. O sequenciamento parcial de fragmentos de DNA presentes na amostra é realizado, e as etiquetas das sequências incluindo as leituras de comprimento predeterminado e.g. 36 bp, são mapeadas para um genoma de referência conhecido e são contadas.

[0182] No sequenciamento de nanoporos, uma molécula de ácido nucleico de cadeia única é enfiada através de um poro, e.g., usando uma força motriz eletroforética, e a sequência é deduzida analisando-se os dados obtidos conforme a molécula de ácido nucleicode cadeia única passe pelo poro. Os dados podem ser dados da corrente de íons, através da qual cada base altera a corrente, e.g., bloqueando parcialmente a passagem da corrente pelo poro para um grau diferente e distinguível.

[0183] Em uma outra concretização ilustrativa, mas não limitadora, os métodos descritos na presente invenção compreendem a obtenção de informações sequenciais usando microscopia eletrônica de transmissão (TEM). O método compreende utilizar ressonância magnética em microscópio eletrônico de transmissão por resolução de um único átomo de umDNA com alto peso molecular (150kb ou maior) rotulado seletivamente com marcadores de átomos pesados e arranjando essas moléculas sobre películas ultra finas em matrizes paralelas ultradensas (3nm de cadeia a cadeia) com um espaçamento consistente entre as bases. O microscópio eletrônico é usado submeter as moléculas a ressonância magnética sobre as películaspara determinar a posição dos marcadores de átomos pesados e extrair informações sequenciais básicas do DNA. O método é descrito com maior detalhe em publicação da patente do PCT, WO 2009/046445.

[0184] Em uma outra concretização ilustrativa, mas não limitadora, os métodos descritos na presente invenção compreendem a obtenção de informações sequenciais usando sequenciamento da terceira geração. No sequenciamento da terceira geração, uma lâmina com revestimento de alumínio com orifícios muito pequenos (“50 nm) é usada como uma guia de onda no modo zero (veja, e.g., Levene et al., Science299, 682-686 (2003)). A superfície de alumínio é protegida contra afixação da DNA polimerase através da química de polifosfonato, e.g., química de polivinilfosfonato (veja, e.g., Korlach et al., Proceedings of the National Academy of Sciencesof the United States of America105, 1176-1181 (2008)). Isso resulta na fixação preferencial das moléculas de DNA polimerase à sílica exposta nos orifícios do revestimento de alumínio. Essa configuração permite que fenômenos de onda evanescente sejam usados para reduzir o fundo fluorescente, permitindo o uso de maiores concentrações de dNTPs rotulados de forma fluorescente. O fluoróforo é afixado no fosfato terminal dos dNTPs, de tal modo que a fluorescência é liberada quando da incorporação do dNTP, mas o fluoróforo não permanece afixado ao nucleotídeo recém incorporado, o que significa que o complexo está imediatamente pronto para uma outra rodada de incorporação. Através desse método, a incorporação de dNTPs a um complexo individual de moldes de iniciadores presente nos orifícios do revestimento de alumínio pode ser detectada. Veja, e.g., Eid et al., Science323, 133-138 (2009).

D. GERANDO UM MODELO DE ATIVIDADE SEQUENCIAL

[0185] Como indicado acima, um modelo de atividade sequencial usado com as concretizações contidas na presente invenção associa informações sobre as sequências de proteínas à atividade proteica. As informações sobre as sequências de proteínas usadas pelo modelo podem assumir muitas formas. Em algumas concretizações, ela é uma sequência completa de resíduos de aminoácidos em uma proteína (e.g., HGPVFSTGGA...). Porém, em algumas concretizações, a sequência completa de aminoácidos é desnecessária. Por exemplo, em algumas concretizações, basta prover apenas aqueles resíduos que devam ser variados em um esforço de pesquisa particular. Em algumas concretizações envolvendo estágios posteriores da pesquisa, muitos resíduos são fixados e somente regiões limitadas do espaço sequencial ainda precisam ser exploradas. Em algumas de tais situações, é conveniente prover modelos de atividade sequencial que requeiram, como dados de entrada, somente a identificação daqueles resíduos das regiões da proteína onde a exploração continuará. Em algumas outras concretizações, os modelos não requerem que as identidades exatas dos resíduos nas posições dos resíduos sejam conhecidas. Em algumas tais concretizações, um ou mais propriedades físicas ou químicas que caracterizam o aminoácido em uma posição particular do resíduo é/são identificada(s). Em um exemplo ilustrativo, o modelo requer a concretização das posições dos resíduos por massa, hidrofobicidade, acidez, etc. Além disso, em alguns modelos, combinações de tais propriedades são empregadas. De fato, não se pretende que a presente invenção seja limitada a qualquer abordagem em particular, pois os modelos são usados para várias configurações de informações sequenciais, informações sobre atividades e/ou outras propriedades físicas (e.g., hidrofobicidade, etc.).

[0186] Assim, a formado modelo de atividade sequencial pode variar amplamente, contanto que ela forneça um veículo para aproximar corretamente a relativa atividade das proteínas com base nas informações sequenciais, como desejado. Em algumas concretizações, os modelos geralmente tratam a atividade como uma variável dependente e os valores da sequência/resíduos como variáveis independentes. Os exemplos de formas matemáticas/lógicas dos modelos incluem expressões matemáticas lineares e não lineares de várias ordens, redes neurais, árvores/gráficos de classificação e regressão, abordagens de agregação, compartimentação recursiva, máquinas de vetores de suporte, e situações afins. Em uma concretização, a forma do modelo é um modelo aditivo linear no qual os produtos dos coeficientes e valores dos resíduos são somados. Em uma outra concretização, a forma do modelo é um produto não linear de vários termos de sequências/resíduos, incluindo certos produtos cruzados dos resíduos (que representam termos de interação entre os resíduos). De fato, não se pretende que as concretizações divulgadas sejam limitadas a qualquer formato específico, pois qualquer formato apropriado pode ser usado, como ilustrado na presente invenção.

[0187] Em algumas concretizações, modelos são desenvolvidos a partir de um conjunto de treinamento de atividade versus informações sequenciais para prover a relação matemática/lógica entre atividade e sequência. Essa relação costuma ser validada antes do uso para prever a atividade das novas sequências ou os impactos dos resíduos sobre a atividade de interesse.

[0188] Várias técnicas para gerar modelos estão disponíveis e podem ser usadas na presente invenção. Em algumas concretizações, as técnicas envolvem a otimização de modelos ou a minimização dos erros dos modelos. Os exemplos específicos incluem a regressão de mínimos quadrados parciais, regressão conjunta, floresta aleatória, várias outras técnicas de regressão, assim como técnicas de rede neural, compartimentação recursiva, técnicas de máquinas de vetores de suporte, CART (árvores de classificação e regressão), e/ou técnicas afins. Geralmente, a técnica deve produzir um modelo que possa distinguir os resíduos que tenham um significativo impacto sobre a atividade daqueles que não têm. Em algumas concretizações, os modelos também classificam resíduos individuais ou as posições dos resíduos com base no seu impacto sobre a atividade. Não é a intenção que a presente invenção seja limitada a qualquer técnica específica para gerar modelos, pois qualquer método apropriado e conhecido pela tecnologia existente pode ser usado na presente invenção.

[0189] Em algumas concretizações, os modelos são gerados através de uma técnica de regressão que identifique a covariação das variáveis independentes e dependentes em um conjunto de treinamento. Várias técnicas de regressão são conhecidas e amplamente usadas. Os exemplos incluem regressão linear múltipla (MLR), regressão de componentes principais (PCR) e regressão de mínimos quadrados parciais (PLS). Em algumas concretizações, os modelos são gerados usando técnicas que envolvem vários constituintes, incluindo mas não limitando-se à regressão conjunta e à floresta aleatória. Esses e quaisquer outros métodos adequados podem ser usados na presente invenção. Não é a intenção que a presente invenção seja limitada a qualquer técnica em particular.

[0190] MLR é a mais básica dessas técnicas. Ela é usada para simplesmente solucionar um conjunto de equações de coeficientes para os membros de um conjunto de treinamento. Cada equação relaciona-se à atividade de um membro do conjunto de treinamento (i.e., variáveis dependentes) com a presença ou ausência de um resíduo particular em uma posição particular (i.e., variáveis independentes). Dependendo do número de opções de resíduos no conjunto de treinamento, o número dessas equações poderá ser consideravelmente grande.

[0191] Como a MLR, PLS e PCR geram modelos de equações associando a atividade sequencial aos valores dos resíduos. Porém, essas técnicas fazem isso de uma forma diferente. Elas primeiro realizam uma transformação de coordenadas para reduzir o número de variáveis independentes. Depois elas realizam a regressão das variáveis transformadas. Na MLR, há potencialmente um número bastante grande de variáveis independentes: duas ou mais para cada posição do resíduo que varia no conjunto de treinamento. Dado que as proteínas e peptídeos de interesse costumam ser consideravelmente grandes e o conjunto de treinamento pode fornecer muitas sequências diferentes, o número de variáveis independentes poderá rapidamente se tornar muito grande. Ao reduzir o número de variáveis para focar aqueles que forneçam a maior variação no conjunto de dados, a PLS e a PCR geralmente requerem menos amostras e simplificam os passos envolvido scom a geração de modelos.

[0192] A PCR é similar à regressão PLS na qual a efetiva regressão é realizada em um número relativamente pequeno de variáveis latentes obtida através da transformação de coordenadas das variáveis independentes brutas (i.e., valores dos resíduos). A diferença entre a PLS e a PCR é que as variáveis latentes na PCR são construídas maximizando-se a covariação entre as variáveis independentes (i.e., valores dos resíduos). Na regressão PLS, as variáveis latentes são construídasde modo a maximizar a covariação entre as variáveis independentes e as variáveis dependentes (i.e., valores das atividades). A regressão de Parciais de Mínimos Quadrados é descrita em Hand, D.J., et al. (2001) Principles of Data Mining (Adaptive Computation and Machine Learning), Boston, MA, MIT Press, e em Geladi, et al. (1986) “Partial Least-Squares Regression: a Tutorial”,Analytica Chimica Acta, 198:1-17. Ambas referências são incorporadas a este texto por referência para todos os devidos fins.

[0193] Na PCR e na PLS, o resultado direto da análise de regressão é uma expressão da atividade que é uma função das variáveis latentes ponderadas. Essa expressão pode ser transformada em uma expressão da atividade como função das variáveis originais independentes executando-se uma transformação de coordenadas que converta as variáveis latentes novamente em variáveis originais independentes.

[0194] Em essência, tanto a PCR quanto a PLS primeiramente reduzem a dimensionalidade das informações contidas no conjunto de treinamento e depois realizam uma análise de regressão em um conjunto de dados transformados, que foram transformados para produzir novas variáveis independentes, mas preservaram os valores originais das variáveis dependentes. As versões transformadas dos conjuntos de dados podem resultar apenas em um número relativamente pequeno de expressões para executar a análise de regressão. Nos protocolos nos quais nenhuma redução de dimensão foi realizada, cada resíduo separado para o qual possa haver uma variação deve ser considerado. Isso pode ser um conjunto muito grande de coeficientes (e.g., coeficientes 2N para interações bidimensionais, onde N é o número das posições dos resíduos que podem variar no conjunto de treinamento). Em uma típica análise dos componentes principais, somente os componentes principais 3, 4, 5, 6 são empregados.

[0195] A capacidade das técnicas de aprendizado de máquina de encaixar os dados de treinamento costuma ser denominada “adequação do modelo” e em técnicas de regressão tais como MLR, PCR e PLS, a adequação do modelo costuma ser mensurada pela soma dos quadrados da diferença entre os valores mensurados e previstos. Para um dado conjunto de treinamento, a adequação ótima do modelo será obtida usando MLR, com PCR e PLS geralmente apresentando uma pior adequação do modelo (maior erro da soma dos quadrados entre as mensurações e as previsões). Porém, a principal vantagem de usar técnicas de regressão de variáveis latentes tais como PCR e PLS está na capacidade preditiva de tais modelos. Obter uma adequação do modelo com um erro muito pequeno da soma dos quadrados não garante de forma alguma que o modelo será capaz de prever de forma precisa novas amostras não vistas no conjunto de treinamento - de fato, costuma ocorrer o oposto, particularmente quando há muitas variáveis e apenas algumas poucas observações (i.e., amostras). Assim, as técnicas de regressão de variáveis latentes (e.g., PCR, PLS), embora geralmente possuam piores adequações do modelo para os dados de treinamento costumam ser mais robustas e são capazes de prever novas amostras fora do conjunto de treinamento de forma mais precisa.

[0196] Uma outra classe de ferramentas que pode ser usada para gerar modelos de acordo com essa invenção é a das máquinas de vetores de suporte (SVMs). Essas ferramentas matemáticas tomam conjuntos de treinamento das sequências que foram classificadas em dois ou mais grupos com base na atividade como dados de entrada. As máquinas de vetores de suporte operam ponderando os diferentes membros de um conjunto de treinamento de forma diferente dependendo do quão próximas eles estão de uma interface hiperplana separando os membros “ativos” e “inativos” do conjunto de treinamento. Essa técnica requer que o cientista decida primeiro quais membros do conjunto de treinamento devem ser colocados no grupo “ativo” e quais membros do conjunto de treinamento devem ser colocados no grupo “inativo”. Em algumas concretizações, isso se faz escolhendo um valor numérico apropriado para onível da atividade que atua como limite entre os membros “ativos” e “inativos” do conjunto de treinamento. A partir dessa classificação, a máquina de vetores de suporte gera um vetor, W, que pode fornecer valores dos coeficientes para as variáveis independentes individuais definindo as sequências dos membros dos grupos ativos e inativos no conjunto de treinamento. Esses coeficientes podem ser usados para “classificar” resíduos individuais conforme o descrito em qualquer outro lugar na presente invenção. A técnica é usada para identificar um hiperplano que maximize a distância entre os membros mais próximos do conjunto de treinamento nos lados opostos daquele plano. Em uma outra concretização, modelagem da regressão dos vetores de suporte é realizada. Nesse caso, a variável dependente é um vetor dos valores das atividades contínuas. O modelo de regressão de vetores de suporte gera um vetor de coeficientes, W, que pode ser usado para classificar os resíduos individuais.

[0197] As SVMs têm sido usadas para analisar grandes conjuntos de dados em muitos estudos e têm sido amplamente usadas com microarranjos de DNA. Seus potenciais pontos fortes incluem a capacidade de discriminar minuciosamente (através de ponderação) os fatores que separam as amostras umas das outras. Na medida em que uma SVM pode apurar com precisão quais resíduos contribuem para a função, ela pode ser uma ferramenta particularmente útil para classificar resíduos. As SVMs são descritas em S. Gunn (1998) “Support Vector Machines for Classification and Regressions”, Relatório Técnico, Faculdade de Engenharia e Ciências Aplicadas, Departamento de Ciências Eletrônicase da Computação, Universidade de Southampton, que é incorporado a este texto por referência para todos os devidos fins.

[0198] Em algumas concretizações da invenção, uma outra classe de ferramentas que pode ser usada para gerar modelos é a classificação e regressão baseada em um conjunto de árvores de classificação usando dados de entrada aleatórios, um exemplo da qual é a floresta aleatória. Veja Breiman (2001). “Random Forests”, Machine Learning 45 (1): 5-32. As florestas aleatórias são uma combinação de preditores da árvore de tal forma que cada árvore depende dos valores de um vetor aleatório amostrado de forma independente e com a mesma distribuição para todas as árvores da floresta. A floresta aleatória é um conjunto de aprendizado que consiste de um ensacado de elementos de aprendizado não podados da árvore de tomada de decisões com uma seleção aleatória das características de cada divisão da árvore de tomada de decisões. O erro de generalização das florestas converge para um limite conforme o número de árvores na floresta se torna maior.

[0199] Florestas aleatórias podem ser construídas da seguinte forma: 1) Se o número de casos no conjunto de treinamento for N, amostrar N casos de forma aleatória - mas com substituição dos dados originais. Essa amostra será o conjunto de treinamento para cultivar a árvore. 2) Se houver M variáveis independentes dos dados de entrada, um número m<<M será especificado de tal modo que em cada nodo da árvore, m variáveis sejam selecionadas de forma aleatória a partir de M e a melhor divisão desses dados m seja usada para dividir o nodo. O valor de m será mantido constante durante o cultivo da floresta. 3) Em algumas concretizações, cada árvore é cultivada ao máximo possível. Não há nenhuma poda. 4) Um grande número de árvores é então gerado, k = 1, ... , K (geralmente K >= 100). 5) Após um grande número de árvores terem sido geradas, elas todas votam pela classificação das variáveis de interesse. Por exemplo, cada uma delas pode contribuir para a previsão final da atividade ou para mutações particulares. 6) A floresta aleatória então classifica x (e.g., uma sequência de mutações ou outra variável independente) tomando a classe votada como mais popular de todos os preditores das árvores da floresta.

[0200] A taxa de erro da floresta dependerá da correlação entre quaisquer duas árvores da floresta. Aumentar a correlação aumentará a taxa de erro da floresta. A taxa de erro da floresta dependerá da força de cada árvore individual na floresta. Uma árvore com uma taxa de erro baixa é um forte classificador. Aumentar a força das árvores individuais diminuirá a taxa de erro da floresta. Reduzir m reduzirá tanto a correlação quanto a força. Aumentá-lo aumentará ambos. Algum ponto entre eles é uma amplitude “ótima” de m - geralmente consideravelmente ampla.

[0201] As técnicas de floresta aleatória podem ser usadas para variáveis categóricas assim como para variáveis contínuas em modelos de regressão. Em algumas concretizações da invenção, os modelos de florestas aleatórias possuem um poder preditivo comparável aos modelos de SVMs e redes neurais, mas tendem ater maior eficiência computacional porque, entre outros motivos, a validação cruzada é embutida no processo de modelagem e um processo separado para validação cruzada não é necessário. i) Modelos Lineares

[0202] Embora a presente invenção seja direcionada aos modelos não lineares, estes podem ser mais facilmente compreendidos no contexto dos modelos lineares de sequência versus atividade. Além disso, em algumas concretizações, um modelo linear é usado como modelo “básico” em um processo gradual para gerar um modelo não linear. Em geral, um modelo de regressão linear de atividade versus sequência tem a seguinte forma:

[0203] Nessa expressão linear, y é a resposta prevista, enquanto cij e xij são o coeficiente de regressão e o valor do bit ou variável artificial usada para representar a opção dos resíduos, respectivamente na posição i a sequência. Há N posições de resíduos nas sequências da biblioteca de proteínas variantes e cada uma delas pode ser ocupada por um ou mais resíduos. Em qualquer dada posição, pode haver j = 1 a M tipos de resíduos separados. Esse modelo presume uma relação linear (aditiva) entre os resíduos em cada posição. Uma versão expandida da equação 1 segue abaixo: y = Co + C11X11 + C12X12+ ... C1MX1M + C21X21 + C22X22 + ... C2MX2M +... + CNMXNM

[0204] Como indicado acima, dados na forma informações sobre atividades e sequênCias são derivados da biblioteCa iniCial de proteínas variantes e usados para determinar os CoefiCientes de regressão do modelo. As variáveis artifiCiais são primeiro identifiCadas a partir de um alinhamento das sequênCias de proteínas variantes. As posições dos resíduos de amino áCidos são identifiCadas entre as sequênCias de proteínas variantes nas quais os resíduos de aminoácidos naquelas posições diferem entre as sequências. As informações sobre os resíduos de amino ácidos em algumas ou em todas essas posições variáveis dos resíduos podem ser incorporadas ao modelo de atividade sequencial.

[0205] A Tabela I contém informações sequenciais na forma de posições variáveis dos resíduos e tipos de resíduos para 10 proteínas variantes ilustrativas, juntamente com os valores das atividades correspondentes a cada proteína variante. Estes são membros representativos de um conjunto maior que é requerido para gerar um número suficiente de equações para solucionar todos os coeficientes. Assim, por exemplo, para as sequências ilustrativas de proteínas variantes da Tabela I, as posições 10, 166, 175, e 340 são posições variáveis dos resíduos e todas as outras posições, i.e., aquelas não indicadas na Tabela, contêm resíduos que são idênticos entre as Variantes 1-10.

[0206] Nesse exemplo, as 10 variantes poderão ou não incluir uma sequência estrutural de tipo selvagem. Em algumas concretizações, um modelo desenvolvido para representar os dados de todas as variantes, incluindo a sequência estrutural de tipo selvagem, pode introduzir um problema de multicolinearidade perfeita, ou um separador de variáveis artificiais. Esse problema pode ser tratado através de várias técnicas. Algumas concretizações podem excluir os dados estruturais de tipo selvagem do desenvolvimento do modelo. Algumas concretizações podem abandonar aqueles coeficientes que representam a estrutura de tipo selvagem. Algumas concretizações podem usar técnicas tais como regressão PLS para lidar com a multicolinearidade.

[0207] Assim, com base na equação 1, um modelo de regressão pode ser derivado a partir da biblioteca sistematicamente variada na Tabela I, i.e.: y = c0 + c10 Ala x10Ala + c10Asp x10Asp + c10 Lys x10Lys + c166Ser x166Ser + c166 Phe x166Phe + c166Leu x166Leu + c166Ile x166Ile + c175Gly x175Gly + c175 Val x175Val + c340 Phe x340Phe + c340 Ala x340Ala (Eq. 2)

[0208] O valor dos bites (x variáveis artificiais) pode ser representado como 1 ou 0 refletindo a presença ou ausência do resíduo de aminoácido designado ou, alternativamente, 1 ou -1, ou alguma outra representação substituta. Por exemplo, usando a designação 1 ou 0, x10Alaseria “1” para a Variante 1 e “0” para a Variante 2. Usando a designação 1 ou -1, x10Alaseria “1” para a Variante 1 e “1” para a Variante 2. Os coeficientes de regressão podem portanto ser derivados de equações de regressão com base nas informações da atividade sequencial para todas as variantes da biblioteca. Exemplos de tais equações para as Variantes 1-10 (usando a designação 1 ou 0 para x) seguem abaixo: y1 = c0 + c10 Ala (1) + c10Asp (0) + c10 Lys (0) + c166Ser (1) + c166 Phe (0) + c166Leu (0) + c166Ile (0) + c175Gly (1) + c175 Val (0) + c340 Phe (1) + c340 Ala (0) y2 = c0 + c10 Ala (0) + c10Asp (1) + c10 Lys (0) + c166Ser (0) + c166 Phe (1) + c166Leu (0) + c166Ile (0) + c175Gly (0) + c175 Val (1) + c340 Phe (0)+ c340 Ala (1) y3 = c0 + c10 Ala (0) + c10Asp (0) + c10 Lys (1) + c166Ser (0) + c166 Phe (0) + c166Leu (1) + c166Ile (0) + c175Gly (1) + c175 Val (0) + c340 Phe (0)+ c340 Ala (1) y4 = c0 + c10 Ala (0) + c10Asp (1) + c10 Lys (0) + c166Ser (0) + c166 Phe (0) + c166Leu (0) + c166Ile (1) + c175Gly (0) + c175 Val (1) + c340 Phe (1)+ c340 Ala (0) y5 = c0 + c10 Ala (1) + c10Asp (0) + c10 Lys (0) + c166Ser (0) + c166 Phe (0) + c166Leu (0) + c166Ile (1) + c175Gly (0) + c175 Val (1) + c340 Phe (0)+ c340 Ala (1) y6 = c0 + c10 Ala (0) + c10Asp (1) + c10 Lys (0) + c166Ser (1) + c166 Phe (0) + c166Leu (0) + c166Ile (0) + c175Gly (1) + c175 Val (0) + c340 Phe (1)+ c340 Ala (0) y7 = c0 + c10 Ala (0) + c10Asp (0) + c10 Lys (1) + c166Ser (0) + c166 Phe (1) + c166Leu (0) + c166Ile (0) + c175Gly (1) + c175 Val (0) + c340 Phe (1)+ c340 Ala (0) y8 = c0 + c10 Ala (1) + c10Asp (0) + c10 Lys (0) + c166Ser (0) + c166 Phe (1) + c166Leu (0) + c166Ile (0) + c175Gly (0) + c175 Val (1) + c340 Phe (0)+ c340 Ala (1) y9 = c0 + c10 Ala (0) + c10Asp (0) + c10 Lys (1) + c166Ser (1) + c166 Phe (0) + c166Leu (0) + c166Ile (0) + c175Gly (1) + c175 Val (0) + c340 Phe (1) + c340 Ala (0) y10 = c0 + c10 Ala (0) + c10Asp (1) + c10 Lys (0) + c166Ser (0) + c166 Phe (0) + c166Leu (1) + c166Ile (0) + c175Gly (0) + c175 Val (1) + c340 Phe (0)+ c340 Ala (1)

[0209] Todo o conjunto de equações pode ser prontamente solucionado usando qualquer técnica de regressão apropriada (e.g., PCR, PLS ou MLR) para determinar o valor dos coeficientes de regressão correspondentes a cada resíduo e posição de interesse. Nesse exemplo, a magnitude relativa do coeficiente de regressão correlaciona-se com a magnitude relativa da contribuição daquele resíduo particular na posição particular da atividade. Os coeficientes de regressão podem então ser classificados ou de qualquer outro modo categorizados para determinar quais resíduos deverão mais favoravelmente contribuir para a atividade desejada. A Tabela II fornece valores ilustrativos dos coeficientes de regressão correspondentes à biblioteca sistematicamente variada exemplificada na Tabela I: Tabela II: Ordem de Classificação Ilustrativa dos Coeficientes de Regressão COEFICIENTE VALOR

[0210] A lista das ordens de classificação dos coeficientes de regressão pode ser usada para construir uma nova biblioteca de proteínas variantes que seja otimizada com relação a uma atividade desejada (i.e., melhor adequação). Isso pode ser feito de várias formas. Em uma concretização, isso é feito retendo os resíduos de aminoácidos que possuam coeficientes com os maiores valores observados. Esses são os resíduos indicados pelo modelo de regressãoquemais contribuem para a atividade desejada. Se descritores negativos forem empregados para identificar resíduos (e.g., 1 para leucina e -1 para glicina), será necessário classificar as posições dos resíduos com base no valor absoluto do coeficiente. Observe que em tais situações, costuma haver apenas um único coeficiente para cada resíduo. O valor absoluto da magnitude do coeficiente fornecerá a classificação da correspondente posição do resíduo. Depois, será necessário considerar os sinais dos resíduos individuais para determinar se cada um deles é prejudicial ou benéfico em termos da atividade desejada. ii) Modelos Não Lineares

[0211] A modelagem não linear é empregada para representar as interações resíduo-resíduo que contribuem para a atividade nas proteínas. Um cenário N-K descreve esse problema. O parâmetro N refere-se ao número de resíduos variáveis em uma coleção de relativas sequências de polipeptídeos. O parâmetro K representaa interação entre os resíduos individuais em qualquer um desses polipeptídeos. A interação costuma ser um resultado da estreita proximidade física entre vários resíduos seja na estrutura primária, secundária, ou terciária do polipeptídeo. A interação pode dever-se a interações diretas, interações indiretas, interações físico-químicas, interações devidas aos dobramentos intermediários, efeitos translacionais, e situações afins. Veja Kauffman, S. e Levin, S. (1987), “Towards a general theory of adaptive walks on rugged landscapes”, Journal of Theoretical Biology 128 (1) 11-45.

[0212] O parâmetro K é definido de tal modo que para o valor K=1, cada resíduo variável (e.g., há 20 deles) interaja exatamente com um outro resíduo na sua sequência. Caso todos os resíduos sejam física e quimicamente separados dos efeitos de todos os outros resíduos, o valor de K será zero. Obviamente, dependendo da estrutura do polipeptídeo, K pode ter uma ampla variedade de valores diferentes. Com uma estrutura rigorosamente solucionada do polipeptídeo em questão, um valor para K pode ser estimado. Geralmente, porém, esse não é o caso.

[0213] Um modelo puramente linear e aditivo de atividade de polipeptídeos (conforme o descrito acima) pode ser aperfeiçoado incluindo-se um ou mais termos de interação não lineares representando as interações específicas entre 2 ou mais resíduos. No contexto da forma do modelo apresentado acima, esses termos são apresentados como “produtos cruzados” contendo duas ou mais variáveis artificiais representando dois ou mais resíduos em particular (cada um deles associado a uma posição particular na sequência) que interagem para ter um significativo impacto positivo ou negativo sobre a atividade. Por exemplo, um termo de produto cruzado poderá assumir a forma cabxaxb, onde xa é uma variável artificial representando a presença de um resíduo particular em uma posição particular na sequência e a variável xb representa a presença de um resíduo particular em uma posição diferente (que interage com a primeira posição) na sequência de polipeptídeos. Uma forma detalhada do exemplo do modelo é mostrada abaixo.

[0214] A presença de todos os resíduos representados no termo do produto cruzado (i.e., cada um de dois ou mais tipos específicos de resíduos em posições especificamente identificadas) afeta a atividade geral do polipeptídeo. O impacto pode manifestar-se de várias formas. Por exemplo, cada um dos resíduos individuais que interagem quando presentes sozinhos em um polipeptídeo pode ter um impacto negativo sobre a atividade, mas quando eles estão presentes no polipeptídeo, o efeito geral é positivo. O oposto pode ocorrer em outros casos. Além disso, um efeito sinergético pode ser produzido, no qual cada um dos resíduos individuais sozinho terá um impacto relativamente limitado sobre a atividade, mas quando todos eles estiverem presentes, o efeito sobre a atividade será maior que os efeitos cumulativos de todos os resíduos individuais.

[0215] Em algumas concretizações, os modelos não lineares incluem um termo de produto cruzado para cada combinação possível dos resíduos variáveis que interagem na sequência. Porém, isso não representa a realidade física, pois somente um subconjunto dos resíduos variáveis efetivamente interage entre si. Além disso, isso resultaria em um “sobreajustamento” para produzir um modelo que forneceria resultados espúrios que seriam manifestações dos polipeptídeos particulares usados para criaro modelo e não representaria as interações reais no polipeptídeo. O número correto de termos de produtos cruzados para um modelo que represente a realidade física, e evite o sobreajustamento, é ditado pelo valor de K. Por exemplo, se K=1, o número de termos de produtos cruzados de interação será igual a N.

[0216] Ao construir um modelo não linear, em algumas concretizações, é importante identificar aqueles termos de produtos cruzados da interação que representem as verdadeiras interações estruturais que tenham um impacto significativo sobre a atividade. Isso pode ser feito de várias formas, incluindo mas não limitando-se a, adição avançada na qual os termos de produtos cruzados candidatos são acrescentados no termo linear inicial apenas um modelo por vez até que o acréscimo de termos não seja mais estatisticamente significativo, e subtração reversa, na qual todos os possíveis termos de produtos cruzados sejam fornecidos em um modelo inicial e removidos um por vez. Os exemplos ilustrativos apresentados abaixo envolvem o uso de técnicas de adição e subtração gradual para identificar os termos de interação não linear úteis.

[0217] Em algumas concretizações, a abordagem para gerar um modelo não linear contendo tais termos de interação é a mesma que na abordagem descrita acima para gerar um modelo linear. Em outras palavras, um conjunto de treinamento é empregado para “adequar” os dados a um modelo. Porém, um ou mais termos não lineares, preferencialmente os termos de produtos cruzados discutidos acima, são acrescentados ao modelo. Além disso, o modelo não linear resultante, como os modelos lineares descritos acima, pode ser empregado para classificar a importância dos vários resíduos na atividade geral de um polipeptídeo. Várias técnicas podem ser usadas para identificar a melhor combinação de resíduos variáveis conforme previstas pela equação não linear. As abordagens para classificar os resíduos são descritas abaixo. Em algumas concretizações, números muito grandes de possíveis termos de produtos cruzados para resíduos variáveis são usados, mesmo que quando limitados às interações causadas por apenas dois resíduos. Conforme ocorram mais interações, o número de potenciais interações a serem consideradas para um modelo não linear crescerá de forma exponencial. Se o modelo incluir a possibilidade de interações que incluam três ou mais resíduos, o número de potenciais termos crescerá ainda mais rapidamente.

[0218] Em um exemplo ilustrativo simples, no qual há 20 resíduos variáveis e K=1 (isso presume que cada resíduo variável interage com um outro resíduo variável), poderá haver 20 termos de interação (produtos cruzados) no modelo. Se houver um número menor de termos de interação, o modelo não descreverá plenamente as interações (embora algumas das interações talvez não tenham um impacto significativo sobre a atividade). Por outro lado, se houver um número qualquer maior de termos de interação o modelo poderá sobreajustar o conjunto de dados. Nesse exemplo, há N*(N-1)/2 ou 190 possíveis pares de interações. Encontrar a combinação de 20 pares únicos que descrevam as 20 interações da sequência é um problema computacional significativo, pois há aproximadamente 5.48 x 1026 combinações possíveis.

[0219] Inúmerastécnicas podem ser empregadas para identificar os termos de produtos cruzados relevantes. Dependendo do tamanho do problema e da potência computacional disponível, é possível explorar todas as combinações possíveis e identificar através disso um modelo que se adeque melhor aos dados. Porém, geralmente o problema exige muito em termos computacionais. Assim, em algumas concretizações, um algoritmo de busca eficiente ou uma aproximação dele é utilizada. Como indicado na presente invenção, uma técnica de pesquisa apropriada é uma técnica gradual. Porém, não se pretende que a presente invenção seja limitada a qualquer método em particular para identificar os termos de produtos cruzados relevantes.

[0220] Um exemplo ilustrativo é apresentado abaixo na Tabela III para mostrar o valor da incorporação de termos não lineares de produtos cruzados em um modelo que preveja a atividade a partir das informações sequenciais. Esse exemplo é um modelo não linear no qual presume-se que só haja duas opções de resíduos em cada posição variável na sequência. Nesse exemplo, a sequência de proteínas é lançada em uma sequência codificada através do uso de variáveis artificiais que correspondem à opção A ou à opção B, usando +1 e -1 respectivamente. O modelo é imune à escolha arbitrária de qual valor numéricos erá usado para atribuir cada escolha de resíduos. As posições variáveis mostradas na primeira fileira da Tabela III não indicam as efetivas posições na sequência de uma sequência de proteínas. No lugar disso, elas são rótulos arbitrários representando qualquer uma das 10 posições hipotéticas em uma sequência de proteínas que podem ser variadas com uma das duas opções mostradas na segunda e terceira fileiras da Tabela III para Opção de Resíduo A e Opção de Resíduo B. TABELA III: Exemplo de codificação de resíduos nas posições cada uma tendo duas opções

[0221] Com esse esquema de codificação, o modelo linear usado para associar sequências de proteínas com a atividade pode ser escrito da seguinte forma: Y=C1X1+C2X2+C3X3...+CNXN+...+CNXN+C0 (Eq. 3) onde y é a resposta (atividade), cno coeficiente de regressão para a opção do resíduo na posição n, x a codificação da variável artificial para a opção do resíduo (+1/-1) na posição n, e c0 o valor médio da resposta. Essa forma do modelo presume que não há nenhuma interação entre os resíduos variáveis (i.e., cada opção do resíduo contribuide forma independente para aadequação geral da proteína).

[0222] O modelo não linear inclui um certo número de (ainda não determinados até o momento) termos de produtos cruzados para representar as interações entre os resíduos: Y=C1X1 +C2X2+C3X3 +L+CNXN +C1,2X1X2 +C1,3X1X3 +C2,3X2X3 +...+C0 (Eq. 4) onde as variáveis são as mesmas da Eq. (3) mas agora há termos não lineares, e.g.,c1,2 é o coeficiente de regressão para a interação entre as posições variáveis 1 e 2.

[0223] Para avaliar o desempenho dos modelos lineares e não lineares, uma fonte de dados sintéticos conhecida como cenário NK foi usada (Kauffman e Levin, 1987). Como citado acima, N é o número de posições variáveis em uma proteína simulada e K é o acoplamento epistático entre resíduos. Além disso, o conjunto de dados sintéticos foi gerado in silico.

[0224] Esse conjunto de dados foi usado para gerar um conjunto de treinamento inicial com S=40 amostras sintéticas, com N=20 posições variáveis e K=1 (para reiterar, para K=1 cada posição variável é funcionalmente acoplada a uma outra posição variável). Ao gerar as proteínas aleatórias, cada posição variável tinha uma probabilidade igual de conter a variável artificial +1 ou -1. As interações resíduo-resíduo (representadas por produtos cruzados) e as atividades efetivas eram conhecidas para cada membro do conjunto de treinamento sintético. Uma outra amostra V=100 foi gerada para uso na validação. Novamente, as interações resíduo-resíduo e as atividades eram conhecidas para cada membro do conjunto de validação.

[0225] Os conjuntos de treinamento eram usados para construir tanto os modelos lineares quanto não lineares. Alguns modelos não lineares eram gerados com a seleção dos termos de produtos cruzados e outros modelos não lineares eram gerados sem a seleção de tais termos. Os modelos da Figura 3A-F eram gerados usando um método de modelagem de algoritmos genéticos, enquanto os modelos da Figura G-H eram gerados usando o método de modelagem gradual. Embora a vantagem quantitativa dos modelos que possuem tanto termos lineares quanto não lineares com relação aos modelos que possuem somente termos lineares difere entre os métodos de algoritmos genéticos e de modelagem gradual, os resultados indicam a vantagem generalizável dos modelos com termos não lineares, independente dos métodos de modelagem. De fato, não se pretende que a presente invenção seja limitada a qualquer método em particular, pois qualquer método de modelagem apropriado pode ser usado na presente invenção.

[0226] Para o conjunto de treinamento com o tamanho S=40 descrito acima, o modelo linear foi capaz de correlacionar razoavelmente bem os valores mensurados e previstos, mas demonstrou uma correlação mais fraca quando validado com relação a dados não encontrados no conjunto de treinamento (veja a Figura 3A). Como mostrado acima, os pontos de dados escuros representam a atividade observada de 40 pontos de dados de treinamento vs. as previsões feitas por um modelo linear. Os pontos de dados claros representam as previsões feitas pelo mesmo modelo construído a partir das 40 amostras de treinamento e usado para prever as amostras de validação V, nenhuma das quais era encontrada no conjunto de treinamento original. O conjunto de validação fornece uma boa medida da verdadeira capacidade preditiva do modelo, ao contrário do conjunto de treinamento, que pode sofrer do problema de sobreajustamento do modelo especialmente para os casos não lineares descritos abaixo.

[0227] Esse resultado para o conjunto de treinamento S=40 descrito acima é notável, considerando que um modelo linear foi usado para modelar um cenário de adequação não linear. Nesse caso, o modelo linear poderia, no melhor dos casos, capturar a contribuição média para a adequaçãoda escolha de um dado resíduo. Dado um número suficiente de contribuições médias levadas em consideração na combinação, o modelo linear prevê grosseiramente a efetiva resposta mensurada. Os resultados da validação para o modelo linear foram marginalmente melhores quando o tamanho do treinamento foi aumentado para S=100 (veja a Figura 3B). A tendência dos modelos relativamente simples de adequar insuficientementeos dados é conhecida como “viés”.

[0228] Quando o modelo não linear foi treinado usando apenas as amostras S=40, a correlação com os membros do conjunto de treinamento foi excelente (veja a Figura 3C). Infelizmente, nesse exemplo ilustrativo, o modelo forneceu um poder preditivo limitado fora do conjunto de treinamento, como comprovado pela sua limitada correlação com os valores mensurados no conjunto de validação. Esse modelo não linear, com muitas potenciais variáveis (210 possíveis), e dados de treinamento limitados para facilitar a identificação dos devidos termos de produtos cruzados, foi capaz essencialmente de apenas memorizar o conjunto de dados no qual ele foi treinado. Essa tendência dos modelos de alta complexidade de sobreajustar os dados é conhecida como “variância”. O equilíbrio viés-variância representa um problema fundamental para o aprendizado de máquina e alguma forma de validação é quase sempre necessária para lidar com ele ao tratar de um problema novo ou não caracterizado de aprendizado de máquina.

[0229] Porém, quando o modelo não linear foi treinado usando um maior conjunto de treinamento (S=100) como mostrado na Figura 3D, o modelo não linear apresentou resultados excessivamente bons tanto para a previsão do treinamento e, o mais importante, quanto para previsão da validação. As previsões de validação foram suficientemente precisas para que a maioria dos pontos de dados seja obscurecida pelos círculos escuros usados para traçar o conjunto de treinamento.

[0230] Em comparação, as Figuras 3E e 3F mostram o desempenho dos modelos não lineares preparados sem uma cuidadosa seleção dos termos de produtos cruzados. Diferentemente dos modelos mostrados nas Figuras 3C e 3D, cada possível termo de produto cruzado foi escolhido (i.e., 190 termos de produtos cruzados para N=20). Como mostrado naquelas Figuras, a capacidade de prever a atividade do conjunto de validação é relativamente insatisfatória se comparada à dos modelos não lineares gerados com uma cuidadosa seleção dos termos de produtos cruzados. Essa capacidade insatisfatória de prever dados de validação é uma manifestação do sobreajustamento.

[0231] As Figuras 3G e 3H mostram, respectivamente, o poder preditivo indicado pelos valores residuais de um modelo linear e de um modelo não linear gradual para os dados simulados in silico. O modelo não linear gradual foi implementado conforme o descrito de forma geral acima e mais especificamente abaixo.

[0232] Para testar esses modelos, foram criados dados simulados. Um gerador de números aleatóriosRfoi criado com base em uma distribuição normal com uma médiaMN e desvio padrãoSD. Depoisum conjunto de 10 mutações foi definido. Os nomes delas eram M1, M2...M10 (esse esquema de nomeação é arbitrário). Esse passo simula a criação de diversidade

[0233] Cada mutação representou uma modificação do aminoácido em uma dada posição em uma sequência de proteínas, e cada posição é independente das outras posições. Cada mutação acima possuiu um valor aleatório da atividade A atribuído com base em R (MN = 0, SD = 0.2). Seis mutações acima foram escolhidas e pareadas conjuntamente em três paresP. Esses pares representaram as interações epistáticas entre as mutações.

[0234] Umvalor da atividade AP foi atribuído à cada par P com base em R (MN = 0, SD = 0.2). Uma biblioteca L com 50 variantes foi construída na qual cada variante continha um número aleatório de mutações M definido acima - o número aleatório de mutações foi definido pelo valor absoluto arredondado de R (MN=4, S = 0.25). Esse passo simula a construção e sequenciamento da biblioteca.

[0235] A atividade de cada variante em L foi calculada primeiro acrescentando a 1.0 (uma atividade definida da sequência de tipo selvagem e sem mutação) o valor da atividade de cada mutação de pares PA (se ambas as mutações estivessem presentes) seguido do acréscimo dos valores das demais mutações individuais (A). O ruído do ensaio foi simulado acrescentando-se ao valor final de cada variante um valor aleatório R (MN=0, SD=0.005). Esse passo simula a triagem de variantes.

[0236] Um modelo linear LM foi construído com base nos dados do último passo. Esse modelo continha dez variáveis/coeficientes independentes, cada um deles representando uma mutação de M. O modelo linear foi então adequado usando a regressão ordinária de mínimos quadrados e os dados obtidos acima.

[0237] Um método de adição gradual foi usado para selecionar um modelo MM com base nos dados obtidos acima, com o modelo básico sendoLM, usando o CIA como critério de seleção, e selecionando os modelos que só contêm coeficientes representando mutações individuais e interações entre pares. Veja a descrição da Seleção de Modelos abaixo para obter maiores detalhes do método de seleção de modelos. O melhor modelo selecionado pelo CIA foi adequado usando a regressão ordinária de mínimos quadrados.

[0238] Para avaliar a capacidade preditiva do modelo linear e do modelo não linear, os procedimentos descritos acima foram repetidos 20 vezes. A previsão dos modelos foi traçada com relação aos dados simulados, onde a Figura 3G mostra o modelo linear e a Figura 3H mostra o modelo não linear gradual. Os modelos foram usados para prever os valores das mutações individuais descritas acima. Essa previsão foi realizada usando os modelos para prever uma variante contendo apenas uma mutação de interesse e subtraindo 1.0 (de tipo selvagem). Como mostrado nas Figuras 3G e 3H, o modelo não linear prevê de forma mais precisa os valores, possuindo uma tendência mais linear e valores residuais menores. iii) Seleção de Modelos

[0239] Em algumas concretizações, métodos de adição ou subtração gradual são usados para preparar modelos com termos de interação não linear. Ao implementar a operação mostrada no bloco 107 da Figura 1, um modelo final com alto poder preditivo incluindo termos de interação é fornecido através da adição ou subtração gradual dos termos de interação de um modelo básico. A Figura 4A fornece um fluxograma de uma implementação da operação do bloco 107 da Figura 1 através da adição de termos de interação a um modelo básico e a avaliação dos novos modelos para criar um melhor modelo final.

[0240] Nesse exemplo, o modelo sequencial básico inclui os termos de interação. O método primeiro estabelece um modelo sequencial atual e um modelo sequencial melhor para o modelo sequencial básico, bloco 409. O método define um conjunto de termos de interação para as variantes da sequência. Esses termos de interação podem incluir qualquer número de interações pareadas ou de maior ordem de dois ou mais resíduos de aminoácidos. Veja o bloco 411. Embora obloco 409 seja ilustrado como ocorrendo antes do bloco 411, a ordem dos dois passos não é importante. Em algumas concretizações, o conjunto de termos de interação inclui combinações fatoriais de todos os resíduos de aminoácidos de interesse. Em algumas outras concretizações, pelo menos todos os termos de interação pareados são incluídos. Em algumas outras concretizações, termos de interação pareados e de três vias são incluídos.

[0241] Após criar um modelo básico, o método seleciona um termo de interação que ainda não tenha sido testado no conjunto. O método então cria um novo modelo sequencial acrescentando o termo de interação selecionado ao modelo sequencial atual. Veja o bloco 413. O método então avalia o poder preditivo do novo modelo sequencial usando um método de seleção de modelos com um viés com relação à inclusão de termos de interação adicionais. Veja o bloco 415. O método determina se o poder preditivo do novo modelo sequencial é ou não maior do que o poder preditivo do melhor modelo sequencial. Veja o bloco de decisões 417. Como exemplo, o método pode usar uma técnica que empregue a determinação da “probabilidade” (e.g., CIA) como critério de seleção de modelos. Em tais casos, somente um modelo que possua um valor do CIA menor do que o modelo testado anteriormente é considerado como tendo um maior poder preditivo.

[0242] Em algumas concretizações, o método de seleção é enviesado com relação aos modelos com mais parâmetros. Os exemplos de tais métodos de seleção incluem, mas não se limitam a, o Critério de Informação de Akaike (CIA) e o Critério de Informação Bayesiano (CIB), e variações dos mesmos. Por exemplo, o CIA pode ser calculado como: AIC = —2logeL + 2k onde L é a probabilidade de um modelo dado um conjunto de dados, e k é o número de parâmetros livres em um modelo.

[0243] Em algumas concretizações, a probabilidade de um modelo dado um conjunto de dados pode ser calculada através de vários métodos, incluindo, mas não se limitando a, o método da probabilidade máxima. Por exemplo, para uma variável dependente binária onde uma atividade ou está presente ou está ausente em uma observação, a probabilidade do modelo pode ser calculada como:

onde n é o número total de pontos de dados em um conjunto de dados; ai e bi são o número de ensaios observados compreendendo a condiçãoith; p é a probabilidade de uma variável dependente ser observada conforme o previsto pelo modelo.

[0244] Em algumas concretizações envolvendo uma série de modelos aninhados, como nos modelos de regressão com progressivamente mais termos de interação (e coeficientes associados) do que um modelo básico, os modelos mais complexos também proporcionam adequações boas ou melhores do que os mais simples mesmo que os coeficientes extras sejam espúrios, porque o modelo mais complexo possui um grau extra de liberdade. Em algumas concretizações, o CIA penaliza o modelo mais complexo na medida em que o ganho em termos do grau de ajuste é mais que contrabalançado pelo custo dos parâmetros espúrios. Na seleção de modelos, um valor de CIA menor indica um modelo melhor.

[0245] No exemplo mostrado na Figura 4A, se o poder preditivo do novo modelo sequencial for maior que o poder preditivo do melhor modelo sequencial, então o método estabelecerá o novo modelo como o melhor modelo. Veja o bloco 419. Depois, o método verifica se qualquer um dos termos de interação adicionais permaneceu no conjunto e ainda não foi testado. Veja o bloco de decisões 421. Se for o caso, o processo reverterá novamente para o bloco 413, formando através disso um circuito interno para testar todos os termos de interação disponíveis no conjunto de interações. Através das iterações do circuito interno, um melhor termo de interação único pode ser encontrado e acrescentado ao modelo.

[0246] Após todos os termos de interação terem sido testados, e o circuito interno for encerrado, um modelo melhor que possua um termo de interação adicional será identificado, dado que há de fato um modelo que possui um maior poder preditivo do que o melhor modelo anterior. Veja o bloco de decisões 423. Em tais concretizações, o método estabelece o modelo atual para o melhor modelo, e exclui os termos de interação do melhor modelo do conjunto de termos de interação disponíveis. Veja o bloco 425. A seguir, o método retorna o circuito para o bloco 413. Esse circuito externo procura pelo próximo melhor termo de interação que possa melhorar o poder preditivo do modelo. Se tal termo de interação for encontrado, a busca pelo próximo melhor termo de interação continuará no circuito externo, até que nenhum novo modelo que possua um poder preditivo maior do que o poder preditivo do melhor modelo sequencial anterior seja identificado.

[0247] Quando nenhum outro termo de interação puder ser encontrado para melhorar o modelo, o método estabelecerá o melhor modelo como o modelo final. Veja o bloco 427. A busca por um modelo melhor considerando os dados sobre sequências e atividades será encerrada. O modelo será usado então para prever as atividades das novas sequências. Tais previsões podem orientar a seleção das sequências para posterior variação e teste.

[0248] Em certas concretizações, cada um dos termos de interação disponíveis no conjunto de termos de interação é tratado como tendo um impacto potencialmente igual sobre a qualidade ou o poder preditivo do modelo. Em outras palavras, na implementação, cada um dos termos de interação disponíveis no conjunto tem a mesma probabilidade de ser selecionado para ser levado em consideração durante uma iteração em particular. Em algumas concretizações, os termos de interação disponíveis são selecionados aleatoriamente ou em alguma ordem arbitrária. Em algumas outras concretizações, os termos de interação são enviesados ou ponderados de tal forma que alguns termos terão uma maior probabilidade de serem selecionados para serem levados em consideração do que outros durante uma dada iteração. O viés ou ponderação pode, em certas concretizações, ser aplicado com base nas informações físicas ou teóricas sobre as interações. Por exemplo, talvez se saiba que as mutações em duas áreas particulares de uma proteína tenham uma maior probabilidade de estarem fisicamente próximas entre si e por isso interagir. Os termos de interação relativos aos resíduos daquelas duas áreas gerais poderiam estar enviesados para seleção durante o processo iterativo para refinar o modelo.

[0249] Um pseudocódigo ilustrando processos similares ao mostrado na Figura 4A segue abaixo: SET Coeff = Interaction Terms to Test Best = Baseline Model count = 1 WHILE count > 0 count = 0 BestFromRound = Best BestCoefficient = NULL FOR each Interaction Term in Coeff TestModel = (best + Interaction Term)1 IF TestModel BETTER THAN BestFromRound THEN2 BestFromRound = TestModel Count++ BestCoefficient = Interaction Term ENDIF ENDFOR IF count > 0 THEN Best = BestFromRound Remove BestCoefficient FROM Coeff3 ENDIF ENDWHILE

[0250] O Item 1 acrescenta o termo de interação do teste ao modelo de regressão

[0251] O Item 2 representa a Comparação de Modelos, um ou mais Critérios de Informação de Akaike (CIA), Critérios de Informação Bayesiano (CIB), Validação cruzada (erro médio), ANOVA, ou contribuição do coeficiente.

[0252] O Item 3 é fornecido para evitar testes duplicados dos Termos de Interação

[0253] A Figura 4B fornece um fluxograma mostrando uma concretização da operação mostrada no bloco 107 da Figura 1. Nesse processo, os termos de interação são subtraídos de um modelo básico que inclui todos os termos de interação possíveis a partir de um conjunto de tais termos para criar um melhor modelo final.

[0254] Nessa concretização, o modelo sequencial básico inclui todos os termos de interação de um conjunto definido. O método primeiro estabelece um modelo sequencial atual e um melhor modelo sequencial para ser igual ao modelo sequencial básico no início do processo, bloco 439. Essa concretização é similar ao último modelo descrito acima no qual todo o conjunto de termos de interação pode incluir qualquer número de interações pareadas ou de maior ordem de dois ou mais resíduos de aminoácidos. Em algumas concretizações, o conjunto de termos de interação inclui combinações fatoriais de todos os resíduos de aminoácidos de interesse.

[0255] Após criar um modelo básico, o método seleciona um termo de interação que ainda não tenha sido testado no conjunto de termos já incluídos no modelo básico. O método então cria um novo modelo sequencial subtraindoo termo de interação selecionado a partir do modelo sequencial atual. Veja o bloco 441. O método então avalia o poder preditivo do novo modelo sequencial usando um método de seleção de modelos com um viés com relação aos termos de interação adicionais. Veja o bloco 443. O método avalia se o poder preditivo do novo modelo sequencial é ou não maior que o poder preditivo do melhor modelo sequencial. Veja a operação de tomada de decisões mostrada no bloco 445. Em algumas concretizações, o CIAé usado como critério de seleção de modelos, de tal forma que um modelo que possua um valor de CIA menor do que o modelo testado anteriormente é considerado como tendo um maior poder preditivo.

[0256] Nesse exemplo ilustrativo, se o poder preditivo do novo modelo sequencial for maior que o poder preditivo do melhor modelo sequencial, então o método estabelecerá o novo modelo como o melhor modelo. Veja o bloco 447. A seguir, o método verificará se qualquer um dos termos de interação adicionais permaneceu no conjunto e ainda não foi testado (i.e., subtraído do modelo sequencial atual). Veja o bloco de decisões 449. Se houver algum termo não testado, o método retornará para obloco 441, formando assim um circuito interno para testar todos os termos de interação disponíveis no conjunto de interações. Através das iterações do circuito interno, um único termo de interação será identificado. Retirá-lo do modelo melhorará o modelo ao máximo possível (e reduzirá o CIA pela maior margem, se o CIA for usado para mensurar o poder preditivo do modelo).

[0257] Após todos os termos de interação terem sido testados, e o circuito interno for encerrado, um modelo melhor que possua um termo de interação a menos será identificado, considerando que há de fato um modelo que possui maior poder preditivo do que o melhor modelo anterior. Veja o bloco de decisões 451. Nesse caso, o método estabelecerá o modelo atual como o melhor modelo. Veja o bloco 453. A seguir, o método retornará o circuito para obloco 441. Esse circuito externo procura pelo próximo termo de interação que possa melhorar o poder preditivo do modelo pela maior margem. Se tal termo de interação for encontrado, a busca pelo próximo termo de interação a ser subtraído continuará no circuito externo, até que nenhum outro novo modelo que possua um poder preditivo maior do que o poder preditivo do melhor modelo sequencial anterior seja identificado.

[0258] Quando um circuito interno é concluído e nenhum outro termo de interação pode ser encontrado para ser subtraído para melhorar o modelo (i.e., a operação de tomada de decisões mostrada no bloco 451 obtém uma resposta negativa), o método estabelecerá o último modelo melhor como o modelo final. Veja o bloco 455. A busca por um modelo melhor considerando os dados sobre sequências e atividades será encerrada. iv) Opções Alternativas de Modelagem

[0259] Várias variações adicionais da abordagem acima estão no escopo da presente invenção. De fato, não se pretende que a presente invenção seja limitada a qualquer modelo em particular, pois qualquer modelo apropriado pode ser usado na presente invenção. Como exemplo ilustrativo, as variáveis xij são representações das propriedades físicas ou químicas dos aminoácidos - no lugar de identidades exatas dos próprios aminoácidos (leucina versus valina versus prolina). Os exemplos de tais propriedades incluem lipofilicidade, massa, e propriedades eletrônicas (e.g., carga formal, área da superfície de van der Waals associada a uma carga parcial, etc.). Para implementar essa abordagem, os valores xij representando resíduos de aminoácidos podem ser apresentados em termos das suas propriedades ou principais componentes construídos a partir dessas propriedades. Não é a intenção que a presente invenção seja limitada a qualquer propriedade particular de aminoácidos, peptídeos, e/ou polipeptídeos, pois qualquer propriedade apropriada pode ser usada nos métodos da presente invenção.

[0260] Em algumas outras concretizações, as variáveis xij representam nucleotídeos, no lugar de resíduos de aminoácidos. Nessasconcretizações, o objetivo é identificar as sequências de ácidos nucleicos que codificam proteínas para uma biblioteca de proteínas variantes. Ao usar nucleotídeos no lugar de aminoácidos, parâmetros além da atividade (e.g., atividade específica) podem ser otimizados, conforme o desejado. Por exemplo, a expressão de proteínas em um hospedeiro ou vetor em particular pode ser uma função da sequência de nucleotídeos. Duas sequências de nucleotídeos diferentes podem codificar uma proteína que possua a mesma sequência de aminoácidos, mas uma das sequências de nucleotídeos pode levar à produção de maiores quantidades de proteínas e/ou fazer com que a proteína seja mais ativa. Ao usar sequências de nucleotídeos no lugar de sequências de aminoácidos, os métodos descritos na presente invenção podem ser usados para otimizar as cepas de microrganismos que apresentarem melhores propriedades de expressão genética e/ou melhores propriedades (e.g., atividade específica, estabilidade, etc.).

[0261] Em algumas concretizações, a sequência de nucleotídeos é representada como uma sequência de códons. Em algumas concretizações, os modelos utilizam códons como a unidade atômica de uma sequência de nucleotídeos de tal forma que as atividades previstas sejam uma função dos vários códons presentes na sequência de nucleotídeos. Cada códon, juntamente com sua posição na sequência geral de nucleotídeos, atua comouma variável independente para gerar modelos de atividade sequencial. Observa-se que em alguns casos, diferentes códons para um dado aminoácido são expressos de formas diferentes em um dado organismo. Em algumas concretizações, cada organismo possui um códon, ou distribuição das frequências de códons, preferencial para um dado aminoácido. Ao usar códons como variáveis independentes, a concretização dá conta dessas preferências. Assim, a concretização pode ser usada para gerar uma biblioteca de variantes de expressões (e.g., onde a “atividade” inclui o nível de expressão genética de um organismo hospedeiro em particular).

[0262] Em algumas concretizações, os métodos incluem as seguintes operações: (a) receber dados que caracterizam um conjunto de treinamento de uma biblioteca de proteínas variantes; (b) desenvolver um modelo não linear de atividade sequencial que preveja a atividade como função dos tipos de nucleotídeos e suas correspondentes posições na sequência de nucleotídeos, com base nos dados obtidos em (a); (c) usar o modelo de atividade sequencial para classificar as posições dos nucleotídeos em uma sequência e/ou ostipos de nucleotídeos em posições específicas na sequência de nucleotídeos na sua ordem de impacto sobre a atividade desejada; e (d) usar a classificação para identificar um ou mais nucleotídeos, na sequência de nucleotídeos, que devem ser variados ou fixos, para melhorar a atividade desejada. Como indicado acima, em algumas concretizações, os nucleotídeos a serem variados codificam aminoácidos específicos.

[0263] Em algumas outras concretizações, os métodos envolvem o uso de técnicas diferentes para classificar ou de qualquer outro modo caracterizar os resíduos em termos da sua importância com relação a uma certa propriedade. Como descrito acima para os modelos lineares, as magnitudes dos coeficientes de regressão foram usadas para classificar resíduos. Os resíduos que possuem coeficientes com grandes magnitudes (e.g., 166 Ile) foram vistos como resíduos com uma classificação elevada. Essa caracterização foi usada para decidir se seria necessário variar ou não um resíduo particular na geração de uma biblioteca nova e otimizada de proteínas variantes. Para os modelos não lineares, a análise da sensibilidade foi mais complexa, conforme o descrito na presente invenção.

[0264] A PLS e outras técnicas fornecem informações adicionais, além da magnitude do coeficiente de regressão, que podem ser usadas para classificar resíduos específicos ou as posições dos resíduos. Técnicas tais como a PLS e a Análise de Componentes Principais (ACP) ou a PCR fornecem informações na forma de componentes principais ou vetores latentes. Tais informações representam as direções ou vetores da variação máxima através de conjuntos de dados multidimensionais tais como o espaço da atividade sequencial das proteínas empregados nas concretizações da presente invenção divulgada na presente invenção. Esses vetores latentes são funções das várias dimensões das sequências; i.e., os resíduos individuais ou as posições dos resíduos que compreendem as sequências de proteínas incluídas na biblioteca de variantes usada para construir o conjunto de treinamento. Os vetores latentes, portanto, compreendem uma soma das contribuições de cada uma das posições dos resíduos no conjunto de treinamento. Algumas posições contribuem mais decisivamente para a direção do vetor. Estas são manifestadas por “cargas” relativamente grandes, i.e., os coeficientes usados para descrever o vetor. Como um simples exemplo ilustrativo, um conjunto de treinamento pode ser composto de tripeptídeos. Nesse exemplo, o primeiro vetor latente inclui as contribuições de todos os três resíduos. Vetor 1 = a1(posição do resíduo 1) + a2(posição do resíduo 2) + a3(posição do resíduo 3)

[0265] Os coeficientes, a1, a2, e a3, são as cargas. Como eles refletem a importância das correspondentes posições dos resíduos com relação à variação no conjunto de dados, eles podem ser usados para classificar a importância das posições dos resíduos individuais para os fins das decisões sobre “alternância”, conforme o descrito acima. As cargas, como os coeficientes de regressão, podem ser usadas para classificar resíduos em cada posição alternada. Vários parâmetros descrevem a importância dessas cargas. Algumas concretizações utilizam métodos tais como Importância da Variável na Projeção (IVP) para utilizar uma matriz de carregamento. Essa matriz de carregamento é composta pelas cargas de vários vetores latentes tomadas de um conjunto de treinamento. Na Importância da Variável para os métodos de Projeção PLS, a importância de uma variável (e.g., posição do resíduo) é computada calculando-sea IVP. Para uma dada dimensão PLS, a, (VIN)ak2 é igual aopeso da PLSao quadrado (wak)2 de uma variável multiplicada pela variabilidade explicada em termos percentuais em y (variável dependente, e.g., determinadafunção) por aqueladimensão PLS. (VIN)ak2 é somadopara todas as dimensões PLS (componentes). A IVP é então calculada dividindo-se a quantidade pela variabilidade percentual total em y explicada pelo modelo de PLS e multiplicando-a pelo número de variáveis no modelo. As variáveis com um IVP maior que 1 são as mais relevantes para correlação com uma função determinada (y) e logo, possuem as classificações mais elevadas para os fins da tomada de decisões sobre alternância.

[0266] Em muitas concretizações, a presente invenção utiliza métodos gerais de regressão linear para identificar os efeitos das mutações em uma biblioteca combinatória em uma atividade sequencial de interesse. Opções e técnicas de modelagem alternativas, e.g., regressão bayesiana, regressão conjunta, de carga inicial, podem ser usadas em combinação com, ou no lugar de, os métodos citados acima. De fato, não se pretende que a presente invenção seja limitada a qualquer opção e/ou técnica de modelagem específica, pois qualquer método apropriado pode ser usado na presente invenção. Regressão Linear Bayesiana

[0267] Em algumas concretizações da presente invenção, a regressão linear bayesiana pode ser usada. Esse método é uma abordagem para a regressão linearna qual aanálise estatística é realizada no contexto da inferência bayesiana. Quando o modelo de regressão inclui erros que possuam uma distribuição normal, e se uma forma particular da distribuição anterior for presumida, as distribuições posteriores da probabilidade dos modelos do parâmetro poderão ser determinadas usando técnicas de inferência bayesiana.

[0268] Uma solução ordinária de mínimos quadrados de um modelo de regressão linear estima o vetor de coeficientes e os erros do modelo com base na função de probabilidade dos dados usando um método de cálculo analítico tal como a pseudo-inversa de Moore-Penrose. Essa é uma abordagem frequentista que presume que há suficientes observações de dados para representar a relação das atividades sequenciais com todas as sequências. Porém, as efetivas observações de uma amostra quase nunca são suficientes para representar todos os membros de uma população. Isso é especialmente problemático quando o tamanho da amostra (ou do conjunto de treinamento) é limitado. Na abordagem bayesiana, os dados da amostra são complementados por informações adicionais na forma de uma distribuição de probabilidade a priori. A crença anterior nos parâmetros é combinada à função de probabilidade dos dados de acordo com o teorema de Bayespara produzir a crença posterior com relação aos parâmetros. A crença anterior pode assumir diferentes formas funcionais dependendo do domínio e das informações que estão disponíveis a priori.

[0269] Por exemplo em algumas concretizações, a regressão bayesiana pode usar informações anteriorespara ponderar os coeficientes antes da adequação do modelo. Em algumas concretizações, os dados sobre sequências/atividades tomados de uma rodada anterior da evolução direcionada, e.g., uma rodada realizada usando a estrutura parental ou de referência e pelo menos algumas das mutações usadas nas rodadas anteriores, pode ser usada para ponderar os coeficientes lineares. Além disso, previsões da relação epistática entre duas ou mais mutações podem ser usadas para ponderar os coeficientes de interação não lineares. Uma das principais vantagens dessa abordagem é a inclusão de informações anteriores para direcionar as previsões dos modelos.

[0270] Um exemplo ilustrativo de uma fonte de informações anteriores é um modelo com termos independentes e de interação para cada uma das várias mutações de uma estrutura de referência. Em algumas concretizações, os dados são obtidos a partir de uma coleção de variantes que contenham uma mutação por variante.

[0271] Os exemplos adicionais de informações anteriores que podem ser usadas na presente invenção incluem, mas não se limitam a, informações intuitivas ou físicas sobre o papel de certas mutações ou tipos de mutações. Independente da fonte, as informações anteriores atuam como uma noção preconcebida da relação entre sequência e atividade.

[0272] Em algumas concretizações, para estimaros parâmetros de um modelo, a regressão linear bayesiana usa simulações de Monte Carlo tais como Amostragem de Gibbs ou algoritmos de Metropolispara adequar o modelo considerando os dados disponíveis. A Amostragem de Gibbs é um algoritmo de Monte Carlo em cadeias de Markovpara obter uma sequência de observações que seja aproximadamente baseada em uma distribuição específica de probabilidades multivariadas (i.e. a partir da distribuição de probabilidade conjunta de duas ou mais variáveis aleatórias), quando a amostragem direta for difícil.

[0273] A Figura 5 é um fluxograma ilustrando o uso da regressão bayesiana na evolução guiada de bibliotecas de variantes. Cada rodada da evolução sequencial inclui mutações baseadas nas sequências de uma rodada anterior, que podem ser guiadas por conhecimentos tais como um modelo de atividade sequencial. Na rodada n da evolução como observada no bloco 501, por exemplo, há uma mutação por variante. A próxima rodada de evolução, ou n+1, é a rodada atual, como mostrado no bloco 503. Há pelo menos uma nova mutação para cada variante, somando duas ou mais mutações por variante. A regressão bayesiana é implementada nessa rodada neste exemplo ilustrativo.

[0274] As variantes da sequência da rodada n+1 fornecem um conjunto de treinamento de dados para novos modelos. Os novos modelos podem compreender um modelo básico que só inclua termos lineares para resíduos individuais, ou um modelo completo contendo todos os possíveis termos/coeficientes de interação, como indicado no bloco 507. Os novos modelos também podem compreender um modelo selecionado através de várias técnicas, incluindo as técnicas de acréscimo ou subtração gradual explicadas acima, veja o bloco 505. O modelo pode alternativamente ser selecionado usando um algoritmo genético ou as técnicas de carga inicial conforme o discutido abaixo. Todos esses modelos se baseiam nos dados atuais/novos dos dados dos conjuntos de treinamento da rodada n+1. A técnica de inferência bayesiana pode ser aplicada a esses modelos, de tal modo que um modelo se baseie tanto na função de probabilidade dos dados atuais quanto na distribuição de informações anteriores. As informações anteriores podem vir de dados da rodada anterior de variantes da sequência, como na rodada n indicada pelo bloco 501. As informações também podem vir dos dados sobre atividades sequenciais de qualquer rodada anterior da evolução, ou de uma outraintuição anterior feita com base nos conhecimentos, como indicado pelo bloco 513. O modelo de regressão bayesiana indicado pelo bloco 509 prevê uma atividade baseada nas informações fornecidas por dados atuais e informações anteriores, veja o bloco 511. Embora a Figura 5 mostre apenas a aplicação datécnica de regressão bayesiana na rodada n+1, ela pode ser aplicada em vários estágios. Também não se pretende que a presente invenção seja limitada aos passos específicos mostrados na Figura 5, pois qualquer método apropriado pode ser usado na presente invenção. Regressão Conjunta

[0275] Em algumas concretizações, a presente invenção utiliza uma técnica de regressão conjunta para preparar o modelo de atividade sequencial. Um modelo de regressão conjunta se baseia nos inúmeros modelos de regressão. A previsão de cada modelo é ponderada com base em um critério de informação (CI) particular, e a previsão do conjunto é uma soma ponderada da previsão de todos os modelos que ele contém. Em algumas concretizações, o desenvolvimento dos modelos começa com um modelo básico contendo todos os termos lineares. Os modelos subsequentes são construídos acrescentando-se coeficientes de interação em algumas ou todas as possíveis combinações. Em algumas concretizações, os coeficientes de interação são acrescentados em um processo gradual. Cada modelo é adequado aos dados, e um CI é gerado. O peso de cada modelo se baseia em um CI, que pode ser o próprio CI, ou uma versão transformada dele, e.g., valor logarítmico, valor negado, etc. Previsões podem ser feitas para uma observação gerando-se a previsão de cada modelo no conjunto, e determinando a previsão conjunta tomando a média ponderada da previsão de cada modelo. Um conjunto completo contém todos os modelos possíveis, mas pode ser aparado para remover os modelos de desempenho insatisfatório através do estabelecimento de um limiar seja para o número de modelos que ele contém ou para oCI.

[0276] Os modelos constituintes do conjunto podem ser produzidos usando várias técnicas. Por exemplo, em algumas concretizações, o algoritmo genético é usado para criar os modelos constituintes. Dados sobre sequências/atividades são usados para produzir um grande número de modelos de regressão, cada um dos quais possui o seu próprio conjunto de coeficientes. Os melhores modelos são selecionados de acordo como critério de adequação (e.g., CIA ou CIB). Esses modelos são “cruzados” para produzir novos modelos híbridos que são então avaliados quanto à sua adequação, e selecionados do mesmo modo. Em algumas concretizações, esse processo é repetido em várias rodadas de “evolução computacional” para produzir um conjunto dos melhores modelos. Alternativamente, em algumas concretizações, os constituintes do conjunto são criados através de regressão gradual conforme o descrito acima, e os melhores n modelos são selecionados para formar um conjunto.

[0277] A Figura 6 fornece um fluxograma de um processo que implementa a regressão conjunta na evolução direcionada de variantes da sequência de acordo com uma concretização da presente invenção. Nessa concretização, a técnica de regressão conjunta pode ser aplicada em qualquer estágio das várias rodadas de evolução sequencial. Por exemplo, na rodada n, as variantes da sequência mostradas no bloco 601 fornecem um conjunto de treinamento dos dados para vários modelos para formar um conjunto de modelos como indicado pelo bloco 603. Os modelos do conjunto de modelos podem ser modelos gerados por um algoritmo genético e/ou seleção gradual. Em outras concretizações, o conjunto de modelos compreenden-vezes os modelos de validação cruzada e/ou modelos de carga inicial. Em algumas concretizações, apenas os modelos com maior poder preditivo são selecionados para serem inseridos no conjunto com base em vários critérios de seleção de modelos, tais como CIA ou CIB.

[0278] Alternativamente ou adicionalmente em algumas concretizações, os modelos que não foram triados através da seleção de modelos também são inseridos no conjunto de modelos. Em uma concretização, todos os modelos com todos os termos lineares e não lineares são inseridos no conjunto de modelos. Para um grande número de resíduos e um número muito maior de interações fatoriais entre resíduos, essa concretização pode ser muito intensiva em termos computacionais. Em algumas concretizações alternativas, apenas os modelos que contenham termos lineares e termos de interação pareados são inseridos no conjunto de modelos. Independente do método de inclusão do conjunto de modelos, um modelo conjunto inclui todos os termos dos seus constituintes. O conjunto de modelos pode conter qualquer número de modelos, incluindo, mas não se limitando a, modelos bayesianos, em cujo caso, informações anteriores podem ser incorporadas ao conjunto.

[0279] Em algumas concretizações, o conjunto prevê a atividade sequencial com base namédia ponderada dos coeficientes de cada modelo do conjunto, através do qual as ponderações são determinadas pelo poder preditivo dos correspondentes modelos, como indicado pelo bloco 605.

[0280] Em algumas concretizações, uma regressão conjunta usa o seguinte fluxo de trabalho: (1) fornecer um conjunto vazio; (2) selecionar um tamanho do grupo n de 1 ou superior; (3) categorizar os pontos de dados em grupos de tamanho n, onde os pontos de dados são agrupados sem substituição; e (4) preparar um modelo conjunto para preveros coeficientes individuais e de interação. Em algumas concretizações, o passo (4) para preparar um modelo conjunto também inclui: a) remover os pontos de dados de cada grupo, através do que os demais dados formam um conjunto de treinamento e os dados removidos formam um conjunto de validação; b) preparar um modelo adequando o conjunto de treinamento usando regressão gradual; c) testaro modelo usando o conjunto de validação, que fornece uma indicação da capacidade preditiva do modelo; d) acrescentar o modelo a um conjunto de modelos que são usados para gerar um modelo conjunto conforme o descrito acima. Abordagem de Carga Inicial

[0281] Outras técnicaspara caracterizar o poder preditivo de um modelo em consideração em uma dada iteração podem ser usadas na presente invenção. Em algumas concretizações, essas técnicas envolvem técnicas de validação cruzada ou carga inicial. Em algumas concretizações, a validação cruzada emprega um conjunto de observações usadas para gerar o modelo, mas deixa algumas das observações de fora para avaliar a força do modelo. Em algumas concretizações, a técnica de carga inicial envolve usar um conjunto de amostras que são testadas com substituição. Em algumas concretizações, os modelos gerados através de validação cruzada ou carga inicial podem ser combinados em um modelo conjunto conforme o descrito acima.

[0282] Em algumas outras concretizações, os métodos classificam resíduos não simplesmente segundo as magnitudes das suas contribuições previstas para a atividade, mas também segundo a confiança naquelas contribuições previstas. Em alguns casos, o pesquisador está interessado na generalizabilidade do modelo de um conjunto de dados para um outro conjunto. Em outras palavras, o pesquisador deseja saber se os valores dos coeficientes ou componentes principais são espúrios ou não. Técnicas de validação cruzada e carga inicial fornecem medidas para indicar onível de confiança com o qual os modelos são generalizáveis para vários dados.

[0283] Em algumas concretizações, uma abordagem estatisticamente mais rigorosa é utilizada na qual a classificação se baseia em uma combinação de magnitude e distribuição. Em algumas dessas concretizações, coeficientes tanto com altas magnitudes e estreitas distribuições proporcionam a maior classificação. Em alguns casos, um coeficiente com uma menor magnitude do que um outro pode receber uma classificação mais elevada devido ao fato de ter uma menor variação. Assim, algumas concretizações classificam resíduos de aminoácidos ou nucleotídeos com base tanto na magnitude quanto no desvio padrão ou na variância. Várias técnicas podem ser usadas para fazer isso. De fato, não se pretende que a presente invenção seja limitada a qualquer técnica de classificação específica. Uma concretização usando uma abordagem de valor p de carga inicial é descrita abaixo.

[0284] Um exemplo ilustrativo de um método que emprega um método de carga inicial é apresentado na Figura 7. Como mostrado na Figura 7, o método 725 começa no bloco 727, onde um conjunto de dados originais S é fornecido. Em algumas concretizações, trata-se de um conjunto de treinamento conforme o descrito acima. Por exemplo, em algumas concretizações, ele é gerado variando- se sistematicamenteos resíduos individuais de uma sequência inicial de qualquer maneira (e.g., conforme o descrito acima). No caso ilustrado pelo método 725, o conjunto de dados S possui M pontos de dados diferentes (informações sobre atividades e sequências coletadas a partir de sequências de aminoácidos ou nucleotídeos) para usar na análise.

[0285] A partir do conjunto de dadosS, vários conjuntos de cargas iniciais B são criados. Cada um desses conjuntos é obtido por amostragem, com substituição, a partir do conjunto S para criar um novo conjunto de membros M- todos tomados do conjunto original S. Veja o bloco 729. A condição “com substituição” produz variações do conjunto original S. O novo conjunto de cargas iniciais, B, às vezes pode conter amostras replicadas de S. Em alguns casos, o conjunto de cargas iniciais B também carece de certas amostras originalmente contidas em S.

[0286] Como exemplo ilustrativo, um conjunto S de 100 sequências é fornecido. Um conjunto de cargas iniciais B é criado selecionando-se aleatoriamente 100 sequências membros das 100 sequências do conjunto original S. Cada conjunto de cargas iniciais B usado no método contém 100 sequências. Assim, é possível que algumas sequências sejam selecionadas mais de uma vez, enquanto outras não serão absolutamente selecionadas. Usando o conjunto de cargas iniciais B produzido a partir do conjunto S de 100 sequências, o método a seguir constrói um modelo. Veja o bloco 731. O modelo pode ser construído conforme o descrito acima, usando PLS, PCR, um SVM, regressão gradual, etc. De fato, pretende- se que qualquer método apropriado possa ser usado para construir o modelo. Esse modelo fornece coeficientes ou outros indícios da classificação dos resíduos ou nucleotídeos encontrados nas várias amostras do conjuntoB. Como mostrado no bloco 733, esses coeficientes ou outros indícios são registrados para uso subsequente.

[0287] A seguir, em um bloco de decisões 735, o método determina se um outro conjunto de cargas iniciais deve ser criado. Se sim, o método retorna para o bloco 729 onde um novo conjunto de cargas iniciais B é criado conforme o descrito acima. Se não, o método prossegue para o bloco 737 discutido abaixo. A decisão no bloco 735 revela quantos conjuntos de valores diferentes dos coeficientes devem ser usados para avaliar as distribuições daqueles valores. O número de conjuntos B deve ser suficiente para gerar estatísticas precisas. Em algumas concretizações, de 100 a 1000 conjuntos de cargas iniciais são preparados e analisados. Isso é representado por cerca de 100 a 1000 passagens pelos blocos 729, 731, e 733 do método 725. Porém, não se pretende que a presente invenção seja limitada a qualquer número particular de conjuntos de cargas iniciais, pois qualquer número apropriado para a análise desejada pode ser usado.

[0288] Após um número suficiente de conjuntos de cargas iniciais B ter sido preparado e analisado, a decisão 735 obtém uma resposta negativa. Como indicado acima, o método então prossegue para obloco 737. Ali, uma média e um desvio padrão de um coeficiente (ou outro indicador gerado pelo modelo) são calculados para cada resíduo ou nucleotídeo (incluindo códons) usando os valores dos coeficientes (e.g., valores de 100 a 1000, um de cada conjunto de cargas iniciais). Com base nessas informações, o método pode calcular a estatística t e determinar o intervalo de confiança no qual o valor mensurado é diferente de zero. Com base na estatística t, ele calcula o valor p para o intervalo de confiança. Nesse caso ilustrativo, quanto menor o valor p, maior a confiança de que o coeficiente de regressão mensurado é diferente de zero.

[0289] Observa-se que o valor p é apenas um dos muitos diferentes tipos de caracterizações que podem dar conta da variação estatística em um coeficiente ou outro indicador da importância dos resíduos. Os exemplos incluem, mas não se limitam a, calcular intervalos de confiança de 95 por cento para os coeficientes de regressão e não levar nenhum coeficiente de regressão em consideração para o qual o intervalo de confiança de 95 por cento cruze a linha zero. Basicamente, em algumas concretizações, qualquer caracterização que represente o desvio padrão, a variância, ou outra medida estatisticamente relevante da distribuição dos dados, pode ser usada. Em algumas concretizações, esse passo da caracterização também representa a magnitude dos coeficientes.

[0290] Em algumas concretizações, o resultado é um grande desvio padrão. Esse grande desvio padrão pode se dever a várias causas, incluindo mas não limitando-se a, mensurações insatisfatórias no conjunto de dados, e/ou representação limitada de um resíduo ou nucleotídeo em particular no conjunto de dados originais. Nesse último caso, alguns conjuntos de cargas iniciais não conterão nenhuma ocorrência de um resíduo ou nucleotídeo em particular. Em tais casos, o valor do coeficiente para aquele resíduo será zero. Outros conjuntos de cargas iniciais conterão pelo menos algumas ocorrências do resíduo ou nucleotídeo e gerarão um valor diferente de zero para o correspondente coeficiente. Mas os conjuntos que produzirem zero um valor farão com que o desvio padrão do coeficiente se torne relativamente grande. Isso reduz a confiança no valor dos coeficientes e resulta em uma classificação menor. Mas é esperado que isso ocorra, dado que há relativamente poucos dados no resíduo ou nucleotídeo envolvido.

[0291] A seguir, em um bloco 739, o método classifica os coeficientes de regressão (ou outros indicadores) do menor (melhor) valor p ao maior (pior) valor p. Essa classificação correlaciona-se altamente com o valor absoluto dos próprios coeficientes de regressão, devido ao fato de quanto maior for o valor absoluto, mais desvios padrão são removidos do zero. Assim, para um dado desvio padrão, o valor p se torna menor conforme o coeficiente de regressão se torna maior. Porém, a classificação absoluta nem sempre será a mesma tanto com o valor p quanto com os métodos de magnitudes puras, especialmente quando um número relativamente pequeno de pontos de dados estiver disponível para iniciar o processo no conjunto S.

[0292] Finalmente, como mostrado no bloco 741, o método fixa e alterna certos resíduos, com base nas classificações observadas na operaçãodo bloco 739. Esse é essencialmente o mesmo uso das classificações descrito acima para outras concretizações. Em uma abordagem, o método fixa os melhores resíduos (agora aqueles com os menores valores p) e alterna os outros (aqueles com maiores valores p).

[0293] Esse método 725 apresentou um bom desempenho in silico. Além disso, em algumas concretizações, aabordagem de classificação do valor p lida naturalmente com um único ou poucos exemplos de resíduos: os valores p serão geralmente maiores (piores) porque no processo de carga inicial, aqueles resíduos que não surgiram de forma geral no conjunto de dados originaisterão uma menor probabilidade de serem escolhidos de forma aleatória. Mesmo que seus coeficientes sejam grandes, sua variabilidade (mensurada em termos de desvios padrão) também será consideravelmente alta. Em algumas concretizações, esse é o resultado desejado, pois aqueles resíduos que não forem bem representados (i.e., ou não foram encontrados com suficiente frequência ou possuem menores coeficientes de regressão) poderão ser bons candidatos para alternância na próxima rodada de design da biblioteca. E. GERANDO UMA BIBLIOTECA OTIMIZADA DE PROTEÍNAS VARIANTES ATRAVÉS DA MODIFICAÇÃO DAS SEQUÊNCIAS PREVISTAS PELOS MODELOS

[0294] Um dos objetivos da invenção é gerar uma biblioteca otimizada de proteínas variantes através de evolução direcionada. Algumas concretizações da invenção fornecem métodos para orientar a evolução direcionada de proteínas variantes usando os modelos de atividade sequencial gerados. Os vários modelos de atividades sequenciais preparados e refinados de acordo com os métodos descritos acima são apropriados para orientar a evolução direcionada de proteínas ou moléculas biológicas. Como parte do processo, os métodos podem identificar as sequências que devem ser usadas para gerar uma nova biblioteca de proteínas variantes. Tais sequências incluem variações dos resíduos identificados e definidos acima, ou são precursoras usadas para subsequentemente introduzir tais variações. As sequências poderão ser modificadas executando-se mutagênese ou um mecanismo de geração de diversidade baseado na recombinação para gerar a nova biblioteca de proteínas variantes. A nova biblioteca também poderá ser usada para desenvolver um novo modelo de atividade sequencial.

[0295] Em algumas concretizações, a preparação de sequências de oligonucleotídeos ou ácidos nucleicos é obtida através da síntese das sequências de oligonucleotídeos ou ácidos nucleicos usando um sintetizador de ácidos nucleicos. Algumas concretizações da invenção incluem executar uma rodada de evolução direcionada usando as sequências de oligonucleotídeos ou de proteínas preparadas como blocos construtores para a evolução direcionada. Várias concretizações da invenção podem aplicar recombinação e/ou mutagênese a esses blocos construtorespara gerar diversidade.

[0296] Como exemplo específico, algumas concretizações aplicam técnicas de recombinação para os oligonucleotídeos. Nessas concretizações, os métodos envolvem selecionar uma ou mais mutações para uma rodada de evolução direcionada avaliando os coeficientes dos termos do modelo de atividade sequencial. As mutações são selecionadas a partir de combinações de aminoácidos ou nucleotídeos definidos de tipos específicos emposições específicas com base nas suas contribuições para a atividade das proteínas conforme o previsto pelos modelos. Em algumas concretizações, a seleção de mutações envolve identificar um ou mais coeficientes que sejam determinados como maiores do que outros dos coeficientes, e selecionar o aminoácido ou nucleotídeo definido em uma posição definida representada por um ou mais coeficientes assim identificados. Em algumas concretizações, após selecionar mutações de acordo com os modelos de atividade sequencial, os métodos envolvem preparar um grande número de oligonucleotídeos contendo ou codificando uma ou mais mutações, e executar uma rodada de evolução direcionada usando os oligonucleotídeos preparados. Em algumas concretizações, as técnicas de evolução direcionada envolvem combinar e/ou recombinar os oligonucleotídeos.

[0297] Outras concretizações da invenção aplicam técnicas de recombinação às sequências de proteínas. Em algumas concretizações, os métodos envolvem identificar uma nova proteína ou uma nova sequência de ácidos nucleicos, e preparar e testar a nova proteína ou uma proteína codificada pela nova sequência de ácidos nucleicos. Em algumas concretizações, os métodos também envolvem usara nova proteína ou a proteína codificada pela nova sequência de ácidos nucleicos como ponto de partida para mais rodadas de evolução direcionada. Em algumas concretizações, o processo de evolução direcionada envolve fragmentar e recombinar a sequência de proteínas prevista pelo modelo que possua um nível de atividade desejado.

[0298] Em algumas concretizações, os métodos identificam e/ou preparam uma nova proteína ou uma nova sequência de ácidos nucleicos com base nas mutações individuais previstas como sendo importantes pelo modelo. Esses métodos envolvem: selecionar uma ou mais mutações avaliando os coeficientes dos termos do modelo de atividade sequencial para identificar um ou mais dos aminoácidos ou nucleotídeos definidos nas posições definidas que contribuem para a atividade; identificar uma nova proteína ou uma nova sequência de ácidos nucleicos compreendendo uma ou mais das mutações selecionadas acima, e preparar e testar a nova proteína ou uma proteína codificada pela nova sequência de ácidos nucleicos.

[0299] Em outras concretizações, os métodos identificam e/ou preparam uma nova proteína ou uma nova sequência de ácidos nucleicoscom base na atividade prevista de toda uma sequência no lugar das mutações individuais. Em algumas dessas concretizações, os métodos envolvem aplicar várias sequências de proteínas ou várias sequências de aminoácidos ao modelo de atividade sequencial e determinar os valores das atividades previstas pelo modelo de atividade sequencial para cada uma das várias sequências de proteínas ou sequências de ácidos nucleicos. Os métodos também envolvem selecionar uma nova sequência de proteínas ou uma nova sequência de ácidos nucleicos dentre as várias sequências de proteínas ou várias sequências de aminoácidos aplicadas acima avaliando os valores das atividades previstas pelo modelo de atividade sequencial para as várias sequências. Os métodos também envolvem preparar e testar uma proteína que possua a nova sequência de proteínas ou uma proteína codificada pela nova sequência de ácidos nucleicos.

[0300] Em algumas concretizações, no lugar de simplesmente sintetizar uma única proteína melhor prevista, uma biblioteca combinatória de proteínas é gerada com base em uma análise da sensibilidade das melhores modificações nas opções de resíduos em cada ponto da proteína. Nessa concretização, quanto mais sensível uma dada opção de resíduo for para a proteína prevista, maior será a modificação da adequação prevista. Em algumas concretizações essas sensibilidades vão da maior ao menor e as pontuações de sensibilidade são usadas para criar bibliotecas combinatórias de proteínas nas rodadas subsequentes (i.e., incorporando aqueles resíduos com base na sensibilidade). Em algumas concretizações, nas quais um modelo linear é usado, a sensibilidade é identificada simplesmente considerando o tamanho dos coeficientes associados a um dado termo do resíduo no modelo. Porém, isso não é possível para os modelos não lineares. No lugar disso, nas concretizações que utilizam modelos não lineares, a sensibilidade do resíduo é determinada através do uso do modelo para calcular as modificações da atividade quando um único resíduoé variado na “melhor” sequência prevista.

[0301] Algumas concretizações da invenção incluem selecionar uma ou mais posições na sequência de proteínas ou na sequência de ácidos nucleicos e realizar mutagênese por saturação em uma ou mais posições assim identificadas. Em algumas concretizações, as posições são selecionadas avaliando os coeficientes dos termos do modelo de atividade sequencial para identificar um ou mais dos aminoácidos ou nucleotídeos definidos nas posições definidas que contribuem para a atividade. Do mesmo modo, em algumas concretizações, uma rodada de evolução direcionada inclui executar mutagênese por saturação em uma sequência de proteínas nas posições selecionadas usando os modelos de atividade sequencial. Em algumas concretizações envolvendo modelos que compreendam um ou mais termos de interação, os métodos envolvem aplicar mutagênese simultaneamente em dois ou mais resíduos interativos.

[0302] Em algumas concretizações, os resíduossão levados em consideração na ordem na qual eles são classificados. Em algumas concretizações, para cada resíduo em consideração, o processo determina “alternar” ou não aquele resíduo. O termo “alternância” refere-se à introdução de vários tipos de resíduos de aminoácidos em uma posição específicanas sequências de variantes de proteínasna biblioteca otimizada. Por exemplo, serina pode aparecerna posição 166 em uma proteína variante, enquanto quefenilalanina podeaparecerna posição 166 em uma outra proteína varianten a mesma biblioteca. Os resíduos de amino ácidos que não variam entre sequências de proteínas variantes no conjunto de treinamento costumam permanecer fixos na biblioteca otimizada. Porém, esse não é sempre o caso, pois pode haver variação nas bibliotecas otimizadas.

[0303] Em algumas concretizações, uma biblioteca otimizada de proteínas variantes é projetada de tal forma que todos os resíduos dos coeficientes de regressão identificados com classificação “alta” são fixos, e os demais resíduos dos coeficientes de regressão com classificação mais baixa são alternados. A lógica por trás dessa concretização é que o espaço local em torno da ‘melhor’ proteína prevista deve ser procurado. Observa-se que a“estrutura” de ponto de partida na qual as alternâncias são introduzidas pode ser a melhor proteína prevista por um modelo e/ou uma ‘melhor’ proteína já validada a partir de uma biblioteca triada. De fato, não se pretende que a estrutura de ponto de partida seja limitada a qualquer proteína em particular.

[0304] Em uma concretização alternativa, pelo menos um ou mais, mas não todos os resíduos dos coeficientes de regressão identificados com uma classificação elevada são fixos na biblioteca otimizada, e os outros alternados. Essa abordagem é recomendada em algumas concretizações, se houver um desejo de não modificar drasticamente o contexto dos outros resíduos de aminoácidos incorporando modificações demais por vez. Novamente, o ponto de partida para a alternância poderá ser o melhor conjunto de resíduos conforme o previsto pelo modelo, uma melhor proteína validada de uma biblioteca já existente, ou um clone “médio” que possa ser bem modelado. Neste último caso, talvez seja desejável alternar os resíduos previstos como de maior importância, pois um espaço maior deve ser explorado na busca dos picos de atividade previamente omitidos da amostragem. Esse tipo de biblioteca costuma ser mais relevante nas rodadas iniciais da produção de bibliotecas, pois ela gera uma imagem mais refinada para as rodadas subsequentes. Também não se pretende que a estrutura de ponto de partida seja limitada a qualquer proteína em particular.

[0305] Algumas alternativas para as concretizações citadas acima envolvem diferentes procedimentos para usar a importância dos resíduos (classificações) ao determinar quais resíduos devem ser alternados. Em uma tal concretização alternativa, as posições dos resíduos melhor classificadas são mais favorecidas agressivamente quanto à alternância. As informações necessárias nessa abordagem incluem a sequência de uma melhor proteína do conjunto de treinamento, uma melhor sequência prevista de PLS ou PCR, e uma classificação de resíduos a partir do modelo PLS ou PCR. A“ melhor” proteína é um “melhor” clone validado em laboratório experimental a partir do conjunto de dados (i.e., o clone com a maior função mensurada que ainda possa ser bem modelado na medida em que caia relativamente próximo do valor previsto na validação cruzada). O método compara cada resíduo dessa proteína com o correspondente resíduo de uma “melhor sequência prevista” que possua o maior valor da atividade desejada. Se o resíduo com a maior carga ou coeficiente de regressão não estiver presente no ‘melhor’ clone, o método introduzirá aquela posição como uma posição de alternância para a biblioteca subsequente. Se o resíduo estiver presente no melhor clone, o método não tratará a posição como uma posição de alternância, e ele passará para a próxima posição, e assim sucessivamente. O processo é repetido para vários resíduos, passando sucessivamente pelos menores valores de carga, até que uma biblioteca de tamanho suficiente seja gerada.

[0306] Em algumas concretizações, o número de resíduos dos coeficientes de regressão a serem retidos, e o número de resíduos dos coeficientes de regressão a serem alternados, são variados. A determinação de quais resíduos alternar e quais reter se baseia nos vários fatores incluindo, mas não se limitando a, o tamanho desejado da biblioteca, a magnitude da diferença entre os coeficientes de regressão, e o grau em que a não linearidade é considerada como existente. A retenção de resíduos com coeficientes pequenos (neutros) pode revelar importantes não linearidades nas rodadas subsequentes da evolução. Em algumas concretizações, bibliotecas otimizadas de proteínas variantes contêm cerca de 2N variantes de proteínas, onde N representa o número de posições que são alternadas entre dois resíduos. Falando de outro modo, a diversidade acrescentada por cada alternância adicional dobra o tamanho da biblioteca de tal modo que 10 posições alternadas produzem ~ 1.000 clones (1.024), 13 posições ~ 10.000 clones (8.192) e 20 posições ~1.000.000 clones (1.048.576). O tamanho apropriado da biblioteca depende de fatores tais como custo da triagem, robustez docenário, amostragem percentual preferencial do espaço, etc. Em alguns casos, foi observado que um número relativamente grande de resíduos modificados produz uma biblioteca na qual um percentual excessivamente grande de clones não é funcional. Portanto, em algumas concretizações, o número de resíduos disponíveis para alternância varia de cerca de 2 a cerca de 30; i.e., o tamanho da biblioteca varia entre cerca de 4 e 230 ~ 109 clones.

[0307] Além disso, contempla-se que várias estratégias subsequentes para a biblioteca da rodada sejam utilizadas simultaneamente, com algumas estratégias sendo mais agressivas (fixando resíduos mais “benéficos”) e outras estratégias sendo mais conservadoras (fixando resíduos menos “benéficos” com o objetivo de explorar o espaço mais minuciosamente).

[0308] Em algumas concretizações, grupos ou resíduos ou “motivos” que ocorrem nos peptídeos de ocorrência mais natural ou de qualquer outro modo mais bem-sucedidos são identificados e/ou preservados, pois eles podem ser importantes para a funcionalidade da proteína (e.g., atividade, estabilidade, etc.). Por exemplo, podemos descobrir que Ile na posição variável 3 é sempre acoplada com Val na posição variável 11 nos peptídeos de ocorrência natural. Logo, em uma concretização, a preservação de tais grupos é necessária em qualquer estratégia de alternância. Em outras palavras, as únicas alternâncias aceitas são aquelas que preservam um agrupamento em particular na proteína básica ou aquelas que geram um agrupamento diferente que também é encontrado em proteínas ativas. Nesse último caso é necessário alternar dois ou mais resíduos.

[0309] Em algumas outras concretizações, uma proteína ‘melhor’ (ou uma das poucas melhores) validada em laboratório experimental da atual biblioteca otimizada (i.e., uma proteína com a maior, ou uma das poucas maiores, função mensurada que ainda possa ser bem modelada, i.e., caia relativamente próxima do valor previsto na validação cruzada) atua como uma estruturana qual várias modificações são incorporadas. Em uma outra abordagem, uma proteína ‘melhor’ (ou uma das poucas melhores) validada em laboratório experimental da biblioteca atual que talvez não possa ser bem modelada atua como uma estrutura onde várias modificações são incorporadas. Em algumas outras abordagens, uma sequência prevista pelo modelo de atividade sequencial como tendo o maior valor (ou um dos maiores valores) para a atividade desejada atua como estrutura. Nessas abordagens, o conjunto de dados para a biblioteca “da próxima geração” (e possivelmente um modelo correspondente) é obtido modificando os resíduos em uma ou algumas poucas das melhores proteínas. Em uma concretização, essas modificações compreendem uma variação sistemática dos resíduos na estrutura. Em alguns casos, as modificações compreendem várias técnicas de mutagênese, recombinação e/ou seleção de subsequências. Cada uma delas pode ser realizada in vitro, in vivo, e/ou in silico. De fato, não se pretende que a presente invenção seja limitada a qualquer formato em particular, pois qualquer formato apropriado pode ser usado.

[0310] Em algumas concretizações, embora a sequência ótima prevista por um modelo linear possa ser identificada através de inspeção conforme o descrito acima, o mesmo não é verdadeiro para os modelos não lineares. Certos resíduos aparecem tanto nos termos lineares quanto nos termos dos produtos cruzados, e seu efeito geral sobre a atividade no contexto de muitas combinações possíveis de outros resíduos pode ser problemático. Assim, como ocorre com a seleção de termos de produtos cruzados para um modelo não linear, a sequência ótima prevista por um modelo não linear pode ser identificada testando todas as sequências possíveis com o modelo (presumindo que haja suficientes recursos computacionais) ou utilizando um algoritmo de busca tal como um algoritmo gradual.

[0311] Em algumas concretizações, as informações contidas nas proteínas evoluídas em computador identificadas conforme o descrito acima são usadas para sintetizar proteínas novas e testá-las em ensaios físicos. Uma representação in silico precisa da efetiva função de adequação determinada em laboratório experimental permite que pesquisadores reduzam o número de ciclos de evolução e/ou o número variantes necessárias a serem triadas no laboratório. Em algumas concretizações, bibliotecas otimizadas de proteínas variantes são geradas usando os métodos de recombinação descritos na presente invenção, ou alternativamente, através de métodos de síntese de genes, seguidos de expressão in vivo ou in vitro. Em algumas concretizações, após as bibliotecas otimizadas de proteínas variantes serem triadas quanto à atividade desejada, elas são sequenciadas. Como indicado acima na discussão das Figuras 1 e 2, as informações sobre atividades e sequências da biblioteca otimizada de proteínas variantes podem ser empregadas para gerarum outro modelo de atividade sequencial a partir do qual uma outra biblioteca otimizada pode ser projetada, usando os métodos descritos na presente invenção. Em uma concretização, todas as proteínas dessa nova biblioteca são usadas como parte do conjunto de dados.

III. APARATOS E SISTEMAS DIGITAIS

[0312] Como deve ter ficado claro, as concretizações descritas na presente invenção empregam processos que atuam sob controle de instruções e/ou dados armazenados em ou transferidos através de um ou mais sistemas de computação. As concretizações divulgadas na presente invenção também se relacionam com o aparato usado para executar essas operações. Em algumas concretizações, o aparato é projetado e/ou construído especialmente para os fins requeridos, ou pode ser um computador de uso geral seletivamente ativado ou reconfigurado por um programa de computador e/ou estrutura de dados armazenada no computador. Os processos estabelecidos pela presente invenção não são inerentemente associados a qualquer computador em particular ou outro aparato específico. Em particular, várias máquinas de uso geral podem ser usadas com programas escritos de acordo com os ensinamentos contidos na presente invenção. Porém, em algumas concretizações, um aparato especializado é construído para realizar as operações requeridas pelo método. Uma concretização de uma estrutura particular para várias dessas máquinas é descrita abaixo.

[0313] Além disso, certas concretizações da presente invenção relacionam-se a mídias registradas em suporte informático ou produtos de programas de computador que incluem instruções para os programas e/ou dados (incluindo estruturas de dados) para executar várias operações implementadas por computador. Os exemplos de mídias registradas em suporte informático incluem, mas não limitam-se a, mídias magnéticas tais como discos rígidos, disquetes, fita magnética; mídias óticas tais como dispositivos CD-ROM e dispositivos holográficos; mídias magneto-óticas; dispositivos semicondutores para memória; e dispositivos de hardware que são especialmente configurados para armazenar e executar instruções para os programas, tais como dispositivos de memória somente de leitura (ROM) e de memória de acesso aleatório (RAM),circuitos integrados de aplicação específica (ASICs), e dispositivos lógicos programáveis (PLDs). Os dados e instruções para os programas também podem ser incorporados a uma onda portadora ou outro meio de transporte (e.g., linhas óticas, linhas elétricas, e/ou ondas sonoras). De fato, não se pretende que a presente invenção seja limitada a qualquer mídia registrada em suporte informático em particular ou qualquer outro produto de programa de computador que inclua instruções e/ou dados para executar operações implementadas em computador.

[0314] Os exemplos de instruções para os programas incluem, mas não se limitam a, códigos de nível inferior tais como os produzidos por um compilador, e arquivos contendo códigos de nível superior que possam ser executados pelo computador usando um intérprete. Além disso, as instruções para os programas incluem, mas não se limitam a, código de máquina, códigos de fonte e qualquer outro código que direta ou indiretamente controle a operação de uma máquina computacional de acordo com a presente invenção. O código pode especificar os dados de entrada, resultados, cálculos, condicionantes, ramificações, circuitos iterativos, etc.

[0315] Em um exemplo ilustrativo, um código incorporando os métodos divulgados na presente invenção são incorporados a uma mídia fixa ou componente de programa transmissível contendo instruções e/ou dados lógicos que quando carregados em um dispositivo computacional devidamente configurado faz com que o dispositivo execute uma operação genética (OG) simulada em uma ou mais cadeia(s) de caracteres. A Figura 8 mostra um exemplo de dispositivo digital 800 que é um aparato lógico que pode ler instruções a partir de mídias 817, porta de rede 819, teclado para inserção de dados pelo usuário 809, inserção de dados pelo usuário 811, ou outros meios de inserção de dados. O aparato 800 poderá a partir de então usar aquelas instruções para direcionar operações estatísticas no espaço dos dados, e.g., para construir um ou mais conjuntos de dados (e.g., para determinar um grande número de membros representativos do espaço dos dados). Um tipo de aparato lógico que pode incorporar as concretizações divulgadas é um sistema de computação como observado no sistema de computação 800 compreendendo CPU 807, teclado opcional para inserção de dados pelo usuário 809, e dispositivo de apontamento GUI 811, assim como componentes periféricos tais como unidades de disco 815 e monitor 805 (que exibe cadeias de caracteres modificadas por OG e permite a seleção simplificada de subconjuntos de tais cadeias de caracteres por um usuário. Mídias fixas 817 são usadas opcionalmente para programar o sistema como um todo e podem incluir, e.g., uma mídia ótica ou magnética tipo disco ou outro elemento de armazenamento eletrônico de memória. A porta de comunicação 819 pode ser usada para programar o sistema e pode representar qualquer tipo de conexão de comunicação.

[0316] Em algumas concretizações, a invenção estabelece um sistema de computação incluindo um ou mais processadores; memória do sistema; e uma ou mais mídias de armazenamento registradas em suporte informático que tenham armazenado a partir de então instruções executáveis em computadores e que, quando executadas por um ou mais processadores, fazem com que o sistema de computação implemente um método para realizar a evolução direcionada de moléculas biológicas. Em algumas concretizações, o método inclui:(a) receber dados sobre sequências e atividades para um grande número de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, através do qual o modelo básico preveja a atividade como função da presença ou ausência de subunidadesda sequência; (c) preparar pelo menos um novo modelo através do acréscimo ou subtração depelo menos um novo termo de interação com ou a partir do modelo básico, através do qualo novo termo de interação represente a interação entre duas ou mais subunidades interativas; (d) determinar a capacidade depelo menosum novo modelo de prever a atividade como função da presença ou ausência de subunidades; e (e) determinar se seria necessário acrescentar ou subtrair o novo termo de interação com ou a partir do modelo básico com base na capacidade de pelo menos um novo modelo de prever a atividade conforme determinada em (d) e com um viés contra a inclusão determos de interação adicionais.

[0317] Certas concretizações também podem ser incorporadas no circuito de um circuito integrado de aplicação específica (ASIC) ou dispositivo lógico programável (PLD). Em tal caso, as concretizações são implementadas em uma linguagem descritiva registrada em suporte informático que pode ser usada para criar um ASIC ou PLD.Algumas concretizações da presente invenção são implementadas no circuito ou nos processadores lógicos de uma ampla variedade de outros aparatos digitais, tais como PDAs, sistemas de computação em laptop, telas, equipamentos para edição de imagens, etc.

[0318] Em algumas concretizações, a presente invenção relaciona-se com o produto de um programa de computador compreendendo uma ou mais mídias de armazenamento registradas em suporte informático que tenham armazenado a partir de então instruções executáveis em computadores que, quando executadas por um ou mais processadores de um sistema de computação, faz com que o sistema de computação implemente um método para identificar moléculas biológicaspara afetar uma atividade desejada. Tal método pode ser qualquer método descrito na presente invenção tal como aqueles mostrados nas Figuras e no pseudocódigo. Em algumas concretizações, o método recebe dados sobre sequências e atividades para um grande número de moléculas biológicas, e prepara um modelo básico e um modelo melhora partir dos dados sobre sequências e atividades. Em algumas concretizações, o modelo prevê a atividade como função da presença ou ausência de subunidades da sequência.

[0319] Em algumas concretizações da presente invenção, o método implementado pelo produto do programa de computador prepara pelo menos um novo modelo através do acréscimo ou subtração de pelo menos um novo termo de interação com ou a partir do modelo básico, através do qualo novo termo de interação representa a interação entre duas ou mais subunidades interativas. Em algumas concretizações, o método determina a capacidade de pelo menos um novo modelo de prever a atividade como função da presença ou ausência de subunidades. O método também determina se seria necessário acrescentar ou subtrairo novo termo de interação com ou a partir do modelo básico com base na capacidade de pelo menos um novo modelo de prever a atividade conforme o determinado acima e com um viés contra a inclusão determos de interação adicionais.

[0320] Embora o estabelecido acima tenha sido descrito com algum detalhe para fins de clareza e compreensão, ficará claro para uma pessoa que domina a tecnologia existente a partir de uma leitura desta invenção que várias modificações em termos de forma e detalhe podem ser feitas sem fugir do verdadeiro escopo da presente invenção. Por exemplo, todas as técnicas e aparatos descritos acima podem ser usados em várias combinações. Todas as publicações, patentes, pedidos de patente, ou outros documentos citados neste pedido são incorporados por referência na sua integralidade para todos os fins e na mesma medida como se cada publicação, patente, pedido de patente, ou outro documento individual fosse indicado individualmente para ser incorporado por referência para todos os devidos fins.

Claims

1. MÉTODO IMPLEMENTADO POR COMPUTADOR PARA IDENTIFICAR MOLÉCULAS BIOLÓGICAS TENDO UMA ATIVIDADE DESEJADA, caracterizado por compreender: (a) receber dados sobre sequências e atividades para uma pluralidade de moléculas biológicas; (b) preparar um modelo básico a partir dos dados sobre sequências e atividades, em que o modelo básico preveja uma atividade como uma função da presença ou ausência de subunidades de uma sequência, e em que o modelo básico inclui um ou mais termos lineares mas nenhum termo de interação; (c) preparar uma pluralidade de novos modelos, em que cada novo modelo é obtido acrescendo ao modelo básico um termo de interação diferente em um pool definido de termos de interação; (d) calcular um valor estatístico para cada modelo de uma pluralidade de novos modelos, em que o valor estatístico indica uma capacidade de um modelo de predizer a atividade como uma função da presença ou ausência de subunidades; (e) identificar pelo menos um melhor modelo dentre a pluralidade de novos modelos baseado no valor estatístico de cada modelo da pluralidade de novos modelos; (f) repetir (c) - (e) uma ou mais iterações usando o pelo menos um melhor modelo em uma iteração como o modelo básico em uma próxima iteração; e (g) identificar, usando o pelo menos um melhor modelo, uma ou mais moléculas biológicas para ser produzida ou modificada.

2. MÉTODO IMPLEMENTADO POR COMPUTADOR PARA IDENTIFICAR MOLÉCULAS BIOLÓGICAS TENDO UMA ATIVIDADE DESEJADA, caracterizado por compreender: (a) receber dados sobre sequências e atividades para uma pluralidade de moléculas biológicas; (b) preparar um modelo básico a partir dos dados sobre sequências e atividades, em que o modelo básico preveja uma atividade como uma função da presença ou ausência de subunidades de uma sequência, e em que o modelo básico inclui um ou mais termos lineares e um pool de termos de interação definido; (c) preparar uma pluralidade de novos modelos, em que cada novo modelo é obtido substraindo do modelo básico um termo de interação diferente de um pool definido de termos de interação; (d) calcular um valor estatístico para cada modelo de uma pluralidade de novos modelos, em que o valor estatístico indica uma capacidade de um modelo de predizer a atividade como uma função da presença ou ausência de subunidades; (e) identificar pelo menos um melhor modelo dentre a pluralidade de novos modelos baseado no valor estatístico de cada modelo da pluralidade de novos modelos; (f) repetir (c) - (e) uma ou mais iterações usando o pelo menos um melhor modelo em uma iteração como modelo básico em uma próxima iteração; e (g) identificar, usando o pelo menos um melhor modelo, uma ou mais moléculas biológicas para ser produzida ou modificada.

3. MÉTODO, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato da preparação de uma pluralidade de novos modelos em (c) compreender o uso de informações anteriores relacionadas à sequência ou à atividade para determinar as distribuições de probabilidades posteriores de coeficientes dos termos lineares ou termos de interação do novo modelo.

4. MÉTODO, de acordo com a reivindicação 3, caracterizado pelo fato da preparação de uma pluralidade de novos modelos compreender o uso da amostragem de Gibbs para adequar um modelo aos dados sobre sequências e atividades.

5. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato de pelo menos um melhor modelo compreender dois ou mais melhores modelos, cada um dos quais incluindo diferentes termos de interação.

6. MÉTODO, de acordo com a reivindicação 5, caracterizado por também compreender o preparo de um modelo conjunto com base em dois ou mais melhores modelos, onde o modelo conjunto inclua termos de interação de dois ou mais melhores modelos, e os termos de interação sejam ponderados pela capacidade de dois ou mais melhores modelos de prever a atividade conforme determinada em (d).

7. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato do valor estatístico compreender Critério de Informação de Akaike ou Critério de Informação Bayesiano.

8. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato da sequência ser um genoma inteiro, um cromossomo inteiro, o segmento de um cromossomo, uma coleção de sequências genéticas para genes interativos, gene ou proteína.

9. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato das subunidades serem cromossomos, segmentos de cromossomos, haplótipos, genes, nucleotídeos, códons, mutações, aminoácidos ou resíduos.

10. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo fato da pluralidade de moléculas biológicas constituírem um conjunto de treinamento de uma biblioteca de proteínas variantes.

11. MEIO DE ARMAZENAMENTO LIDO POR COMPUTADOR, caracterizado por compreender instruções que fazem com que o sistema de computação implemente um método para identificar moléculas biológicas para afetar uma atividade desejada, o método compreendendo: (a) receber dados sobre sequências e atividades para uma pluralidade de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, em que o modelo básico preveja uma atividade como uma função da presença ou ausência de subunidades da sequência, e em que o modelo básico inclua um ou mais termos lineares mas nenhum termo de interação; (c) preparar uma pluralidade de novos modelos, em que cada novo modelo é obtido acrescendo ao modelo básico um termo de interação diferente em um pool definido de termos de interação; (d) calcular um valor estatístico para cada modelo de uma pluralidade de novos modelos, em que o valor estatístico indica uma capacidade de um modelo de predizer a atividade como uma função da presença ou ausência de subunidades; (e) identificar pelo menos um melhor modelo dentre a pluralidade de novos modelos baseado no valor estatístico de cada modelo da pluralidade de novos modelos; (f) repetir (c) - (e) uma ou mais iterações usando o pelo menos um melhor modelo em uma iteração como modelo básico em uma próxima iteração; e (g) identificar, usando o pelo menos um melhor modelo, uma ou mais moléculas biológicas para ser produzida ou modificada.

12. SISTEMA DE COMPUTAÇÃO, caracterizado por compreender: um ou mais processadores; memória do sistema; e uma ou mais mídias de armazenamento não transitório registradas em suporte informático que tenham armazenado sobre ele instruções executáveis em computador que, quando executadas por um ou mais processadores, fazem com que o sistema de computação implemente um método para realizar a evolução direcionada de moléculas biológicas, o método compreendendo: (a) receber dados sobre sequências e atividades para uma pluralidade de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, através do qual o modelo básico preveja uma atividade como uma função da presença ou ausência de subunidades de uma sequência, e em que o modelo básico inclua um ou mais termos lineares mas nenhum termo de interação; (c) preparar uma pluralidade de novos modelos, em que cada novo modelo é obtido acrescendo ao modelo básico um termo de interação diferente em um pool definido de termos de interação; (d) calcular um valor estatístico para cada modelo de uma pluralidade de novos modelos, em que o valor estatístico indica uma capacidade de um modelo de predizer a atividade como uma função da presença ou ausência de subunidades; (e) identificar pelo menos um melhor modelo dentre a pluralidade de novos modelos baseado no valor estatístico de cada modelo da pluralidade de novos modelos; (f) repetir (c) - (e) uma ou mais iterações usando o pelo menos um melhor modelo em uma iteração como modelo básico em uma próxima iteração; e (g) identificar, usando o pelo menos um melhor modelo, uma ou mais moléculas biológicas para ser produzida ou modificada.

13. SISTEMA DE COMPUTAÇÃO, caracterizado por compreender: um ou mais processadores; memória do sistema; e uma ou mais mídias de armazenamento não transitório registradas em suporte informático que tenham armazenado sobre ele instruções executáveis em computador que, quando executadas por um ou mais processadores, fazem com que o sistema de computação implemente um método para realizar a evolução direcionada de moléculas biológicas, o método compreendendo: (a) receber dados sobre sequências e atividades para uma pluralidade de moléculas biológicas; (b) preparar um modelo básico dos dados sobre sequências e atividades, através do qual o modelo básico preveja uma atividade como uma função da presença ou ausência de subunidades de uma sequência, e em que o modelo básico inclua um ou mais termos lineares mas nenhum termo de interação; (c) preparar uma pluralidade de novos modelos, em que cada novo modelo é obtido substraindo do modelo básico um termo de interação diferente do pool definido de termos de interação; (d) calcular um valor estatístico para cada modelo de uma pluralidade de novos modelos, em que o valor estatístico indica uma capacidade de um modelo de predizer a atividade como uma função da presença ou ausência de subunidades; (e) identificar pelo menos um melhor modelo dentre a pluralidade de novos modelos baseado no valor estatístico de cada modelo da pluralidade de novos modelos; (f) repetir (c) - (e) uma ou mais iterações usando o pelo menos um melhor modelo em uma iteração como modelo básico em uma próxima iteração; e (g) identificar, usando o pelo menos um melhor modelo, uma ou mais moléculas biológicas para ser produzida ou modificada.