BRPI0713795A2 - método para atingir uma expressão de polipeptìdeo melhorada - Google Patents

método para atingir uma expressão de polipeptìdeo melhorada Download PDF

Info

Publication number
BRPI0713795A2
BRPI0713795A2 BRPI0713795-8A BRPI0713795A BRPI0713795A2 BR PI0713795 A2 BRPI0713795 A2 BR PI0713795A2 BR PI0713795 A BRPI0713795 A BR PI0713795A BR PI0713795 A2 BRPI0713795 A2 BR PI0713795A2
Authority
BR
Brazil
Prior art keywords
codon
sequence
document page
original document
see original
Prior art date
Application number
BRPI0713795-8A
Other languages
English (en)
Inventor
Johannes Andries Roubos
Peij Noul Nicolaas Maria Elisabeth Van
Original Assignee
Dsm Ip Assets Bv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dsm Ip Assets Bv filed Critical Dsm Ip Assets Bv
Publication of BRPI0713795A2 publication Critical patent/BRPI0713795A2/pt
Publication of BRPI0713795B1 publication Critical patent/BRPI0713795B1/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2402Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing O- and S- glycosyl compounds (3.2.1)
    • C12N9/2405Glucanases
    • C12N9/2408Glucanases acting on alpha -1,4-glucosidic bonds
    • C12N9/2411Amylases
    • C12N9/2414Alpha-amylase (3.2.1.1.)
    • C12N9/2417Alpha-amylase (3.2.1.1.) from microbiological source
    • C12N9/242Fungal source
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/90Isomerases (5.)
    • C12N9/92Glucose isomerase (5.3.1.5; 5.3.1.9; 5.3.1.18)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mycology (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

MéTODO PARA OBTENçãO DE AUMENTO DA EXPRESSãO DE POLIPEPTìDEOS. A presente invenção está relacionada a métodos de otimização de sequências codificadoras de uma proteína para expressão em certa célula hospedeira. Os métodos aplciam algoritmos genéticos para otimizar a aptidão de códon único e/ou a aptidão d epar de códons de sequências que codificam uma sequência de aminoácidos predeterminada. No algoritmo,a egraçaõ de novas variantes de sequência e subsequente seleção de variantes mais aptas são repetidas, até que as sequências codificadoras variantes alcancem um valor mínimo para a aptidão de códon único e/ou para aptidão de par de códons. A invenção também está relacionada a um computador que compreende um processador a memória, o processador sendo configurado para ler e escrever na memória, a compreendendo dados e instruções configurados para fornecer ao processador a capacidade para efetuar os algoritmos genéticos para a otimização da aptidão de cóndon único e/ou da aptidão de par de códons. A invenção ainda está relacionada aos ácidos nucléicos que compreendem uma sequência codificadora de uma sequência de aminoácidos predeterminada, a sequência codificadora sendo otimizada com relação à aptidão de códon único e/ou à aptidão de par de códons para certa hospedeiro nos métodos da invenção, às células hospedeiras que compreendem esses ácidos nucléicos e aos métodos para a produção de polipeptídeos e de outros produtos de fermentação nos quais essas células hospedeiras são usadas.

Description

MÉTODO PARA OBTENÇÃO DE AUMENTO DA EXPRESSÃO DE
t
POLIPEPTIDEOS CAMPO DA INVENÇÃO
A presente invenção está relacionada a um método para a produção de um polipeptideo em uma célula hospedeira, em que as seqüências de nucleotídeos que codificam o polipeptideo foram modificadas com relação ao seu uso de códon (codon-usage), em particular aos pares de códons que são usados, para obter expressão aumentada da seqüência de nucleotídeos que codifica o polipeptideo e/ou produção aumentada do polipeptideo.
FUNDAMENTOS DA TÉCNICA A presente invenção está relacionada a métodos aperfeiçoados para a produção de polipeptídeos. Várias abordagens foram aplicadas na geração de cepas para superexpressão e/ou produção de proteínas. Isso inclui, sem limitação, a produção de cepas com multicópias do gene que codifica a proteína de interesse (POI) e a aplicação de seqüências promotoras fortes. Cada aminoácido específico é codificado por um mínimo
de um códon e um máximo de seis códons. Pesquisas anteriores mostraram que o uso de códon em genes que codificam os polipeptídeos da célula é influenciado entre espécies (Kanaya, S, Y. Yamada, Y. Kudo e T. Ikemura (1999) "Studies of codon usage and genes de tRNA at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs: gene expression levei and species-specific diversity of codon usage based on multivariate analysis". Gene 238: 143-155). Publicações anteriores revelam a otimização do uso de códon em certa célula hospedeira para aumentar a produção de polipeptídeo (como exemplo, veja WO 97/11086). Mais especificamente, WO 03/70957 descreve uso de códon otimizado em fungos filamentosos para a produção de polipeptídeos de plantas. Em todos esses casos de otimização de códon "clássica", um códon nativo foi substituído pelo códon mais freqüente de um conjunto de genes de referência, enquanto a taxa de tradução de códon para cada aminoácido é projetada para ser elevada (otimizada).
Mais recentemente, em WO 03/85114, foi descrita uma harmonização do uso de códon que afeta a distribuição de todos os códons em genes do organismo hospedeiro, presumindo-se que esses terão um efeito sobre o enovelamento de proteína.
A disponibilidade de genomas totalmente seqüenciados de muitos organismos nos últimos anos, por exemplo, Bacillus subtilis (Kunst e cols. 1997), Bacillus amyloliquefaciens, Aspergillus niger (Pel e cols., 2007, Nat. Biotech. 25: 221-231), Kluyveromyces lactis, Saccharomyees eerevisiae (http://www.yeastgenoma.org/), vários genomas de plantas, camundongo, rato e humanos, ofereceu a possibilidade de analisar diferentes aspectos das próprias seqüências gênicas em relação ao seu nível de expressão natural (nível de mRNA ou proteína) . Um bom exemplo é a análise do uso de códon (bias) , e subseqüente otimização de códon único. Observe que o termo "otimização de códon único" é usado nesta especificação para se referir às técnicas de otimização de códon ou harmonização de códon que se concentram na otimização de códons como entidades independentes únicas, em contraste com a otimização de par de códons, que é o tópico da presente invenção.
Enquanto o uso de códon único (bias) tem sido estudado intensamente anteriormente (para uma visão geral, veja Gustafsson e cols., 2004, Trends Biotechnol. 22: 346-353), há poucos relatos sobre o uso de par de códons e para otimização de pares de códons.
0 efeito de poucos pares de códons específicos nas alterações ribossômicas da fase de leitura (frameshifts) em E. coli, por exemplo, foi investigado para o par de códons AGG-AGG (Spanjaard e van Duin, 1988, Proc. Natl. Acad. Sei. U.S.A. 85: 7.967-7.971; Gurvich e cols., 2005, J. Bacteriol. 187: 4.023-432), e para sítios UUU-YNN (Schwarz e Curran, 1997, Nucleic Aeids Res. 25: 2.005-2.011).
Gutman e Hatfield (1989, Proe. Natl. Acad. Sci U.S. A. 8_6: 3.699-3.703) analisaram um conjunto de seqüências maior para todos os pares de códons possíveis para E. coli, e constataram que pares de códons são direcionalmente influenciados. Além disso, eles observaram que pares altamente sub-representados são usados quase duas
vezes mais freqüentemente do que aqueles super-
representados em genes altamente expressos, enquanto em genes pouco expressos pares super-representados são usados mais freqüentemente. U.S. 5.082.767 (Hatfield e Gutman,1992) revela um método para determinação das preferências relativas de pareamento de códons nativos em um organismo e alteração do pareamento de códons de um gene de interesse de acordo com as referidas preferências de pareamento de códons para alterar a cinética da tradução do referido gene de uma forma predeterminada, com exemplos para E. coli e S.
eerevisiae. No entanto, em seu método, Hatfield e Gutman apenas otimizam pares individuais de códons adjacentes. Além disso, em sua patente (U.S. 5.082.767), é reivindicado o aumento da cinética da tradução de pelo menos uma porção de um gene por uma seqüência modificada em que o pareamento de códons é alterado para aumentar o número de pares de códons que, em comparação com o uso aleatório de par de códons, são os pares de códons mais abundantes e, no entanto, mais sub-representados em um organismo. A presente invenção revela um método para aumentar a tradução por uma seqüência modificada em que o pareamento de códons é alterado para aumentar o número de pares de códons que, em comparação com o uso aleatório de par de códons, são os pares de códons mais super-representados em um organismo.
Moura e cols. (20 05, Genome Biology, 6: R2 8) analisaram todo o ORFeoma de S. cerevisae, mas encontraram um viés estatisticamente significante para cerca de 47% dos pares de códons. Os respectivos valores diferiram de uma espécie para outra, resultando em "mapas de contexto de códon" que podem ser considerados como "impressões digitais espécie-específicas" do uso de par de códons.
Boycheva e cols. (2003, Bioinformatics 19(8): 987-998) identificaram dois conjuntos de pares de códons em E. coli considerados como hipoteticamente atenuantes e hipoteticamente não atenuantes ao se considerar pares de códons super- e sub-representados entre genes com expressão elevada e deficiente. No entanto, eles não propõem um método para aplicar esse achado, nem deram nenhuma prova experimental para sua hipótese. Observe que esses grupos são definidos de forma completamente oposta àquela definida por Gutman e Hatfield (1989, 1992, supra), que propuseram um efeito não atenuante para pares altamente sub- representados em genes altamente expressos.
Buchan, Aucott e Stanfield (2006, Nucleic Acids Research 34(3): 1.015-1.027) analisaram propriedades de tRNA com relação ao viés (bias) de par de códons.
Como para as implicações de vieses na utilização de par de códons, Irwin e cols. (1995, J. Biol. Chem. 270:22.801-22.806) demonstraram em E. coli que a taxa de síntese realmente diminuía substancialmente quando se substitui um par de códons altamente sub-representado por um altamente super-representado e aumentava quando se troca um par de códons mais altamente sub-representado por um ligeiramente sub-representado. Isso é extremamente importante, já que é exatamente o oposto do que seria esperado considerando a influência de viés de códon único sobre os níveis de proteína.
No entanto, nenhuma das técnicas citadas acima revela como otimizar o uso de par de códons de uma seqüência de códon de comprimento total levando em conta o fato de que, por definição, pares de códons se superpõem, e que, portanto, a otimização de cada par de códons individual afeta a tendência de superposição de pares de códons acima e abaixo. Além disso, nenhuma das técnicas citadas revela um método que combina a otimização tanto de códons únicos quanto de pares de códons. A otimização de par de códons, levando em conta a superposição do referido par de códons e a combinação opcional da otimização do referido par de códons com a otimização de códon único, aumentaria significativamente a expressão da seqüência de nucleotídeos que codifica o polipeptídeo de interesse e/ou aumentaria a produção do referido polipeptídeo.
Ainda há, portanto, uma necessidade na técnica de novos métodos para a otimização de seqüências codificadoras para o aumento da produção de um polipeptídeo em uma célula hospedeira.
SUMÁRIO DA INVENÇÃO
Um objetivo da presente invenção é fornecer um método para otimização da seqüência codificadora para transcrição gênica e tradução de proteína eficientes. Para isso, a invenção fornece um método de otimização de uma seqüência de nucleotídeos que codifica uma seqüência de aminoácidos predeterminada, pelo qual a seqüência codificadora é otimizada para expressão em uma célula hospedeira predeterminada, o método compreendendo: (a) a geração de pelo menos uma seqüência codificadora original que codifica a seqüência de aminoácidos predeterminada; (b) a geração de pelo menos uma seqüência codificadora recém gerada dessa (pelo menos uma) seqüência codificadora original por substituição nessa (pelo menos uma) seqüência codificadora original de um ou mais códons por um códon sinônimo; (c) a determinação de um valor de aptidão (função de aptidão) da referida (pelo menos uma) seqüência codificadora original e um valor de aptidão da referida (pelo menos uma) seqüência codificadora recém gerada, ao mesmo tempo em que utiliza a função de aptidão (fitness functíon) que determina pelo menos uma de aptidão de códon único e aptidão de par de códons para a célula hospedeira predeterminada; (d) a escolha de uma ou mais seqüências codificadoras selecionadas entre a referida (pelo menos uma) seqüência codificadora original e a referida (pelo menos uma) seqüência codificadora recém gerada de acordo com um critério de seleção predeterminado, de tal forma que, quanto maior o referido valor de aptidão, maior a probabilidade de ser escolhida; e (e) a repetição das ações (b) a (d) , tratando as referidas uma ou mais seqüências codificadoras selecionadas como uma ou mais seqüências codif icadoras originais nas ações (b) a (d) até que um critério predeterminado de parada de repetição seja alcançado.
Em modalidades, a invenção aborda aspectos como o uso de códon único, harmonização de códon, uso de dinucleotídeo, e relacionados ao viés de par de códons. O método pode ser realizado por um programa de computador executado em um computador que utiliza um algoritmo matemático para análise de seqüências e otimização de seqüências que pode ser implementado em MATLAB (http://www.mathworks.com/) .
Além da otimização de códon positiva (por exemplo, para modulação da expressão gênica e produção de proteína de uma forma positiva), a invenção também fornece um método para adaptação de códons em direção a pares de códons "ruins" (ou seja, otimização de par de códons negativos) . Esse último método é útil para fins de controle, bem como para modulação da expressão gênica de uma forma negativa.
BREVE DESCRIÇÃO DOS DESENHOS Observa-se que a presente invenção será ilustrada com referência a várias figuras que visam somente ilustrar a invenção, e não limitar seu escopo, o qual é definido pelas reivindicações em anexo e seus equivalentes.
A Figura 1 mostra uma configuração de computador na qual o método da invenção pode ser realizado.
A Figura 2 mostra um fluxograma de uma modalidade da invenção.
A Figura 3 mostra uma distribuição de valores do viés de par de códons para 3.721 pares de códons senso:senso em diferentes organismos. Os números no canto superior direito de cada histograma são os desvios-padrão para a distribuição observada; os valores médios (não mostrados) estão entre -0,06 e -0,01 para todos os organismos.
Figura 4 mostra a correlação em viés de par de códons de vários organismos. O coeficiente de correlação é mostrado no canto superior direito de cada subgráfico.
A Figura 5 mostra um mapa do viés de códon para A. niger. Os valores do viés variam de -0,67 a 0,54, em que em outros organismos eles podem alcançar ligeiramente acima de +-0,9 (veja também a Figura 3) . As intensidades mais fortes de preto nesses diagramas representam valores de 0,9 (Figuras 5A e 5C para os valores positivos, verde no original) e -0,9 (Figuras 5B e 5D para os valores negativos, vermelho no original) . Nas Figuras 5A e B, as fileiras e colunas são organizadas de acordo com a ordem alfabética dos códons. Nas Figuras 5C e 5D, as fileiras são organizadas de acordo com a ordem alfabética do nucleotídeo da terceira posição como primeiro critério de organização e o nucleotídeo da posição do meio como segundo critério de organização, e o nucleotídeo da primeira posição como o terceiro critério de organização.
A Figura 6 mostra um mapa do viés de códon para B. subtilis. Os valores do viés variam de -0,97 a 0,87, enquanto em outros organismos eles podem alcançar ligeiramente acima de +-0,9 (veja também a Figura 3) . As intensidades mais fortes de preto nesses diagramas representam valores de 0,9 (Figura 6A para os valores positivos, verde no original) e -0,9 (Figura 6B para os valores negativos, vermelho no original).
A Figura 7 mostra um mapa do viés de códon para E. coli. Os valores do viés variam de -0,97 a 0,85, enquanto em outros organismos eles podem alcançar ligeiramente acima de +-0,9 (veja também a Figura 3). As intensidades mais fortes de preto nesses diagramas representam valores de 0,9 (Figura 7A para os valores positivos, verde no original) e -0,9 (Figura 7B para os valores negativos, vermelho no original).
A Figura 8 mostra um mapa do viés de códon para 47 9 genes altamente transcritos de A. niger, análoga às Figuras prévias 5-7. As intensidades mais fortes de preto nesses diagramas representam valores de 0,9 (Figura 8A para os valores positivos, verde no original) e -0,9 (Figura 8B para os valores negativos, vermelho no original). O valor do viés máximo nesse grupo é de 0,91 e o mínimo é de -1, ou seja, alguns pares de códons possíveis não ocorrem de forma alguma, embora seus códons individuais e o par de aminoácidos codificados o façam. Isso talvez seja conseqüência do tamanho menor de 188.067 pares de códons, comparado com 5.885.942 no genoma completo. No entanto, a razão principal será a real sub-representação desses pares em função da seleção em genes altamente expressos.
A Figura 9 mostra um gráfico de dispersão de viés em um grupo de 479 genes altamente expressos (eixo vertical) versus o viés em todos os genes (horizontal) de A. niger. São mostrados todos os 3.721 pares de códons que não envolvem códons de parada. As cores, do cinza claro ao preto, são atribuídas de acordo com os valores absolutos das pontuações z no genoma global, ou seja, pontos claros no gráfico não possuem um viés significativo em todos os genes, uma vez que são dimensionados de acordo com as pontuações z absolutas no grupo altamente expresso, ou seja, pontos muito pequenos não possuem um viés significativo (aqui |pontuação z|<1,9). A linha sólida preta indica onde ambos os valores do viés são iguais; a linha pontilhada mostra a melhor aproximação linear da correlação real (identificada por análise do componente principal); sua inclinação é em torno de 2,1.
Figura 10 Valores de aptidão dos 4.584 genes de A. niger comparados com o logaritmo de seus níveis de transcrição. 0 coeficiente de correlação é de -0,62.
A Figura 11 mostra otimização de códon único vs. par de códons. 0 tipo selvagem (fi fcsc(grFUA) = 0,165, fitcp(gFUA) = .0,033) não se ajusta nesse gráfico (estaria bem mais ã direita e acima). Fica claro que o parâmetro cpi determina uma troca entre códon único e aptidão de par de códons. O gene ótimo é sempre aquele com os menores valores para fitsc e fitcp. Considerando a posição dos pontos, não fica claro, portanto, para qual valor de cpi o melhor gene poderia ser obtido, já que ainda não sabemos se o uso de códon único ou o uso de par de códons é mais importante. No entanto, os exemplos fornecem fortes evidências de que aptidão de par de códons é muito importante em adição à aptidão de códon único, o que significa que cpi deve ser escolhido pelo menos >0. A Figura 12 mostra dois diagramas que exibem a qualidade de seqüência dos primeiros 20 (entre 499) códons da FUA mencionada anteriormente (veja também o Exemplo 2) . Os pontos pretos indicam as proporções de códons desejadas, enquanto as marcas χ mostram as reais (no gene inteiro), conectadas por meio de uma linha pontilhada. A aptidão de códon único pode ser interpretada como a média dos comprimentos dessas linhas pontilhadas (observe que, para códons nos quais as proporções desejada e real são iguais como, por exemplo, TGG (que não possui códons sinônimos) nas posições 4 e 5, esse "comprimento" é zero; observe também que o "comprimento" nunca pode ser negativo) . As barras pretas, por sua vez, mostram os pesos do par formado pelos dois códons adjacentes. Os pontos pretos (no meio, abaixo das barras) indicam o peso mínimo de qualquer par de códons que codifica o mesmo dipeptídeo. A aptidão de par de códons é então a altura média dessas barras (observe que o termo "altura", como aqui usado, pode muito bem ser negativo).
A Figura 13 retrata a convergência de fitCOmbi com o
uso da abordagem de algoritmo genético da invenção descrita para otimização do gene amyB que resulta no ID. DE SEQ. N°:6 .
A Figura 14 retrata, para fins explicativos, uma parte de um diagrama de distribuição de códon único, como aquele que é mostrado, por exemplo, na Figura 15. Os dois gráficos indicam o uso de códon único para os dois códons sinônimos que codificam fenilalanina: UUU (superior) e UUC (inferior). 0 eixo Xeo eixo Y de ambos os gráficos vão de 0% a 100%. 0 histograma cinza é um histograma de uso de códon, normalizado para cada aminoácido (grupo de códons sinônimos) , para um grupo de 250 genes de A. niger altamente expressos, em que os genes são alocados em grupos que possuem 0%, >0 - <10%, 10 - <20%, . . . , 90 - <100%, 100%. Por exemplo, 50% dos genes altamente expressos caem no grupo com 0% de uso do códon UUU e, conseqüentemente, 100% de uso do códon UUC para codificação de fenilalanina. A barra branca fornece o uso de códon do gene A (nesse caso, amyB do tipo selvagem - [WT = wild-type] ) em caixas similares aos do histograma; dessa forma, 100% na caixa 20-30% (20% com 3/15 códons sendo UUU) para o gene A e, conseqüentemente, 100% na caixa 80-<90% (80% com 12/15 sendo UUC). A barra preta fornece os dados estatísticos para o gene B (nesse caso, a variante otimizada de códon único para amyB). De forma similar, pode-se criar uma matriz de 16 vezes 4 gráficos, que mostra os dados estatísticos para todos os 64 códons; veja, por exemplo, a Figura 15.
Figura 15 (partes 1 e 2) retrata a freqüência de códon único para o gene amyB de códon único otimizado (preto) versus o gene amyB do tipo selvagem (branco). 0 histograma cinza retrata os dados estatísticos para 250 genes altamente expressos em A. niger. Fica claro que certos códons, como aqueles para cisteína (UGU/UGC), histidina (CAU/CAC), tirosina (UAU/UAC) e outros, passaram por aprimoramentos reais.
A Figura 16 (partes 1 e 2) retrata a freqüência de códon único para um gene amyB que foi otimizado com relação tanto ao códon único quanto aos pares de códons (preto) versus o gene amyB do tipo selvagem (branco) . O histograma cinza retrata os dados estatísticos para 250 genes altamente expressos em A. niger. Fica claro que esses gráficos refletem altamente a situação para o gene de códon único otimizado retratado na Figura 15.
A Figura 17 retrata uma parte do diagrama completo
(Figura 18) com dados estatísticos de códon único e do par de códons para o gene amyB WT de A. niger. No eixo X, encontram-se os códons subseqüentes em um gene que começa na posição 1 com o códon de partida ATG. 0 ponto preto 1 . ' indica a proporção-alvo de códon único para o códon nessa posição com relação aos seus códons sinônimos. Para ATG, ela é 1,0 (100%) . A cruz λχ' é a proporção de códons real no gene mostrado; uma linha pontilhada mostra a diferença entre a proporção-alvo e a proporção real. 0 peso do par de códons é um valor entre -1 e 1. A barra indica o peso real do par de códons dos códons adjacentes, enquanto o pentagrama indica o peso do par de códons sinônimos alcançável ótimo (não levando em conta os pares vizinhos). Por exemplo, a primeira barra é -0,23, que é o peso para "ATG-GTC", e a segunda é 0,66, que é o peso para "GTC-GCG" .
A Figura 18 retrata os dados estatísticos de códon único e do par de códons para o ID. DE SEQ. N° : 2 (AmyB WT) .
A Figura 19 retrata os dados estatísticos de códon único e do par de códons para o ID. DE SEQ. N°: 5 (AmyB de códon único otimizado).
A Figura 20 retrata os dados estatísticos de códon único e do par de códons para o ID. DE SEQ. N°: 6 (AmyB WT com códon único e de par de códons otimizado). A Figura 21 retrata um mapa de expressão do vetor de plasmídeo pGBFINFUA-1. A Figura 21 também fornece um mapa representativo para os plasmídeos pGBFINFUA-2 e pGBFINFUA-3. Todos os clones se originam do vetor de expressão pGBFIN-12 (descrito em WO 99/32617). São indicadas as regiões flanqueadoras glaA em relação às seqüências variantes do promotor amyB e a seqüência de cDNA de amyB de A. niger que codifica alf a-amilase. O DNA de E. coli pode ser removido por digestão com a enzima de restrição NotT, antes da transformação das cepas de A. niger.
A Figura 22 retrata uma representação esquemática da integração por meio de recombinação homóloga simples. O vetor de expressão compreende o marcador selecionável amdS, e o promotor glaA conectado ao gene amyB. Essas características são flanqueadas por regiões homólogas do lócus glaA (3' glaA e 3" glaA, respectivamente) para dirigir a integração no lócus genômico glaA.
A Figura 23 retrata atividade de alfa-amilase em caldo de cultura para cepas de A. niger que expressem três construções diferentes. É retratada a atividade de alfa- amilase em caldo de cultura de cepas de A. niger que expressam uma construção de amyB nativa, em que (1) a seqüência de iniciação da tradução e a seqüência de terminação da tradução foram modificadas (pGBFINFUA-1), e (2) a seqüência de iniciação da tradução, a seqüência de terminação da tradução e o uso de códon único foram modificados (pGBFINFUA-2), e (3) a seqüência de iniciação da tradução, a seqüência de terminação da tradução e o uso de códon único e uso de par de códons foram modificados (pGBFINFUA-3) de acordo com um método da invenção. As atividades de alfa-amilase são retratadas em unidades relativas [AU] , com a média das 6 cepas de uma cópia do grupo FUAl de 10 cepas no 4o dia definido em 100%. Os dez transformantes por grupo indicados são transformantes isolados e cultivados independentemente.
A Figura 24 (A e B) retrata a freqüência de códon único para a otimização de códon único para espécies de Bacillus. Uma explicação dos subgráficos é dada pela Figura14 . 0 histograma cinza apresenta a distribuição de códons para os 50 genes mais expressos em B. subtilis; veja o texto. As barras pretas indicam a freqüência-alvo de códon único.
A Figura 25 retrata os dados estatísticos de códon único e do par de códons para ID. DE SEQ. N°: 14 (1/3), ID. DE SEQ. N°: 17 (2/3) e ID. DE SEQ. N°: 14 (3/3), a seqüência otimizada com o uso de otimização de par de códons + códon único (1/3) , de códon único (2/3) e negativa de par de códons + de códon único (3/3), respectivamente. Veja a Figura 17 para uma explicação do gráfico.
Figura 26. Vetor shuttle de E. coli/Bacillus pBHA-12. São retratados os sítios de clonagem múltipla (MCS) 1 e 2.
Figura 27. Um exemplo de clonagem de um gene no vetor shuttle de E. coli/Bacillus pBHA-12. A Figura mostra as partes clonadas AeB (setas cinza) do ID. DE SEQ. N°: 9. Os sítios de clonagem da parte IA são retratados: NdeI e BamHI; para a parte IB SmaI e KpnI. A parte de E. coli foi retirada usando PvuII.
DESCRIÇÃO DETALHADA DA INVENÇÃO
Além do viés de códon único, outras estruturas na seqüência de nucleotídeos provavelmente também influenciam a expressão de proteína, por exemplo, dinucleotídeos ou repetições de certas seqüências de nucleotídeos curtas (no final, o uso de códon pode ser interpretado como um padrão em seqüências de trinucleotídeos em linha com o quadro de leitura). Esse trabalho apresenta um método para a identificação de uma preferência por certos pares de códons, ou seja, se os códons aparecem no gene como se fossem selecionados de acordo com o uso de proporções de códons identificadas, mas depois distribuídos aleatoriamente no gene (com relação à seqüência de aminoácido), ou se alguns códons aparecem mais freqüentemente próximos a certos códons e menos freqüentemente próximos a outros.
<formula>formula see original document page 17</formula>
Uma análise de pares de códons também cobre outros aspectos, especificamente o uso de dinucleotideo em torno das bordas do quadro de leitura e uma possível preferência por certos nucleotídeos simples próximos a um códon. A presente invenção revela métodos para a geração de uma tabela de viés de par de códons para certo organismo hospedeiro pelo qual todos os ORFs identificados de genomas completos seqüenciados são usados como informação de entrada, ou grupos selecionados de genes, por exemplo, genes altamente expressos. A presente invenção revela um método no qual uma tabela de viés de par de códons assim identificada é subseqüentemente aplicada na otimização da distribuição de par de códons em um gene de interesse (GOI) para aumento da expressão da proteína de interesse correspondente (POI).
A otimização de códon único oferece um bom ponto de partida para o aumento dos níveis de expressão de proteínas de interesse. Enquanto outros tentaram superar desvantagens resultantes da presença de códons rejeitados no gene de interesse por adaptação do organismo hospedeiro, inserção de cópias adicionais de genes de tRNA para tRNAs com baixa abundância (por exemplo, células competentes BL-21 CodonPlus™ de Stratagene, cepas hospedeiras Rosetta™ de Novagen, ambas E. coli) , os presentes inventores se concentraram na adaptação dos próprios genes de interesse. Códons indesejados em uma seqüência genética foram substituídos por aqueles sinônimos, de forma que a distribuição de códon único da seqüência resultante fosse a mais próxima possível das proporções de códons desejadas previamente identificadas.
Essa harmonização de códon, no entanto, ainda tem um número muito grande de genes possíveis que são igualmente "ótimos", já que a distribuição global de códons em um gene otimizado é o critério de seleção e, dessa forma, propriedades desejadas adicionais da seqüência de códon podem facilmente ser consideradas como, por exemplo, a ausência de certos sítios de restrição de enzima ou de pares de códons que sabidamente causam alterações ribossômicas da fase de leitura. Em uma etapa posterior, poderia se otimizar o uso de par de códons em uma extensão limitada; mas quando se otimizam pares de códons de um gene, por exemplo, em direção ao uso daqueles mais abundantes, o uso de códon único da seqüência resultante pode não ser próximo ao ótimo, já que pode haver pares de códons preferidos que consistem em códons únicos sub- representados e, portanto, deve ser encontrado um equilíbrio entre a otimização de códon único e de par de códons. A presente invenção revela métodos que permitem o equilíbrio da otimização tanto de códon único quanto de par de códons. A otimização de par de códons que leva em conta a superposição de pares de códons e a combinação opcional da referida otimização de par de códons com otimização de códon único aumenta acentuadamente a expressão da seqüência de nucleotídeos que codifica o polipeptídeo de interesse e/ou aumenta a produção do referido polipeptídeo.
No contexto desta invenção, a seqüência de nucleotídeos codificadora ou seqüência codificadora é definida como uma seqüência de nucleotídeos que codifica um polipeptídeo. Os limites da seqüência codificadora são geralmente determinados pelo códon de partida (normalmente ATG em eucariotas, enquanto pode ser um de ATG, CTG, GTG, TTG em procariotas) localizado no começo do quadro de leitura aberta na extremidade 5' do mRNA e um códon de parada (geralmente um de TAA, TGA, TAG, embora existam exceções a essa codificação "universal") localizado logo abaixo do quadro de leitura aberta na extremidade 3' do mRNA. Uma seqüência codificadora pode incluir, sem limitação, seqüências de DNA, cDNA, RNA e de ácido nucléico recombinante (DNA, cDNA, RNA) (observe que se sabe na técnica que Uracil, U, substitui o desoxinucleotídeo Timina, T, em RNA) . Caso a seqüência codificadora se destine à expressão em uma célula eucariótica, uma seqüência sinalizadora de poliadenilação e uma seqüência de terminação da transcrição normalmente estarão localizadas .3' em relação à seqüência codificadora. Uma seqüência codificadora compreende uma seqüência codificadora de um iniciador da tradução e, opcionalmente, uma seqüência sinalizadora e, opcionalmente, uma ou mais seqüências de íntron. Muito embora os termos "seqüência codificadora" e "gene" estritamente não se refiram à mesma entidade, ambos os termos são freqüentemente aqui usados indistintamente, e aqueles habilitados na técnica saberão, pelo contexto, se o termo se refere a um gene completo ou apenas à sua seqüência codificadora.
Método e configuração de computador para adaptação de códon único e/ou par de cõdons
Como ocorre com o uso de propriedades de códon único de genes altamente expressos, uma comparação "manual" de proporções de códon único em todos os genes e um grupo daqueles altamente expressos levou a algumas "proporções de códons desejadas" para o aprimoramento de genes com relação ao seu nível de expressão.
A adaptação de códon único de um gene pode então ser realizada por: (1) cálculo das proporções reais no gene, escolhendo-se repetidamente um códon (por exemplo, aleatoriamente) cuja proporção desejada é menor do que aquela real, e substituindo-o por um sinônimo com uma proporção também baixa; ou (2) cálculo do número desejado de cada códon utilizando as "proporções de códons desejadas", produzindo-se grupos de códons sinônimos, e escolhendo-se repetidamente um códon (por exemplo, aleatoriamente) a partir de um grupo sinônimo que codifica o aminoácido pré-especifiçado, para cada posição no gene; produzindo-se múltiplas variantes com a utilização do método (1) e/ou (2) e, com base em critérios de seleção adicionais, escolhendo-se o gene mais relevante (por exemplo, sítios de restrição desejados ou indesejados e/ou energia de enovelamento) .
Entretanto essa abordagem não seja adequada para adaptação de par de códons, em primeiro lugar porque a inspeção visual de dados de vieses para todos os pares de códons está fora de questão em função da complexidade e, em segundo lugar, porque a alteração de um par de códons, que significa a substituição de pelo menos um dos dois códons participantes, também irá afetar pelo menos um dos pares de códons adjacentes, de modo que as "proporções de par de códons desejadas" seriam inalcançáveis. Por causa das limitações que isso causa, uma abordagem determinística foi considerada muito complexa e não suficientemente promissora e, portanto, foi escolhida uma abordagem de "algoritmo genético".
Observa-se que o termo "algoritmo genético" pode ser confuso, na medida em que ele parece estar relacionado à engenharia genética. No entanto, um "algoritmo genético" é uma abordagem pela ciência da computação que é usada para soluções aproximadas para problemas de otimização multidimensional (Michalewicz, Z., "Genetic Algorithms + Data Structure = Evolution Programs", Springer Verlag 1994; David E. Goldberg. "Genetic Algorithms in Search, Optimization and Machine Learning". Addison-Wesley, Reading MA, 1989; http://en.wikipedia.org/wiki/Genetic_algorithm). Na presente invenção, essa abordagem é usada na solução do problema de otimização da seleção do "melhor" gene possível, ou seja, da seqüência codificadora para uma proteína de interesse específica. Nessa abordagem, cada posição no gene, ou seja, cada códon pode ser considerado uma dimensão, com o conjunto de valores sendo distinto e determinado pelos códons sinônimos disponíveis.
Geralmente, em um algoritmo genético, inicialmente um conjunto de "soluções" possíveis para o problema é freqüentemente gerado aleatoriamente, ou por variações sobre as soluções iniciais fornecidas (embora existam muitos outros métodos de abordagem). Esse conjunto é denominado "população"; seus elementos são "indivíduos" ou "cromossomos", representados principalmente por vetores (no sentido matemático) que contêm coordenadas para cada dimensão. Na medida em que os algoritmos genéticos foram modelados após processos envolvidos em seleção natural, muito da terminologia é emprestado da genética. No entanto, como eles são (nesse caso, de forma atípica) aplicados principalmente no campo da ciência da computação e, em alguns exemplos, na aplicação de algoritmos genéticos na ciência biológica, surgiram problemas, por exemplo, para a previsão da estrutura secundária de proteínas (Armano e cols. 2005 BMC Bioinformatics 1(6) Supl. 4:S3); otimização in silico de rede metabólica (Patil e cols. 2005 BMC Bioinformatics. 23(6): 308); dados de expressão de agrupamentos gênicos (clustering) (Di Gesu e cols. 2005 BMC Bioinformatics. 7(6): 289).
No presente caso, um vetor contém códons. A partir daquela população, são criados novos indivíduos por alteração de certas posições de um indivíduo existente ("mutação") ou por combinação de uma parte (ou seja, certas coordenadas) de um indivíduo com outra parte (ou seja, as coordenadas para as outras dimensões) de outro indivíduo ("cruzamento"). Examina-se então a qualidade desses indivíduos (já que os novos também são soluções possíveis para problema de otimização inicial) e os melhores ("mais aptos") dos indivíduos são considerados novamente como população inicial para a geração de novos indivíduos ("geração seguinte"; por exemplo, os melhores 10, 20, 30,40, 50, 60% são mantidos, mas existem muitas outras possibilidades para a seleção de um subconjunto para prole para a obtenção de uma convergência em direção a indivíduos mais aptos, por exemplo, seleção por roda de roleta, veja Michalewicz, Z, 1994). Quando se permite que o melhor indivíduo da população inicial seja levado à geração seguinte, assegura-se que, com cada população, a qualidade das soluções possíveis melhore ou pelo menos permaneça a mesma. Supõe-se que, com a execução desse algoritmo por muitas gerações (= repetições de algumas centenas a vários milhares, dependendo da complexidade do problema), pode-se atingir uma solução próxima da ótima. Os algoritmos genéticos foram muito investigados na ciência da computação, incluindo propriedades como, por exemplo, proporção ótima de tamanho da população e número de gerações, como evitar que o algoritmo fique preso em ótimos locais etc., mas isso não deve ter muita importância agora. Para informações sobre como se ajustar esses parâmetros para o real procedimento de otimização, veja a descrição de implementação de algoritmo genético em MATLAB no Exemplo 2.
Isso será explicado com detalhe com referência à Figura 2. A Figura 2 mostra um fluxograma de um algoritmo genético para a otimização gênica. Um algoritmo genético desse tipo pode ser realizado em um computador programado adequadamente, cujo exemplo será mostrado e explicado primeiro com referência à Figura 1. A Figura 1 mostra uma visão geral de uma configuração de computador que pode ser usada para efetuar o método de acordo com a invenção. A configuração compreende um processador 1 para efetuar operações aritméticas.
Observe que os algoritmos genéticos são geralmente não deterministicos, na medida em que envolvem etapas randomizadas (por exemplo, critérios de seleção randomizados e/ou escolha randomizada do operador e/ou geração randomizada de soluções potenciais); no entanto, existem exceções que efetuam de uma forma deterministica. "Algoritmos genéticos" é uma ferramenta genérica para aqueles algoritmos que lidam com um grupo (denominado população) de soluções potenciais, as quais são por rastreamento e/ou seleção e/ou remoção e/ou (re)introdução de soluções (recém) geradas em direção à solução ótima pela utilização de um ou múltiplos objetivos. Considerando essa definição, também são descritos métodos como programação evolucionária, algoritmos evolucionários, algoritmos genéticos clássicos, algoritmos genéticos real-coded, anelamento simulado, algoritmos ant, e também métodos de Monte-Carlo e de quimiotaxia, que pertencem a uma classe similar de algoritmos, em oposição aos métodos que se baseiam na convergência de soluções potenciais únicas em direção a uma solução ótima com a utilização de um algoritmo deterministico como, por exemplo, programação linear e algoritmos de gradiente. Além disso, aqueles habilitados na técnica compreenderão, a partir do contexto, se outro termo original se refere à mesma classe de algoritmos. Além disso, embora um algoritmo genético seja o método preferido, não excluímos nenhum outro método além dos algoritmos genéticos para a solução dos problemas de otimização de códon único e/ou de par de códons, como descritas nesta invenção.
0 processador 1 está conectado a diversos componentes de memória, incluindo um disco rígido 5, Memória Somente Para Leitura (Read Only Memory - ROM) 7, Memória de Leitura Eletricamente Apagável e Progamável (Electrically Erasable Programmable Read Only Memory - EEPROM) 9 e Memória de Acesso Aleatório (Random Access Memory - RAM) 11. Nem todos esses tipos de memória precisam necessariamente ser fornecidos. Além disso, esses componentes de memória não precisam estar localizados fisicamente próximos ao processador 1, mas podem estar localizados em um local remoto do processador 1.
0 processador 1 também está conectado a meios para a entrada de instruções, dados etc. por um usuário, como um teclado 13, e um mouse 15. Também podem ser fornecidos outros meio de entrada de informações, por exemplo, uma tela sensível ao toque, um track-ball e/ou um conversor de voz, conhecidos por aqueles habilitados na técnica.
É fornecida uma unidade de leitura 17 conectada ao processador 1. A unidade de leitura 17 é configurada para ler e possivelmente escrever dados em um portador de dados como, por exemplo, um disquete 19 ou um CD-ROM 21. Outros portadores de dados podem ser fitas, DVDs, cartões de memória etc., como é conhecido por aqueles habilitados na técnica. O processador 1 também está conectado a uma impressora 23 para imprimir os dados de saída em papel, além de uma tela 3, por exemplo, um monitor ou tela de LCD (tela de cristal líquido) , ou qualquer outro tipo de tela conhecido por aqueles habilitados na técnica.
O processador 1 pode estar conectado a uma rede de comunicação 27, por exemplo, a Rede Comutada de Telefonia Pública (Public Switched Telephone Network - PSTN) , uma Rede de Comunicação Local (Local Area Network - LAN) , uma Rede de Longa Distância (Wide Area Network - WAN) etc. através de meio 1/0 25. 0 processador 1 pode ser configurado para se comunicar com outras configurações de comunicação por meio da rede 27.
0 portador de dados 19, 21 pode compreender um programa de computador na forma de dados e instruções configurados para fornecer ao processador a capacidade para efetuar um método de acordo com a invenção. No entanto, esse programa de computador pode, alternativamente, ser baixado através da rede de telecomunicação 27.
O processador 1 pode ser implementado como um sistema isolado, ou como diversos processadores operando em paralelo, cada um configurado para efetuar subtarefas de um programa de computador maior, ou como um ou mais processadores principais com vários subprocessadores. Partes da funcionalidade da invenção podem até mesmo ser efetuadas por processadores remotos que se comunicam com processador 1 através da rede 27.
Agora será explicado o algoritmo genético da Figura 2, da forma que pode ser efetuado no processador 1 quando ele executa um programa de computador armazenado em sua memória.
Em ação 32, o computador gera um ou mais genes que codificam uma proteína predeterminada. Isso pode ser feito adquirindo-se dados para aquele efeito de uma tabela armazenada na memória do computador. Esses genes podem ser, por exemplo:
- ATG'GTT'GCA'TGG'TGG'TCT'...
- ATG' GTA' GCA' TGG' TGG' TCA'...
Para a finalidade do algoritmo, esses genes gerados são denominados "genes originais".
Após a ação 32, o programa de computador efetua um ou mais ciclos de repetição por realização das ações 34-40, uma ou mais vezes.
Na ação 34, o programa de computador gera novos genes por substituição de um ou mais dos códons no(s) gene (s) original por códons sinônimos, de tal forma que o gene (s) recém gerado(s) ainda codifique a proteína predeterminada (processo de cruzamento e mutação). Para ser capaz de fazê- lo, a memória do computador armazena uma tabela de uso de códon que mostra quais códons codificam quais aminoácidos (observe que existem desvios do "código universal" e esses são considerados caso esse seja o caso para os organismos hospedeiros especificados; veja, por exemplo, Laplaza e cols., 2006, "Enzyme and Microbial Technology", 3j3: 741- 747). Sabendo-se a seqüência de aminoácidos na proteína, o programa de computador pode selecionar códons alternativos a partir da tabela, como são bem conhecidos na técnica.
Usando o exemplo de ação 32, os genes recém gerados podem ser (indicados em negrito): - ATG' GTT' GCA' TGG' TGG' TCT'...
- ATG' GTA' GCA' TGG' TGG' TCA'...
- ATG' GTT' GCA' TGG' TGG' TCA' ...
- ATG' GTA' GCA' TGG' TGG' TCA'...
- ATG'GTA'GCC'TGG'TGG'TCA'...
Na ação 36, um valor de qualidade de todos os genes, incluindo o original e os genes recém gerados, é determinado pelo programa de computador usando uma função de aptidão que determina pelo menos uma aptidão de códon e uma aptidão de par de códons. Exemplos dessas funções de aptidão serão explicados em detalhe abaixo na seção "Realização da otimização de par de códons".
Na ação 38, são selecionados diversos genes que mostram uma melhor aptidão com base na função de aptidão para que participem do "processo de proliferação" (cruzamento e mutação), e são selecionados diversos genes que mostram a pior aptidão com base na função de aptidão para remoção da população. Esses números podem ser números predeterminados ou depender de uma quantidade predeterminada de aumento da aptidão. A seleção daqueles genes pode ser deterministica, mas geralmente é seguido um processo estocástico em que os "genes mais aptos" possuem uma probabilidade maior de serem selecionados para proliferação, e o oposto para eliminação da população. Esse método é denominado seleção por roda de roleta (roulette- wheel).
Os genes selecionados resultantes para proliferação podem, por exemplo, ser (genes não selecionados são mostrados com uma linha de eliminação): - ATG' GTT' GCA' TGG' TGG' TCT'... - ATG ' GTA' OCA' TGG' TGG ' TCA'...
- ATG' GTT' GCA' TGG' TGG' TCA'...
- ATG' GTA' GCA' TGG' TGG' TCA'...
- ATG' GTA' GCC' TGG ' TGG ' TCA'...
Na ação 40, o programa de computador testa se um ou vários critérios de terminação são satisfeitos. Freqüentemente, um dos critérios de terminação é um número máximo predeterminado de repetições. Critérios alternativos consistem em verificar se a aptidão obtida pelos genes selecionados é aumentada com pelo menos um valor limiar mínimo em relação à aptidão dos genes originais, ou verificar se a aptidão obtida pelos genes selecionados é aumentada com pelo menos um valor limiar mínimo em relação à aptidão do gene com a melhor aptidão em η repetições anteriores (de preferência, η é escolhido em um valor <10, 100>) . Caso os critérios globais de terminação não sejam satisfeitos, o programa de computador retorna à ação 34, tratando agora os genes selecionados como "genes originais".
Se, na ação 40, o programa de computador estabelece que a melhora está abaixo do valor limiar mínimo, a repetição adicional das ações 34-38 não faz muito sentido, e o programa de computador continua com a ação 4 2.
Deve-se entender que qualquer outro critério de parada de repetição adequado, como o número de repetições realizadas, pode ser usado na ação 4 0 para deixar as ações de repetição 34-40 e continuar com a ação 42.
Na ação 42, o gene com a melhor aptidão entre todos os genes selecionados é selecionado e apresentado ao usuário, por exemplo, por meio do monitor ou por meio de uma listagem impressa pela impressora.
No caso de adaptação gênica com a utilização de um algoritmo genético, deve-se assegurar que o cruzamento é sempre realizado na posição de um quadro de leitura, pois, de outro modo, a seqüência de aminoácidos resultante pode ser alterada quando se combina um nucleotídeo de um e dois nucleotideos de outro códon. Para uma melhor convergência, é proposto um operador de mutação modificado no qual, para esse operador de mutação, só tenham sido permitidas substituições de códons sinônimos que resultem em pelo menos um melhor uso de códon único ou um melhor uso de par de códons.
Dessa forma, uma questão importante para otimização de par de códons agora é como medir a qualidade dos indivíduos. Essa denominada "função de aptidão" pode ser considerada a parte central do algoritmo genético, já que ela é a função real a ser otimizada. Na presente invenção, uma abordagem preferida é atribuir um número real (denominado "peso") a cada par de códons, e tomar a média dos pesos em um gene como sua "aptidão", resultando, desse modo, em uma função a ser minimizada.
Na presente descrição, os inventores descrevem o processo de otimização gênica como um problema de minimização. Essa é uma abordagem bem arbitrária. Observe que, caso uma função f tivesse que ser maximizada, também poderia ser pesquisado o mínimo de -f e, assim, isso não seria uma restrição à generalização.
Dessa forma, deve ser identificado um método para a determinação dos pesos do par de códons, no qual os pares de códons considerados bons quanto ao nível de expressão possuem um peso baixo e pares considerados maus tenham um peso alto.
Identificação de pesos do par de códons para a adaptação gênica
Para identificação de pesos do par de códons relacionados a um nível maior de transcrição/expressão, e que possam servir como uma informação de entrada para adaptação do uso de par de códons, podem ser aplicados os seguintes métodos, que são aqui exemplificados por A. niger, para o qual são conhecidos níveis de transcrição para a maioria dos genes expressos, e para B. subtilis, para o qual estão disponíveis dados sobre os níveis de transcrição e também um conjunto de 300 genes altamente expressos.
Em A. niger, em que há disponível uma classificação completa extraída de dados de GeneChip para o conjunto mencionado anteriormente de 4.584 genes realmente expressos (veja Exemplo 1) , foram calculados os pesos médios do par de códons de cada gene (ou seja, o equivalente dos valores fitcp{g)). A seguir, os genes foram classificados de acordo com os valores de aptidão (ordem ascendente) e nível de expressão (ordem descendente). Como genes altamente expressos supostamente têm valores baixos de aptidão de par de códons, essas duas classificações seriam iguais quando se utilizassem pesos ideais do par de códons e, portanto, uma comparação dessas duas classificações pode gerar informaç oes sobre a qualidade dos pesos usados na função de aptidão (em que foi dada ligeiramente mais atenção à classificação "correta" dos genes altamente expressos do que a classificação daqueles medíocres). Adicionalmente, foi calculado o coeficiente de correlação (covariância dividida pelo desvio-padrão de cada variável) entre a classificação e os pesos médios do par de códons dos 4.584 genes.
Podem ser usados vários conjuntos de pesos possíveis nos métodos da invenção, incluindo um ou mais selecionados do grupo que consiste em: (i) valores do viés do genoma inteiro; (ii) valores do viés de um grupo de genes altamente expressos; (iii) viés com todos os valores que não possuem certa pontuação ζ mínima ajustada para zero (em que a pontuação ζ é determinada como descrito no Exemplo 1.1.4); (iv) valores do viés elevados à potência de 2 ou 3, 4, 5 ou mais (para dar aos códons altamente preferidos ou rejeitados uma influência menor/maior) ; (v) as próprias pontuações z; (vi) diferença de valores do viés/pontuações ζ do grupo altamente expresso e do genoma completo; e (vii) combinações de um ou mais de (i) - (vi) .
Para o algoritmo genético, foram usadas suas negações, já que pares de códons preferidos podem ser identificados arbitrariamente com valores positivos, enquanto o algoritmo genético efetua minimização. Isso se aplica a todos os pesos mencionados acima.
Uma matriz de peso mais preferida pode ser obtida - como descrito acima - por cálculo do "viés" de par de códons em um grupo altamente expresso com o uso dos valores esperados calculados com base nas proporções de códons do genoma inteiro. Com rs"J'(ck) ainda representando a proporção de códon único de ck no conjunto de dados do genoma inteiro e nhibgh((c. c )) as ocorrências de um par (ClfCj) no grupo altamente expresso, o cálculo dos "valores esperados combinados" <formula>formula see original document page 33</formula>corresponde a
<formula>formula see original document page 33</formula>
e, dessa forma <formula>formula see original document page 33</formula>
em que w( (Ci,Cj)) é definido como um peso de um par de códons (ci,cj) em uma seqüência g de códons. Observe que, na medida em que a função de otimização buscará um peso médio mínimo, os dois termos do numerador foram invertidos, comparados com a equação para os valores do viés, mas isso não afeta a correlação com os níveis de expressão além da troca do sinal.
Diferentemente de todos os outros conjuntos de pesos testados, pares de códons que envolvem códons que estão mais sub-representados no grupo altamente expresso têm aqui uma ligeira desvantagem. Dessa forma, esses pesos são os únicos que também refletem os diferentes vieses de códon único do grupo altamente expresso e de todos os genes. O uso desses pesos traz o risco de rejeitar alguns pares de códons que realmente possuem um viés positivo no grupo altamente expresso, mas que consistem (no grupo altamente expresso) em códons raramente usados. No entanto, como nossas proporções desejadas de códon único não são normalmente idênticas àquelas no grupo de genes com expressão elevada, mas mais "extremas" do que essas, a otimização de códon único de qualquer forma substituiria esses sub-representados e, portanto, podemos considerar os pesos descritos acima muitos convenientes para a otimização de par de códons. Dessa forma, embora os pesos do par de códons também reflitam em certo grau o viés de códon único, para a otimização, o uso de códon único é considerado como uma questão separada, adicional.
Otimização de códons únicos e pares de códons com a utilização de um algoritmo genético
No método da invenção, preferivelmente uma configuração de computador programada é usada para efetuar um algoritmo genético, como aqui descrito acima, para realizar a adaptação de par de códons ou adaptação combinada de códon único e de par de códons. A aplicação de um algoritmo genético para adaptação de códon único também é possível e não está excluída da invenção, mas aqui os códons indesejados podem ser substituídos por códons sinônimos, sem restrições com relação aos códons vizinhos e, portanto, a utilização de um algoritmo genético não é realmente necessária.
Como ocorre para pares de códons, a alteração de um códon único normalmente irá alterar o peso de dois pares de códons e, portanto, a otimização de par de códons é pesadamente restringida, pois uma alteração de códon único que substitui um par de códons indesejado irá sempre mudar outro par de códons, e essa não será necessariamente para melhor, e a correção de uma mudança para pior em um par de códons adjacente irá alterar, novamente, outro par, e assim por diante.
Para o operador de mutação, só foram permitidas aquelas alterações da seqüência de códon que não alteram a seqüência do peptídeo codificado e que melhoraram pelo menos uma entre a aptidão de códon único e a aptidão de par de códons, ou seja, antes de alterar um códon, o operador de mutação busca códons sinônimos que estejam sub- representados (de acordo com as proporções desejadas de códon único) ou uma em que os dois pares de códons envolvidos tenham pesos melhores. É selecionado aleatoriamente qual dos dois tipos de mutação será realizado. A realização do operador de "mutação" prévio em cada códon único é suficiente para criar um gene otimizado por códon único, sem qualquer uso do algoritmo genético.
A qualidade de um gene é determinada considerando-se dois aspectos, especificamente a "aptidão" do códon único e "aptidão" do par de códons. Essa última é simplesmente a média dos pesos w({c(k)), c(k+l)) de todos os pares de códons em uma seqüência g de códons (ou genes) . Ou seja, quando g simboliza novamente a seqüência de códons, |gr| seu comprimento (em códons) e c(k) seu códon k-th:
<formula>formula see original document page 35</formula>
A aptidão de códon único é definida como sendo a diferença das proporções reais de códons no gene e as proporções de códons-alvo, normalizada para o número de ocorrências de cada códon. Proporções de códon único são definidas e podem ser determinadas como descrito no Exemplo 1.1.2. Com r'sacrget (c(k)) sendo a proporção desejada (ou freqüência) de códon Qc e rsgc(c(k)) como antes da proporção real no gene g, então a aptidão de códon único é definida como
<formula>formula see original document page 35</formula>
Dessa forma, Jfitsc pode alcançar valores em [0, 1] com a seqüência ótima estando próximo a 0, enquanto fitcp é limitado pelos pesos, que aqui também estão em [-1, 1].
Para otimizar ambos os aspectos, em uma modalidade, foi introduzida uma função de aptidão combinada:
<formula>formula see original document page 36</formula>
Aqui, cpi, que representa "importância do par de códons" , é um valor real maior do que zero e determina quais das duas funções de aptidão possui mais influência sobre a aptidão combinada. Com cpi perto de zero, o denominador se aproxima de zero quando fitsC(g) melhora (ou seja, também perto de zero) e, dessa forma, pequenas mudanças em fitsc{g) influenciam fitcombi(g) mais do que pequenas mudanças em fitcp{g) , enquanto, com um cpi elevado, ligeiros aumentos em fitcp{g) podem ter um efeito maior sobre fitcombi (g) do que aumentos médios em fitsc{g) Observe que os valores f Itcombi que são obtidos usando valores diferentes de cpi não são comparáveis (cpi perto de 0 pode resultar em valores fitcombi perto de -100, enquanto fitcombi normalmente entre O e -1 para cpi > 0,2) .
Em uma modalidade, é adicionada uma "penalidade" caso g contenha certas seqüências indesejadas, por exemplo, sítios de restrição ou seqüências que resultem em estruturas secundárias indesejadas no mRNA. Isso pode ser útil quando se constroem genes sintéticos, mas, por si próprio, não está relacionado à otimização de códon único e ao uso de par de códons. Uma função de aptidão modificada se torna:
<formula>formula see original document page 36</formula> em que P(g) representa uma função de penalidade que cria um peso positivo, caso uma estrutura de seqüência indesejada seja parte do gene g.
Deve-se entender que, nas modalidades da invenção, as seqüências de nucleotídeos e de aminoácidos podem ser seqüências teóricas que existem apenas, por exemplo, no papel ou em outro portador de dados que pode ser lido, preferivelmente, no computador, ou elas podem existir como uma modalidade fisicamente criada, tangível.
Portanto, em um primeiro aspecto, a invenção está relacionada a um método de otimização de uma seqüência de nucleotídeos codificadora que codifica uma seqüência de aminoácidos predeterminada, pelo qual a seqüência codificadora é otimizada para expressão em uma célula hospedeira predeterminada. 0 método preferivelmente compreende as etapas de: (a) geração de pelo menos uma seqüência codificadora original que codifica a seqüência de aminoácidos predeterminada; (b) geração de pelo menos uma seqüência codificadora recém gerada dessa (pelo menos uma) seqüência codificadora original por substituição nessa (pelo menos uma) seqüência codificadora original de um ou mais códons por um códon sinônimo; (c) determinação de um valor de aptidão da referida (pelo menos uma) seqüência codificadora original e um valor de aptidão da referida (pelo menos uma) seqüência codificadora recém gerada, ao mesmo tempo em que utiliza uma função de aptidão que determina pelo menos uma entre a aptidão de códon único e a aptidão de par de códons para a célula hospedeira predeterminada; (d) escolha de uma ou mais seqüências codificadoras selecionadas entre o referido (pelo menos um) gene original e a referida (pelo menos uma) seqüência codificadora recém gerada de acordo com um critério de seleção predeterminado, de tal forma que, quanto maior o referido valor de aptidão, maior a probabilidade de ser escolhida; e (e) a repetição das ações (b) a (d), tratando as referidas uma ou mais seqüências codificadoras selecionadas como uma ou mais seqüências codificadoras originais nas ações (b) a (d) até que um critério predeterminado de parada de repetição seja alcançado.
De acordo com uma modalidade da invenção, o método preferivelmente compreende as etapas de: (a) geração de pelo menos uma seqüência codificadora original que codifica a seqüência de aminoácidos predeterminada; (b) a geração de pelo menos uma seqüência codificadora recém gerada dessa (pelo menos uma) seqüência codificadora original por substituição nessa (pelo menos uma) seqüência codificadora original de um ou mais códons por um códon sinônimo; (c) a determinação de um valor de aptidão da referida (pelo menos uma) seqüência codificadora original e um valor de aptidão da referida (pelo menos uma) seqüência codificadora recém gerada, ao mesmo tempo em que utiliza uma função de aptidão que determina aptidão de par de códons para a célula hospedeira predeterminada; (d) escolha de uma ou mais seqüências codificadoras selecionadas entre o referido (pelo menos um) gene original e a referida (pelo menos uma) seqüência codificadora recém gerada de acordo com um critério de seleção predeterminado, de tal forma que, quanto maior o referido valor de aptidão, maior a probabilidade de ser escolhida; e (e) repetição das ações (b) a (d) , tratando as referidas uma ou mais seqüências codificadoras selecionadas como uma ou mais seqüências codif icadoras originais nas ações (b) a (d) até que um critério predeterminado de parada de repetição seja alcançado.
De acordo com outra modalidade da invenção, o método preferivelmente compreende as etapas de: (a) geração de pelo menos uma seqüência codificadora original que codifica a seqüência de aminoácidos predeterminada; (b) geração de pelo menos uma seqüência codificadora recém gerada dessa (pelo menos uma) seqüência codificadora original por substituição nessa (pelo menos uma) seqüência codificadora original de um ou mais códons por um códon sinônimo; (c) determinação de um valor de aptidão da referida (pelo menos uma) seqüência codificadora original e um valor de aptidão da referida (pelo menos uma) seqüência codificadora recém gerada, ao mesmo tempo em que utiliza uma função de aptidão que compreende a determinação da aptidão de códon único e da aptidão de par de códons para a célula hospedeira predeterminada; (d) escolha de uma ou mais seqüências codificadoras selecionadas entre o referido (pelo menos um) gene original e a referida (pelo menos uma) seqüência codificadora recém gerada de acordo com um critério de seleção predeterminado, de tal forma que, quanto maior o referido valor de aptidão, maior a probabilidade de ser escolhida; e (e) a repetição das ações (b) a (d) , tratando as referidas uma ou mais seqüências codificadoras selecionadas como uma ou mais seqüências codificadoras originais nas ações (b) a (d) até que um critério predeterminado de parada de repetição seja alcançado.
Nos métodos, de preferência, o critério de seleção predeterminado é tal que as referidas uma ou mais seqüências codificadoras selecionadas tenham o melhor valor de aptidão de acordo com um critério predeterminado. Os métodos de acordo com a invenção podem ainda compreender, após a ação (e) : seleção da melhor seqüência codificadora individual entre as referidas uma ou mais seqüências codificadoras selecionadas, em que a referida melhor seqüência codificadora individual possui um valor de aptidão melhor do que outras seqüências codificadoras selecionadas.
Nos métodos da invenção, o referido critério predeterminado de parada de repetição preferivelmente é pelo menos um de: (a) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui o melhor valor de aptidão acima de um valor limiar predeterminado; (b) testar se nenhuma das referidas seqüências codificadoras selecionadas possui o melhor valor de aptidão abaixo do referido valor limiar predeterminado; (c) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui pelo menos 30% dos pares de códons com pesos positivos associados do par de códons para a célula hospedeira predeterminada na referida seqüência codificadora original que está sendo transformada em pares de códons com pesos negativos associados; e (d) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui pelo menos 10, 20, 30, 40, 50, 60, 70, 80 ou 90% dos pares de códons com pesos positivos associados acima de 0 para a célula hospedeira predeterminada na referida seqüência codificadora original que está sendo transformada em pares de códons com pesos abaixo de 0 associados.
Nos métodos da invenção, a função de aptidão preferivelmente define a aptidão de códon único por meio de:
<formula>formula see original document page 41</formula> em que g simboliza uma seqüência codificadora, \g\ seu comprimento, gr(Jc) seu códon k-th, r^Tge'(c(k)) é uma proporção desejada de códon c(k) (ANEXO 2; vetores CR) e rf (c(k)) uma proporção real na seqüência de nucleotídeos codificadora g.
Nos métodos da invenção, a função de aptidão preferivelmente define a aptidão de par de códons por meio de:
<formula>formula see original document page 41</formula> em que w({c{k)), c(k +1)) é um peso de um par de códons em uma seqüência codificadora g, |gr| é o comprimento da referida seqüência de nucleotídeos codificadora, e c(k) ê o códon k-th na referida seqüência codificadora.
Mais preferivelmente, nos métodos da invenção, a função de aptidão é definida por meio de:
<formula>formula see original document page 41</formula> em que
<formula>formula see original document page 41</formula> cpi é um valor real maior ou igual a zero, fitcp(g) é uma função de aptidão do par de códons, fitsc{g) é uma função de aptidão de códon único, w{{c(k), c(k +1)) é um peso de um par de códons em uma seqüência codificadora g (ANEXO 3; matriz CPW) , |gr| é o comprimento da referida seqüência codificadora, c(k) é o códon k-th na referida seqüência de códons, r'°rget (c{k)) é uma proporção desejada de códon c(k), e rfc(c(k)) uma proporção real na seqüência codificadora g. De preferência, cpi é entre Oe 10, mais preferivelmente entre 0 e 0,5 e, principalmente, cerca de 0,2.
Nos métodos da invenção, os pesos do par de códons w (ANEXO 3) podem ser tomados de uma matriz de 64 χ 64 pares de códons que inclui códons de parada. Observe que os pesos para os pares de parada: senso e para os pares de parada: parada são sempre zero. Os pesos do par de códons w são calculados, de preferência, com base em um método automatizado, com o uso, como informação de entrada, de pelo menos um de: (a) uma seqüência genômica da célula hospedeira predeterminada para a qual pelo menos 5, 10, 2 0 ou 8 0% das seqüências de nucleotideos codificadoras de proteína são seqüenciadas; (b) uma seqüência genômica de uma espécie relacionada à célula hospedeira predeterminada para a qual pelo menos 5, 10, 20 ou 80% das seqüências de nucleotideos codificadoras de proteína são seqüenciadas; (c) um grupo de seqüências de nucleotideos que consiste em pelo menos 200 seqüências codificadoras da célula hospedeira predeterminada; e (d) um grupo de seqüências de nucleotideos que consiste em pelo menos 200 seqüências codificadoras de uma espécie relacionada à célula hospedeira predeterminada. 0 termo "espécie relacionada", como aqui usado, refere-se a uma espécie da qual a seqüência de nucleotídeos do RNA ribossômico de subunidade pequena possui pelo menos 60, 70, 80 ou 90% de identidade com a seqüência de nucleotídeos do RNA ribossômico de subunidade pequena da célula hospedeira predeterminada (Wuyt s e cols. , 2004, Nucleic Acids Res. !32: D101-D103).
Os pesos do par de códons w não precisam ser determinados para todos os 61 χ 64 pares de códons possíveis, incluindo o sinal de terminação como códon de parada, mas podem ser determinados apenas para uma fração destes, por exemplo, para pelo menos 5%, 10%, 20%, 50% e, de preferência, 100% dos 61 χ 64 pares de códons possíveis, incluindo o sinal de terminação como códon de parada. Seleção de genes altamente expressos
Para o cálculo das matrizes de peso do par de códons e da proporção de vetores de códon único-alvo, pode-se aplicar um conjunto de seqüências de nucleotídeos da própria célula hospedeira especificada, um conjunto de seqüências de nucleotídeos de uma espécie relacionada, ou uma combinação de ambos. 0 conjunto A de seqüências de nucleotídeos é denominado o "conjunto de referência ali". Principalmente, esse conjunto contém o conjunto completo de quadros de leitura aberta (ORFs) para um organismo que seja completamente seqüenciado (> 95%).
Em uma modalidade preferida da invenção, é selecionado um subconjunto B que contém um subconjunto que é super- representado com genes altamente expressos ou genes que codificam proteínas altamente expressas. Esse conjunto pode ser determinado com o uso de medidas, e subseqüente classificação, como uma hibridização de mRNA, com a utilização da tecnologia array, por exemplo, arrays de Affymetrix, Nirablegen, Agilent ou qualquer outra fonte para o conjunto de referência A. Outras medidas podem ser RT- PCR, géis de proteína, análise MS-MS ou qualquer outra técnica de medida conhecida por aqueles habilitados na técnica. Além de criar uma classificação com base em medidas, podem ser aplicadas ferramentas de bioinformática para prever diretamente um grupo de genes altamente expressos, por exemplo, por seleção dos genes com o maior viés (Carbone e cols., 2003), ou por seleção de genes que sabidamente são altamente expressos em uma grande variedade de organismos. Dentre esses estão genes de proteínas ribossômicas, glicolíticos e do ciclo de TCA envolvidos no metabolismo primário, genes envolvidos na transcrição e tradução.
De preferência, os pesos do par de códons w são calculados com base em um método automatizado, com o uso, como informação de entrada, do grupo de genes altamente expressos na célula hospedeira predeterminada. O termo "genes altamente expressos" é aqui usado significando genes cujos mRNAs podem ser detectados em um nível de pelo menos 10, preferivelmente 20, mais preferivelmente 50, mais preferivelmente 100, mais preferivelmente 500 e, principalmente, pelo menos 1.000 cópias por célula. Por exemplo, Gygi e cols. mediram -15.000 moléculas de mRNA por célula de levedura. A abundância de mRNAs específicos foi determinada como estando na faixa de 0,1-470 por célula (Gygi, S.P., Y. Rochon, B.R. Franza e R. Aebersold (1999) "Correlation between protein and mRNA abundance in yeast". Mol. Cel. Biol. 19(3): 1.720-30) ou um fator 10 vezes menor: 0,01-50 por célula (por Akashi, H. (2003) "Translational selection and yeast proteome evolution". Genetics 164 (4) : 1.291-1.303) .
Alternativamente, o grupo de genes altamente expressos na célula hospedeira predeterminada pode ser o grupo que compreende os 1.000, 500, 400, 300, ou 200 ou 100 mRNAs ou proteínas mais abundantes. Aqueles habilitados na técnica reconhecerão que, para o cálculo das proporções de códon único, o tamanho do grupo de genes altamente expressos pode ser pequeno, já que, no máximo, apenas 64 valores-alvo estão sendo especificados. Aqui, um conjunto de referência com genes altamente expressos pode ser de até mesmo 1 gene, mas geralmente se considera 1% do tamanho do genoma um conjunto representativo dos genes altamente expressos; veja, por exemplo, Carbone, A. e cols. (2003) ("Codon adapttion index as a measure of dominating codon bias" . Bioinformatics. 19(16): 2.005-15). Para o cálculo de um peso da matriz de par de códons, normalmente um conjunto de 200-500 genes de referência é suficiente, o que corresponde a 2-7% de um genoma bacteriano (3.000-15.000 genes).
Outra possibilidade consiste em derivar um subconjunto de genes presumivelmente altamente expressos da literatura. Por exemplo, para Bacillus subtilis, sendo um organismo- modelo, existe pouca literatura sobre viés de códon único. Uma boa visão geral sobre os dados mais atuais para B. subtilis é fornecida pelo trabalho de Kanaya e cols. (1999) . Em nossa abordagem, veja o exemplo 4, em que agrupamos os dados em um subconjunto de grupos altamente expressos com base nos níveis de mRNA medidos pela tecnologia Affymetrix, e comparamos essas seqüências com o conjunto total de ORFs do genoma. Outras opções que foram utilizadas na literatura consistem em dados de expressão de proteína, e grupos funcionais categóricos de genes (esperados) como proteínas ribossômicas, proteínas envolvidas na tradução e transcrição, esporulação, metabolismo de energia e o sistema flagelar (Kanaya e cols., 1999; Karlin e Mrazek, 2000).
Na verdade, freqüentemente se encontra, por exemplo, viés de códon elevado nas proteínas ribossômicas, bem como nos outros grupos especificados. No entanto, geralmente nem todos os genes nos últimos grupos apresentam esse comportamento. Além disso, não sabemos como as proteínas ribossômicas reagem em condições de produção de baixo crescimento. Portanto, uma técnica de medida direta para derivar um subconjunto de genes altamente expressos parece ser lógica. A seguir, podemos escolher dados do transcrissoma (TX) e/ou proteômicos (PX) . Para ambos, há prós e contras. TX fornece um quadro bem completo para os níveis de mRNA de genes no genoma completo, enquanto os dados de PX podem ter uma tendência por super-representação de proteínas hidrossolúveis. Os dados de TX são uma medida direta para o mRNA disponível que é submetido à tradução, enquanto a proteína é parte de um processo de acúmulo em que o turnover também tem uma participação importante. De qualquer forma, os dados de TX e PX estão correlacionados para os genes altamente expressos (Gygi e cols., 1999) . Outro trabalho interessante é a previsão de genes altamente expressos (PHX) por desvio do uso de códon médio e similaridade para proteínas ribossômicas, e aqueles envolvidos em fatores de processamento da tradução e transcrição, e para proteínas de degradação de chaperona (Karlin e Mrazek, 2000). Especificamente para organismos de crescimento rápido como, por exemplo, Bacillus, E. coli etc., constatou-se que os genes glicoliticos principais e os genes do ciclo do ácido tricarboxilico pertencem ao grupo acima. A previsão do método compara-se bem com genes altamente expressos conhecidos em dados de mRNA e expressão de proteína.
Aqueles habilitados na técnica observarão que tanto os pesos de códon único quanto os pesos do par de códons w podem ser determinados para células hospedeiras modificadas que foram modificadas com relação ao teor e natureza de seus genes codificadores de tRNA, ou seja, células hospedeiras que compreendem cópias adicionais de genes de tRNA existentes, novos genes de tRNA (exógenos) , incluindo genes de tRNA não naturais, incluindo genes que codificam o tRNA de atum que foram modificados para incluir aminoácidos não naturais ou outros compostos químicos, além de células hospedeiras nas quais um ou mais genes de tRNA foram inativados ou eliminados.
No método da invenção, a seqüência de nucleotídeos codificadora original que codifica uma seqüência de aminoácidos predeterminada pode ser selecionada de: (a) uma seqüência de nucleotídeos do tipo selvagem que codifica a seqüência de aminoácidos predeterminada; (b) uma tradução reversa da seqüência de aminoácidos predeterminada pela qual um códon para uma posição de aminoácido na seqüência de aminoácidos predeterminada é escolhido aleatoriamente dos códons sinônimos que codificam o aminoácido; e (c) uma tradução reversa da seqüência de aminoácidos predeterminada pela qual um códon para uma posição de aminoácido na seqüência de aminoácidos predeterminada é escolhido de acordo com um viés de códon único para célula hospedeira predeterminada ou uma espécie relacionada à célula hospedeira.
Células hospedeiras
Nos métodos da invenção, o hospedeiro predeterminado pode ser qualquer célula hospedeira ou organismo que seja adequado à produção de um polipeptídeo de interesse por meio de expressão de uma seqüência de nucleotideos codificadora otimizada. Dessa célula, a hospedeira pode ser uma célula hospedeira procariótica ou uma célula hospedeira eucariótica. A célula hospedeira pode ser uma célula hospedeira que é adequada à cultura em meios líquidos ou sólidos. Alternativamente, a célula hospedeira pode ser uma célula que é parte de um tecido multicelular ou um organismo multicelular como, por exemplo, uma planta (transgênica), animal ou ser humano.
As células hospedeiras podem ser microbianas ou não microbianas. Células hospedeiras não microbianas adequadas incluem, por exemplo, células hospedeiras mamíferas como, por exemplo, células de hamster: células CHO (de ovário de hamster chinês), BHK (de rim e filhote de hamster), células de camundongo (por exemplo, NSO) , células de macaco como, por exemplo, COS ou Vero; células humanas como, por exemplo, células PER.C6™ ou HEK-293; ou células de inseto como, por exemplo, células de Drosophila S2 e de Spodoptera Sf9 ou S f 21; ou células de plantas como, por exemplo, células de tabaco, tomate, batata, óleo de semente de canola, repolho, ervilha, trigo, milho, arroz, espécies de Taxusl por exemplo, Taxus brevifolia, espécies de Arabidopsis, por exemplo, Arabidopsis thaliana, e espécies de Nicotiana, por exemplo, Nicotiana tabacum. Essas células não microbianas são particularmente adequadas à produção de proteínas mamíferas ou humanas para uso em terapia de mamíferos ou seres humanos.
As células hospedeiras também podem ser células hospedeiras microbianas, por exemplo, células bacterianas ou fúngicas. Células hospedeiras bacterianas adequadas incluem bactérias tanto gram-positivas quanto gram- negativas. Exemplos de células hospedeiras bacterianas adequadas incluem bactérias dos gêneros Bacillus, Actinomycetis, Escheriehia, Streptomyees, além bactérias de ácido lático como, por exemplo, Laetobaeillus, Streptoeoeeus, Laetoeoceus, Oenoeoeeus, Leuconostoc, Pedioeoeeus, Carnobaeterium, Propionibacterium,
Enteroeoeeus e Bifidobaeterium. São particularmente preferidos Baeillus subtilis, Baeillus amyloliquefaeiens, Baeillus lieheniformis, Escheriehia eoli, Streptomyces eoelieolor, Streptomyees clavuligerus e Laetobaeillus plantarum, Laetoeoceus lactis.
Alternativamente, a célula hospedeira pode ser um microorganismo eucariótico como, por exemplo, uma levedura ou um fungo filamentoso. Leveduras preferidas como células hospedeiras pertencem aos gêneros Saccharomyces, Kluyveromyces, Candida, Piehiar Schizosaceharomyees, Hansenula, Kloeekera, Schwanniomyees e Yarrowia. Células hospedeiras de Debaromyces particularmente preferidas incluem Saccharomyees eerevisiae e Kluyveromyces lactis.
De acordo com uma modalidade mais preferida, a célula hospedeira da presente invenção é uma célula de um fungo filamentoso. "Fungos filaraentosos" incluem todas as formas filamentosas das subdivisões Eumycota e Oomycota (como definidas por Hawksworth e cols., 1995, supra). Os fungos filamentosos são caracterizados por uma parede de micélios composta por quitina, celulose, glucano, quitosana, manana e outros polissacarídeos complexos. O crescimento vegetativo é por alongamento de hifas e o catabolismo carbono é obrigatoriamente aeróbico. Gêneros de fungos filamentosos dos quais cepas podem ser usadas como células hospedeiras na presente invenção incluem, sem limitação, cepas dos gêneros Acremonium, Aspergillus, Aureobasidium, Cryptococcus,Filibasidium,Fusarium,Humicola,
Magnaporthe, Mucor, Myceliophthora, Neocallimastix, Neurospora,Paeeilomyces, Penieillium,Piromyees,
Sehizophyl Ium, Chrysosporium, Talaromyees, Thermoaseus, Thielaviar Tolypocladium e Triehoderma. De preferência, um fungo filamentoso pertencente a uma espécie selecionada do grupo que consiste em Aspergillus niger, Aspergillus oryzae, Aspergillus sojae, Triehoderma reesei ou Penieillium ehrysogenum. Exemplos de cepas hospedeiras adequadas incluem: Aspergillus niger CBS 513.88 (Pel e cols., 2007, Nat. Bioteeh. 25: 221-231), Aspergillus oryzae ATCC 20423, IFO 4177, ATCC 1011, ATCC 9576, ATCC14488- 14491, ATCC 11601, ATCC12892, P. ehrysogenum CBS 455.95, Penieillium eitrinum ATCC 3 8 065, Penieillium ehrysogenum P2, Acremonium ehrysogenum ATCC 3 6225 ou ATCC 48272, Trichoderma reesei ATCC 2 6 921 ou ATCC 56765 ou ATCC 26921, Aspergillus sojae ATCC11906, Chrysosporium lucknowense ATCC44 0 06 e derivados destas.
A célula hospedeira pode ser uma célula hospedeira de fungo filamentoso do tipo selvagem ou uma variante, um mutante ou uma célula hospedeira geneticamente modificada de um fungo filamentoso. Essas células hospedeiras modificadas de um fungo filamentoso incluem, por exemplo, células hospedeiras com níveis reduzidos de protease, por exemplo, as cepas deficientes em protease como Aspergillus OTyzae JaL 125 (descrita em WO 97/35956 ou EP 429 490) ; a cepa deficiente em tripeptidil-aminopeptidases de A. niger, como revelado em WO 96/14404, ou células hospedeiras com produção reduzida do ativador de transcrição de protease (prtT; como descrito em WO 01/68864, U.S. 2004/0191864A1 e WO 2006/040312); cepas hospedeiras como a Aspergillus oryzae BECh2, na qual três genes de amilase TAKA, dois genes de protease, além da habilidade para formar os metabólitos ácido ciclopiazônico e ácido kójico foram inativados (BECh2 é descrito em WO 00/39322); células hospedeiras de fungos filamentosos que compreendem uma resposta elevada de proteína desdobrada (UPR) comparadas com a célula do tipo selvagem para aumentar a capacidade de produção de um polipeptídeo de interesse (descritas em U.S.004/018 6 07 OAl, U.S. 2001/0034045A1, WO 01/72783A2 e WO 2005/123763); células hospedeiras com um fenótipo deficiente em oxalato (descritas em WO 2004/070022A2 e WO 2000/50576); células hospedeiras com uma expressão reduzida de um polipeptídeo endógeno abundante como, por exemplo, uma glicoamilase, alfa-amilase A neutra, alfa-amilase B neutra, alfa-1, 6-transglicosidase, proteases, celobiohidrolase e/ou ácido oxálico hidrolase (que podem ser obtidas por modificação genética de acordo com as técnicas descritas em U.S. 2004/0191864A1); células hospedeiras com uma eficiência de recombinação homóloga aumentada (que possuem o gene hdfA ou hdfB deficiente, como descrito em WO 2005/095624); e células hospedeiras que possuem qualquer combinação possível dessas modificações.
Em um método da invenção, a seqüência de aminoácidos predeterminada pode ser uma seqüência de aminoácidos (de um polipeptídeo de interesse) que seja heteróloga para a referida célula hospedeira predeterminada, ou ela pode ser uma seqüência de aminoácidos (de um polipeptídeo de interesse) que seja homóloga para a referida célula hospedeira predeterminada.
O termo "heterólogo" quando usado com relação a um ácido nucléico (DNA ou RNA) ou proteína refere-se a um ácido nucléico ou proteína que não ocorre naturalmente como parte do organismo, célula, genoma ou seqüência de DNA ou RNA no qual está presente, ou que é encontrado em uma célula ou localização ou localizações no genoma ou seqüência de DNA ou RNA que diferem daquelas nas quais é encontrado na natureza. Ácidos nucléicos ou proteínas heterólogas não são endógenos para a célula na qual são introduzidos, mas foram obtidos de outra célula ou produzidos de forma sintética ou recombinante. Geralmente, embora não necessariamente, esses ácidos nucléicos codificam proteínas que não são normalmente produzidas pela célula na qual o ácido nucléico é expresso. Qualquer ácido nucléico ou proteína que aqueles habilitados na técnica reconheceriam como heterólogo ou estranho à célula na qual é expresso é aqui englobado pelo termo ácido nucléico ou proteína heteróloga. 0 termo heterólogo também se aplica às combinações não naturais de seqüências de ácidos nucléicos ou de aminoácidos, ou seja, combinações nas quais pelo menos duas das seqüências combinadas são estranhas entre elas.
O termo "homólogo", quando usado pra indicar a relação entre certa molécula (recombinante) de ácido nucléico ou polipeptídeo e certo organismo hospedeiro ou célula hospedeira, visa significar que, na natureza, a molécula de ácido nucléico ou polipeptídeo é produzida por uma célula hospedeira ou organismos da mesma espécie, preferivelmente da mesma variedade ou cepa.
A seqüência de aminoácidos predeterminada pode ser a seqüência de qualquer polipeptídeo de interesse que possua uma aplicabilidade ou utilidade comercial ou industrial. Dessa forma, o polipeptídeo de interesse pode ser um anticorpo ou uma porção deste, um antígeno, um fator da coagulação, uma enzima, um hormônio ou uma variante hormonal, um receptor ou porções deste, uma proteína reguladora, uma proteína estrutural, um repórter ou uma proteína de transporte, uma proteína intracelular, uma proteína envolvida no processo de secreção, uma proteína envolvida no processo de enovelamento, chaperona, transportador peptídico de aminoácido, fator de glicosilação, fator de transcrição. De preferência, o polipeptídeo de interesse é secretado no ambiente extracelular da célula hospedeira pela via de secreção clássica, por uma via de secreção não clássica ou por uma via de secreção alternativa (descrita em WO 2006/040340) . Caso o polipeptídeo de interesse seja uma enzima, ele pode ser, por exemplo, uma oxidorredutase, transferase, hidrolase, liase, isomerase, ligase, catalase, celulase, quitinase, cutinase, desoxirribonuclease, dextranase, esterase. Enzimas mais preferidas incluem, por exemplo, carboidrases, por exemplo, celulases como, por exemplo, endoglucanases, β-glucanases, celobiohidrolases ou β- glicosidases, hemicelulases ou enzimas pectinoliticas como, por exemplo, xilanases, xilosidases, mananases, galactanases, galactosidases, pectina metil esterases, pectina liases, pectato liases, endopoligalacturonases, exopoligalacturonases ramnogalacturonases, arabanases, arabinofuranosidases,arabinoxilano hidrolases, galacturonases, liases, ou enzimas amilolíticas; hidrolase, isomerase ou ligase, fosfatases como, por exemplo, fitases, esterases, por exemplo, lipases, enzimas proteoliticas, oxidorredutases, por exemplo, oxidases, transferases ou isomerases, fitases, aminopeptidases, carboxipeptidases, endoproteases, metaloproteases, serina-proteases, catalases,quitinases,cutinases, ciclodextrina glicosiltransferases,desoxirribonucleases,alfa- galactosidases, beta-galactosidases, glicoamilases, alfa- glicosidases, beta-glicosidases,haloperoxidases, invertases, lacases, manosidase, mutanases, peroxidases, fosfolipases, polifenoloxidases,ribonucleases, transglutaminases, glicose oxidases, hexose oxidases e monooxigenases. Várias proteínas terapêuticas de interesse incluem, por exemplo, anticorpos e fragmentos destes, insulina humana e análogos desta, lactoferrina humana e análogos desta, hormônio do crescimento humano, eritropoietina, ativador de plasminogênio tecido (tPA) ou insulinotropina. O polipeptídeo pode estar envolvido na síntese de um metabólito, preferivelmente ácido cítrico. Esses polipeptídeos incluem, por exemplo: aconitato hidratase, aconitase hidroxilase, 6 -fosfofrutoquinase, citrato sintase, carboxifosfonoenolpiruvato fosfonomutase, glicolato redutase, precursor da glicose oxidase goxC, nucleosídeo-difosfato-açúcar epimerase, glicose oxidase, manganês-superóxido-dismutase, citrato liase, ubiqüinona redutase,proteínas transportadoras, proteínas transportadoras de citrato, proteínas respiratórias mitocondriais e proteínas transportadoras de metal.
Computador, programa e portador de dados
Em um aspecto adicional, a invenção está relacionada a um computador que compreende um processador e memória, o processador sendo configurado para ler da referida memória e escrever na referida memória, a memória compreendendo dados e instruções configurados para fornecer ao referido processador a capacidade para efetuar o método da invenção.
Em outro aspecto, a invenção está relacionada a um programa de computador que compreende dados e instruções e configurado para ser carregado em uma memória de um computador que também compreende um processador, o processador sendo configurado para ler da referida memória e escrever na referida memória, os dados e as instruções sendo configurados para fornecer ao referido processador a capacidade de efetuar o método da invenção.
Ainda em outro aspecto, a invenção está relacionada a um portador de dados fornecido com um programa de computador como definido acima.
Moléculas de ácido nucléico
Em um aspecto adicional, a invenção está relacionada a uma molécula de ácido nucléico que compreende uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada. A seqüência codificadora preferivelmente é uma seqüência de nucleotideos que não se parece com uma seqüência codificadora de ocorrência natural. Em vez disso, a seqüência codificadora na molécula de ácido nucléico é uma seqüência de nucleotideos que não é encontrada na natureza, mas é uma seqüência artificial, ou seja, uma seqüência de nucleotideos projetada, feita a mão, que foi gerada com base no método para otimização de viés de códon único e/ou de par de códons para uma célula hospedeira predeterminada de acordo com os métodos aqui definidos, e que foi subseqüentemente sintetizada como uma molécula de ácido nucléico tangível. De preferência, a seqüência codificadora possui um fit3C{g) de pelo menos abaixo de 0,2, ou, mais pref erivelmente, abaixo de 0,1, e, principalmente, abaixo de 0,02, para uma célula hospedeira predeterminada. Mais preferivelmente, a seqüência codificadora possui um fitcp{g) de pelo menos abaixo de 0 para uma célula hospedeira predeterminada. Principalmente, a seqüência codificadora possui um fitcp(g) de pelo menos abaixo de -0,1 para uma célula hospedeira predeterminada, ou, mais preferivelmente, pelo menos abaixo de -0,2. De preferência, o número de par de códons em um gene otimizado g contém pelo menos 60, 70, 75, 80, 85% pares de códons e, principalmente, pelo menos 90% pares de códons com pares de códons negativos associados para os organismos hospedeiros especificados.
A seqüência de aminoácidos predeterminada codificada pela seqüência codificadora pode ser qualquer polipeptídeo de interesse, como aqui definido acima, e também a célula hospedeira predeterminada pode ser qualquer célula hospedeira como aqui definida acima.
Na molécula de ácido nucléico, a seqüência codificadora preferivelmente está ligada operacionalmente a uma seqüência de controle da expressão que é capaz de dirigir a expressão da seqüência codificadora na célula hospedeira predeterminada. No contexto da invenção, uma seqüência de controle é definida como uma seqüência de nucleotídeos associada operacionalmente a uma seqüência codificadora quando presente, e que inclui todos os componentes necessários ou vantajosos para a expressão da seqüência de nucleotídeos que codifica o polipeptídeo a ser produzido. Cada seqüência de controle pode ser nativa ou estranha à seqüência de nucleotídeos que codifica o polipeptídeo a ser produzido. Essas seqüências de controle podem incluir, sem limitação, uma seqüência líder, uma seqüência de poliadenilação, uma seqüência pró-peptídica, um promotor, uma seqüência iniciadora da tradução, uma seqüência codificadora de um iniciador da tradução, uma seqüência terminadora da transcrição da tradução e uma seqüência terminadora da transcrição. As seqüências de controle podem ser fornecidas com vinculadores, por exemplo, com o objetivo de introduzir sítios de restrição específicos que facilitam a ligação das seqüências de controle com a região codificadora da seqüência de nucleotídeos que codifica um polipeptídeo.
Seqüências de controle da expressão compreenderão normalmente minimamente um promotor. Como aqui usado, o termo "promotor" refere-se a um fragmento de ácido nucléico que funciona para controlar a transcrição de um ou mais genes, localizado acima em relação à direção de transcrição do sitio de iniciação da transcrição do gene, e é estruturalmente identificado pela presença de um sitio de ligação para RNA polimerase DNA-dependente, sítios de iniciação da transcrição e quaisquer outras seqüências de DNA, que incluem, sem limitação, sítios de ligação de fator da transcrição, sítios de ligação de proteína repressores e ativadores e quaisquer outras seqüências de nucleotídeos conhecidas por aqueles habilitados na técnica por atuarem, direta ou indiretamente, para regular a quantidade de transcrição pelo promotor. Um promotor "constitutivo" é um promotor que é ativo sob a maioria das condições ambientais e de desenvolvimento. Um promotor "indutível" é um promotor que é ativo sob regulação ambiental ou de desenvolvimento.
Um segmento de DNA, por exemplo, uma seqüência de controle da expressão, está "ligado operacionalmente" quando está colocado em um relacionamento funcional com outro segmento de DNA. Por exemplo, um promotor ou intensificador está ligado operacionalmente a uma seqüência codificadora caso estimule a transcrição da seqüência. O DNA para uma seqüência sinalizadora está ligado operacionalmente a um DNA que codifica um polipeptídeo caso seja expresso como uma pré-proteína que participa na secreção do polipeptídeo. Geralmente, seqüências de DNA que estão ligadas operacionalmente são contíguas e, no caso de uma seqüência sinalizadora, ambas são contíguas e em fase de leitura. No entanto, intensificadores não precisam ser contíguos com as seqüências codificadoras cuja transcrição elas controlam. A ligação é obtida por ligação em sítios de restrição convenientes ou em adaptadores, vinculadores ou fragmentos de PCR por meios conhecidos na técnica.
A seleção de uma seqüência promotora apropriada geralmente depende da célula hospedeira selecionada para a expressão do segmento de DNA. Exemplos de seqüências promotoras adequadas incluem promotores procarióticos e eucarióticos bem conhecidos na técnica (veja, por exemplo, Sambrook e Russell, 2001, "Molecular Cloning: A Laboratory Manual" (3" edição), Cold Spring Harbor Laboratory, Cold Spring Harbor Laboratory Press, Nova York). As seqüências reguladoras da transcrição tipicamente incluem um intensificador ou promotor heterólogo que é reconhecido pelo hospedeiro. A seleção de um promotor apropriado depende do hospedeiro, mas promotores como, por exemplo, os promotores trp, Iac e fago, promotores de tRNA e promotores de enzimas glicolíticas são conhecidos e disponíveis (veja, por exemplo, Sambrook e Russell, 2001, supra). Exemplos de promotores indutíveis preferidos que podem ser usados são promotores indutíveis por amido, cobre, ácido oléico. Promotores preferidos para células hospedeiras de fungos filamentosos, por exemplo, incluem o promotor de glicoamilase de A. niger ou o promotor de amilase TAKA de A. oryzae e os promotores descritos em WO 2005/100573.
A seqüência de nucleotídeos da invenção pode ainda compreender uma seqüência sinalizadora ou, em vez disso, uma região codificadora de um peptídeo sinalizador. Uma seqüência sinalizadora codifica uma seqüência de aminoácidos ligada ao terminal amino do polipeptídeo, que pode dirigir o polipeptídeo expresso na via secretora da célula. Seqüências sinalizadoras normalmente contêm um centro hidrofóbico de cerca de 4-15 aminoácidos, que é freqüentemente imediatamente precedido por um aminoácido básico. Na extremidade do terminal carboxil do peptídeo sinalizador, há um par de pequenos aminoácidos sem carga, separados por um único aminoácido interveniente que define o sítio de clivagem do peptídeo sinalizador (von Heijne, G. (1990) J. Mewbrane Biol. 115: 195-201). Apesar de suas similaridades estruturais e funcionais globais, peptídeos sinalizadores nativos não possuem uma seqüência de consenso. Regiões codificadoras do peptídeo sinalizador adequadas podem ser obtidas por um gene de glicoamilase ou um gene de amilase de uma espécie de Aspergillus, um gene de lipase ou proteinase de uma espécie de Rhizomucor, o gene para o fator alfa de Saccharomyces cerevisiae, um gene de amilase ou um gene de protease de uma espécie de Bacillus, ou o gene pré-pró-quimosina de bezerro. No entanto, qualquer região codificadora de peptídeo sinalizador capaz de dirigir a proteína expressa na via secretora de uma célula hospedeira de escolha pode ser usada na presente invenção. Regiões codificadoras de peptídeo sinalizador preferidas para células hospedeiras de fungos filamentosos são a região codificadora de peptídeo sinalizador obtida do gene de amilase de Aspergillus oryzae TAKA (EP 238 023), do gene de amilase neutra Aspergillus niger, gene de glicoamilase de Aspergillus niger, o gene de aspártico proteinase de Rhizomueor miehei, o gene de celulase de Humieola lanuginosa, de celulase de Humicola. insolens, de cutinase de Humicola insolens, o gene de lipase B de Candida antaretiea ou o gene de lipase de Rhizomueor miehei e uma seqüência sinalizadora mutante, truncada e híbrida destes. Em uma modalidade preferida da invenção, a seqüência de nucleotídeos que codifica a seqüência sinalizadora é uma parte integral da seqüência codificadora que é otimizada com relação ao viés de códon único e/ou de par de códons para o hospedeiro predeterminado.
Na molécula de ácido nucléico da invenção, a seqüência codificadora está ainda preferivelmente ligada operacionalmente a uma da seqüência iniciadora da tradução. Em eucariotas, a seqüência de nucleotídeos de consenso (6- 12 nucleotídeos) antes do códon iniciador ATG é freqüentemente denominada seqüência de consenso de Kozak em função do trabalho inicial sobre esse tópico (Kozak, M. (1987): "An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs". Nucl. Acid Res. 15(20): 8.125-47) . A seqüência de consenso de Kozak original, CCCGCCGCCrCC(ATG)G, que inclui um nucleotídeo +4 derivado por Kozak, está associada à iniciação de tradução em eucariotas superiores. Para células hospedeiras de procariotas, a seqüência de Shine-Delgarno correspondente (AGGAGG) está presente preferivelmente na região não traduzida 5' de mRNAs procarióticos para servir como um sítio de início da tradução para ribossomos.
No contexto desta invenção, o termo "da seqüência iniciadora da tradução" é definido como os dez nucleotídeos imediatamente acima do códon iniciador ou de partida do quadro de leitura aberta de uma seqüência de DNA que codifica um polipeptídeo. 0 códon iniciador ou de partida codifica o aminoácido metionina. O códon iniciador é tipicamente ATG, mas também pode ser qualquer códon de partida funcional como, por exemplo, GTG, TTG ou CTG. Em uma modalidade particularmente preferida da invenção, a molécula de ácido nucléico compreende uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada que deve ser expressa em uma célula hospedeira fúngica, ou seja, a célula hospedeira predeterminada é preferivelmente um fungo, sendo mais preferidos fungos filamentosos. Moléculas de ácido nucléico que compreendem seqüências codificadoras que são otimizadas para expressão em fungos de acordo com a invenção podem ainda compreender um ou mais dos seguintes elementos: 1) uma seqüência iniciadora da tradução de consenso fúngica; 2) uma seqüência codificadora de um iniciador da tradução fúngica; e 3) uma seqüência de terminação da tradução fúngica.
Uma seqüência iniciadora da tradução de consenso fúngica preferivelmente é definida pelas seguintes seqüências: 5'-mwChkyCAmv-3' , usando a ambigüidade que codifica os nucleotideos: m (A/C); r (A/G); w (A/T); s (C/G); y (C/T); k (G/T); V (A/C/G); h (A/C/T); d (A/G/T); b (C/G/T) ; η (A/C/G/T) . De acordo com uma modalidade mais preferida, as seqüências são: 5'-mwChkyCAAA-3'; 5'- mwChkyCACA-3' ou 5'-mwChkyCAAG-3 ' . Principalmente, a seqüência de iniciação da tradução de consenso é 5'- CACCGTCAAA-3' ou 5'-CGCAGTCAAG- 3' .
No contexto desta invenção, o termo "seqüência codificadora de um iniciador da tradução de consenso" é aqui definido como os nove nucleotideos imediatamente abaixo do códon iniciador do quadro de leitura aberta de uma seqüência codificadora (o códon iniciador é tipicamente ATG, mas também pode ser qualquer códon de partida funcional como, por exemplo, GTG) . Uma seqüência codificadora de um iniciador da tradução de consenso fúngica preferida possui a seguinte seqüência de nucleotídeo: 5'-GCTnCCyyC-3', usando a ambigüidade que codifica os nucleotídeos y (C/T) e η (A/C/G/T). Isso leva a 16 variantes para a seqüência codificadora de um iniciador da tradução, das quais 5'- GCT TCC TTC -3' é a mais preferida. Utilizando-se uma seqüência codificadora de um iniciador da tradução de consenso, os seguintes aminoácidos são permitidos nas posições de aminoácido mencionadas: alanina em +2, alanina, serina, prolina ou treonina em +3, e fenilalanina, serina, leucina ou prolina na posição +4 no polipeptideo que é codificado. De preferência, na presente invenção, a seqüência codificadora de um iniciador da tradução de consenso é estranha à seqüência de ácidos nucléicos que codifica o polipeptideo a ser produzido, mas o iniciador da tradução de consenso pode ser nativo para a célula hospedeira fúngica.
No contexto desta invenção, o termo "seqüência de terminação da tradução" é definido como os quatro nucleotídeos que começam no códon de parada da tradução na extremidade 3' do quadro de leitura aberta ou da seqüência codificadora. Seqüências de terminação da tradução fúngicas preferidas incluem: 5'-TAAG-3', 5'-TAGA-3' e 5'-TAAA-3', das quais 5'-TAAA-3' é a mais preferida.
Uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada que deve ser expressa em uma célula hospedeira fúngica é ainda preferivelmente otimizada com relação à freqüência de códon único, de tal forma que pelo menos um, dois, três, quatro ou cinco códons originais, mais preferivelmente pelo menos 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 50%, 75%, 80%, 85%, 90% ou 95% dos códons originais, foram trocados por um códon sinônimo, o códon sinônimo codificando o mesmo aminoácido que o códon nativo e possuindo uma freqüência maior no uso de códon, como definido na Tabela A, do que o códon original.
Tabela A: Freqüência ótima de códon de fungos filamentosos para códons sinônimos em %.
<table>table see original document page 64</column></row><table> <formula>formula see original document page 65</formula>
Uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada ainda mais preferida que deve ser expressa em uma célula hospedeira fúngica é preferivelmente ainda otimizada com relação à freqüência de códon único, de tal forma que pelo menos um, dois, três, quatro ou cinco códons originais, mais preferivelmente pelo menos 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 25%, 50%, 75%, 80%, 85%, 90% ou 95% dos códons originais, tenham sido trocados por um códon sinônimo, o códon sinônimo alterando a freqüência de códons, de tal forma que o valor da diferença absoluta entre a percentagem para o referido códon na referida freqüência e a percentagem ótima listada se torna menor após a modificação, com a aplicação da seguinte lista de percentagens ótimas: cisteína codificada por TGC (100%); fenilalanina por TTC (100%); histidina por CAC (100%) ; Iisina por AAG (100%) ; asparagina por AAC (100%) ; glutamina por CAG (100%) ; tirosina por TAC (100%) ; alanina por GCT (38,0%), GCC (50,7%) ou GCG (11,3%); aspartato por GAC (63,2%); glutamato por GAG (74,2%); glicina por GGT (49,0%), GGC (35,9%), GGA (15,1%); isoleucina por ATT (26,7%), ATC (73,3%); Ieucina por TTG (12,7%), CTT (17,4%), CTC (38,7%), CTG (31,2%); prolina por CCT (35,6%), CCC (64,4%); arginina por CGT (49,1%), CGC (50,9%); serina por TCT (20,8%), TCC (44,0%), TCG (14,4%), AGC (20,8%); treonina por ACT (29,7%), ACC (70,3%) e/ou valina por GTT (27,4%), GTC (54,5%), GTG (18,1%); e todos os outros códons codificadores de aminoácidos possíveis (0%) .
As moléculas de ácido nucléico definidas acima que compreendem as seqüências codificadoras da invenção (para expressão em uma célula hospedeira predeterminada) podem ainda compreender os elementos que são normalmente encontrados em vetores de expressão como, por exemplo, um marcador selecionável, uma origem de replicação e/ou seqüências que facilitem a integração, preferivelmente por meio de recombinação homóloga em um sítio predeterminado no genoma. Esses elementos adicionais são bem conhecidos na técnica e não precisam ser adicionalmente explicados nesta especificação.
Em um aspecto adicional, a invenção está relacionada a uma célula hospedeira que compreende uma molécula de ácido nucléico, como aqui definida acima. A célula hospedeira preferivelmente é uma célula hospedeira, como aqui definida acima.
Ainda em um aspecto adicional, a invenção está relacionada a um método para a produção de um polipeptídeo que possui a seqüência de aminoácidos predeterminada. O método preferivelmente compreende o cultivo de uma célula hospedeira que compreende uma molécula de ácido nucléico, como aqui definida acima, sob condições que conduzem à expressão do polipeptídeo e, opcionalmente, à recuperação do polipeptídeo.
Ainda em um aspecto adicional, a invenção está relacionada a um método para a produção de pelo menos um de um metabólito intracelular e um metabólito extracelular. O método compreendendo o cultivo de uma célula hospedeira, como aqui definida acima, sob condições que conduzem à produção do metabólito. De preferência, no hospedeiro, o polipeptídeo que possui a seqüência de aminoácidos predeterminada (que é codificada pela molécula de ácido nucléico, como definido acima) está envolvido na produção do metabólito. O metabólito (seja ele um metabólito primário ou secundário, ou ambos; seja ele intracelular, extracelular, ou ambos) pode ser qualquer produto de fermentação que possa ser produzido em um processo de fermentação. Esses produtos de fermentação incluem, por exemplo, aminoácidos como, por exemplo, lisina, ácido glutâmico, leucina, treonina, triptofano; antibióticos, incluindo, por exemplo, ampicilina, bacitracina, cefalosporinas, eritromicina, monensina, penicilinas, estreptomicina, tetraciclinas, tilosina, macrolídeos e quinolonas; antibióticos preferidos são cefalosporinas e beta-lactamas; lipídeos e ácidos graxos incluindo, por exemplo, ácidos graxos poliinsaturados (PUFAs); alcanol, por exemplo, etanol, propanol e butanol; polióis como, por exemplo, 1,3-propanodiol, butanodiol, glicerol e xilitol; cetonas como, por exemplo, acetona; aminas, diaminas, etileno; isoprenóides como, por exemplo, carotenóides, caroteno, astaxantina, licopeno, luteína; ácido acrílico, esteróis como, por exemplo, colesterol e ergosterol; vitaminas incluindo, por exemplo, as vitaminas A, B2, B12, C, D, E e K, e ácidos orgânicos incluindo, por exemplo, ácido glucárico, ácido glucônico, ácido glutárico, ácido adípico, ácido succínico, ácido tartárico, ácido oxálico, ácido acético, ácido lático, ácido fórmico, ácido málico, ácido maléico, ácido malônico, ácido cítrico, ácido fumárico, ácido itacônico, ácido levulínico, ácido xilônico, ácido aconítico, ácido ascórbico, ácido kójico e ácido comérico; um ácido orgânico preferido é o ácido cítrico.
Neste documento e em suas reivindicações, o verbo "compreender" e suas conjugações são usados em seu sentido não limitante, significando que itens após a palavra são incluídos, mas itens não mencionados especificamente não são excluídos. Além disso, uma referência a um elemento pelo artigo indefinido "um" ou "uma" não exclui a possibilidade de que mais de um dos elementos esteja presente, a menos que o contexto indique claramente que há um, e apenas um, dos elementos. Dessa forma, o artigo indefinido "um" ou "um" normalmente significa "pelo menos um" .
Exemplos
.1. Exemplo 1: Análise do viés de par de códons
.1.1 Material e métodos
.1.1.1 Dados e software
A análise de par de códons pode ser realizada em seqüências codificadoras (CDS) em dados de seqüência do genoma inteiro, bem como em grupos parciais derivados destes (ou uma seqüência genômica parcial como, por exemplo, bibliotecas de cDNA/EST, ou até mesmos dados parciais do genoma de múltiplos genomas de organismos relacionados). As ferramentas usadas na presente invenção lêem esses dados usando arquivos FASTA como informação de entrada. A grande maioria de todos os cálculos foi efetuada em MATLAB 7.01 (The MathWorks, Inc., www.mathworks.com), mas para algumas análises detalhadas dos resultados obtidos foi utilizado Spotfire DecisionSite 8.0 (Spotfire, Inc., http://www.spotfire.com/produtos/decisionsite.cfm).
Para A. niger, um arquivo FASTA com seqüências de cDNA previstas para o genoma completo de CBS513.88 (Pel e cols., 2007, Nat. Biotech. 25: 221-231) e um grupo de 479 genes altamente expressos foram usados. Além disso, na medida em que normalmente menos da metade dos >14.000 genes em A. niger é expressa ao mesmo tempo sob condições de fermentação em escala piloto, dados de 24 GeneChips obtidos com a utilização dessas condições foram usados para extrair um segundo conjunto de genes que inclui apenas genes que são realmente expressos dentro dos vários experimentos (levando em conta apenas genes com pelo menos 18 chamadas de "presente", com o uso do software de análise array de Affymetrix MAS 5.0; esse conjunto era composto por 4.584 genes) e para classificá-los de acordo com o nível de mRNA observado (já que não havia outros dados disponíveis naquele momento) e, portanto, um conjunto de genes (presumivelmente) altamente expressos de qualquer tamanho pode ser identificado facilmente. Esse segundo conjunto foi criado para ser capaz de classificar os dados de acordo com seu nível de expressão. Para essa análise, utilizamos os níveis de transcrição dos genes. Alternativamente, pode-se também aplicar dados quantitativos da expressão de proteína, por exemplo, por eletroforese em gel bidimensional das proteínas e subseqüente identificação por meio de espectrometria de massa. No entanto, a geração da expressão de proteína em grandes conjuntos de proteínas é ainda bem demorada, em comparação com a determinação dos níveis de mRNA (por exemplo, com o uso de genechips) . Portanto, o que fizemos foi o estudo do efeito do viés de códon sobre a tradução, antes de a tradução ter realmente acontecido. Gygi e cols. (Yeast. Mol. Cel. Biol. 19(3): 1.720-30) realmente encontraram uma "correlação dos níveis de expressão de proteína e de mRNA com o viés de códon" em E. coli, embora a correlação dos níveis de expressão de mRNA e de proteína tenha sido bem rudimentar. Dessa forma, o termo "nível de expressão" será usado neste texto quando, na verdade, apenas o efeito sobre o nível de transcrição tiver sido determinado.
Para Bacill us subtilis, um organismo que contém em torno de 4.000 genes, havia disponível um grupo de 300 genes altamente expressos e que foi analisado. Veja a Tabela 1.1 para uma visão geral das propriedades básicas dos genomas de todos os organismos que foram consideradas neste estudo (no entanto, nem todas elas serão descritas em detalhe).
Em cada análise, (supostos) genes que incluíam um ou mais códons de parada em outra posição que não a extremidade e seqüências com um comprimento não divisível por três (ou seja, quando uma alteração ribossômica da fase de leitura possa ter ocorrido durante o seqüenciamento) foram ignoradas. Além disso, os primeiros cinco e os últimos cinco códons de cada gene não foram considerados, porque esses sítios podem estar envolvidos na ligação de proteína e eficiência de liberação e, portanto, estão sujeitos a pressões de seleção diferentes das de outras partes da seqüência; dessa forma, o viés de códon e o viés de par de códons podem não ser representativos. ORFs (ORF = quadro de leitura aberta) mais curtos do que 2 0 códons também foram omitidos da análise. Na Tabela 1.1, esse fato já foi levado em conta.
Tabela 1.1 Teor de nucleotídeos de vários organismos, incluindo número de ORFs e tamanho do genoma em mega pares de bases (Mbp).
<table>table see original document page 71</column></row><table>
1.1.2 Ocorrências esperadas de pares de códons A fim de analisar o uso de par de códons, inicialmente foram contadas as ocorrências de cada códon único e de cada par de códons, representadas abaixo por ^obsHcnCj)), em que obs representa observada. Os parênteses duplos são necessários para indicar que o "número observado", ou seja, Hobst é uma função com apenas um argumento, o qual, ele mesmo, é um par (naquele caso: um par de códons, ou seja, (Ci,Cj)) . 0 mesmo se aplica para todas as funções em pares de códons definidas abaixo. Os índices i, j e também k podem ser 1 a 64, indicando o número do códon na representação interna (de acordo com sua ordem alfabética) . (Ci,Cj) representa um par de códons, com c± sendo o códon da esquerda (ou seja, o tripleto 5' da seqüência de 6 nucleotídeos) e o da direita Cj (ou seja, mais próximo da extremidade 3'), além do número de ocorrências nˇall/sc (ck) para cada códon ck (em que o subscrito se representa códon único e o sobrescrito ali indica que o número refere-se ao genoma completo, em oposto a ní(ck) , que será usado para representar proporções de códons em um único gene g; as funções de pares de códons como n0bs((ci>c,)) sempre se referem ao número no genoma completo ou em um grupo maior de genes). As proporções de códon único (observe que, em alguns trabalhos, essas proporções também são denominadas freqüências. No entanto, freqüências de códon também podem se referir ao número de ocorrências de um códon dividido pelo número total de todos os códons) foram então calculadas: <formula>formula see original document page 72</formula>
em que syn(ck) representa o conjunto de códons que codificam o mesmo aminoácido que ck e é, portanto, sinônimo de ck. Dessa forma, o valor da soma abaixo da barra de fração é igual ao número de ocorrências do aminoácido codificado por Ci no proteoma inteiro. Veja o Anexo 1 para uma lista resumida dos símbolos e fórmulas mais importantes aqui utilizadas.
Para revelar se certas supostas preferências de par de códons são somente o resultado de preferências dos códons individuais, é necessário calcular os valores esperados para cada par de códons com base nas freqüências de códons individuais. Essas foram calculadas com o uso da fórmula:
<table>table see original document page 73</column></row><table>
O sobrescrito own é usado para distinguir os valores daqueles obtidos com a utilização de outros métodos mencionados posteriormente. No último fator dessa equação, os números reais de ocorrências de todos os pares de códons sinônimos são totalizados. Dessa forma, a quantidade esperada de cada par de códons é o produto das proporções de uso de códon individual e o número de ocorrências do respectivo par de aminoácidos.
Gutman e Hatfield (1989, Proc. Natl. Acad. Sci U.S. A. 86^: 3.699-3.703) propuseram outro método de cálculo dos valores esperados. Sua abordagem inicial foi calcular as freqüências de códon (ou seja, a quantidade de códons em um gene g dividida pelo número total de códons em g, representado por |gr|) para cada gene individualmente, e depois multiplicando-se esses valores em pares com o número de pares de códons naquela seqüência (que eqüivale a \g\- 1) · <formula>formula see original document page 74</formula>
Nessa equação, "ghl" representa o método 1 de Gutman e Hatfield (1989, supra). Isso resulta nos valores esperados de par de códons para cada gene (a parte após o operador de soma na equação acima), que são então totalizados, resultando em valores esperados finais que são, por definição, ajustados quanto a possíveis desvios em uso de códon único entre diferentes genes do mesmo genoma, mas não leva em conta um possível viés no uso de par de aminoácidos. Isso significa que, se certos aminoácidos tendem a estar próximos uns dos outros mais freqüentemente do que outros, ou, em outras palavras, se os números de ocorrências dos pares de aminoácidos não forem similares como seriam em seqüências randomizadas com a mesma composição de aminoácidos, os valores esperados também seriam significativamente diferentes, na medida em que pares de códons que codificam pares de aminoácidos raramente usados também teriam valores esperados elevados, e aqueles dos pares de aminoácidos mais freqüentemente usados seriam muito baixos.
Gutman e Hatfield (198 9, supra) também propuseram um método de normalização de seus valores esperados para o viés de par de aminoácidos. Portanto, eles simplesmente compararam o número esperado de pares de aminoácidos de acordo com seus métodos com aqueles observados, e escalonaram os valores esperados de todos os pares de códons afetados de forma correspondente, para fazer com que os primeiros combinem com os últimos: <formula>formula see original document page 75</formula>
Nessa equação, "grh2" representa o método 2 de Gutman e Hatfield (1989, supra).
1.1.3 Cálculo do viés de par de códons
O real viés de par de códons Jbias ((CifCj) deve, então, resultar da diferença entre os números dos pares de códons esperados e reais (observados) (em que qualquer um desses métodos para os valores esperados pode ser usado). A abordagem inicial foi calculá-lo simplesmente por:
<formula>formula see original document page 75</formula>
Dessa forma, o valor do viés indicaria quanto por cento mais ou menos freqüentemente do que o esperado o par de códons é realmente usado (ou seja, se multiplicado por .100%) . Para pares de aminoácidos que não ocorrem em um conjunto de genes analisado, o valor do viés de acordo com a fórmula seria 0/0 para todos os pares de códons correspondentes. Naquele caso, ele é definido como sendo 0. 0 limite inferior dos valores do viés seria, portanto, -1, enquanto não há limite superior definido. Isso foi considerado um tanto pouco prático e, portanto, foi usado:
<formula>formula see original document page 75</formula>
em que max(a,b) representa o maior dos dois valores a e b, que sempre resulta em um valor do viés em (-1,1). Isso significa que o valor do viés pode ser -1, mas não +1. O primeiro ocorre quando certo par de códons não é usado de forma alguma para codificar um par de aminoácidos que realmente ocorre; o valor +1 não pode ser alcançado, pois wcxp ((cCc/)) teria então que ser 0, mas isso só é possível quando «„4(((c,,c()) também for 0.
A interpretação dada acima ainda é válida para valores do viés <0 (o que significa que flObsi(cKci)) < "«„((c/>c,·)) e, portanto, ambas as fórmulas possuem o mesmo resultado). Se nobs((ci'ci))> nexP((ci'ci)), os valores do viés (que são, então, >0) indicam quantos por cento abaixo do valor observado é o valor esperado (ou seja, naquele caso, a linha de base é alterada).
1.1.4 Significância estatística do viés
Gutman e Hatfield (1989, supra) usaram um teste x2 para determinar a significância estatística de seus resultados. Esse teste é usado para verificar a probabilidade de que certos resultados observados tenham ocorrido por acaso sob uma hipótese específica. Quando se examinam pares de códons, essa hipótese seria que o uso de par de códons é o resultado de uma seleção aleatória de cada códon independentemente. Para testar essa hipótese, um valor de x2 é calculado:
<table>table see original document page 76</column></row><table>
(com CP representando o conjunto de todos os pares de códons, não incluindo um códon de parada). O número de graus de liberdade é então 3.720 (61*61-1). Caso a seleção do par de códons fosse aleatória, seria de se esperar que o valor χ2 fosse de cerca de 3.720 (igual ao número de graus de liberdade) , com um desvio-padrão igual à raiz quadrada de 2*graus de liberdade.
Dessa forma, a significância estatística global do viés observado pode ser testada. No entanto, pode-se deduzir também a significância estatística do viés de pares de códons individuais. Como para o método de cálculo dos valores esperados proposto anteriormente, o número de ocorrências de um par de códons é considerado como sendo o resultado de uma seqüência de experimentos independentes sim/não (sim: esses dois códons são selecionados para codificação do respectivo par de aminoácidos; não: outro par de códons é selecionado) ; portanto, ele segue uma distribuição binomial, que pode ser aproximada por uma distribuição normal, caso o conjunto de genes analisados seja suficientemente grande. Isso é considerado uma boa aproximação se n*p>4, em que η representa o número de experimentos e ρ a probabilidade de "sim" , que também é o valor esperado. Portanto, para cada par de códons, pode ser calculado um desvio-padrão de acordo com a fórmula: <formula>formula see original document page 77</formula>
A seguir, as pontuações-padrão, também denominadas pontuações z, podem ser calculadas: <formula>formula see original document page 77</formula>
0 valor absoluto da pontuação ζ reflete quantos desvios-padrão além do valor esperado está o valor real (observado). Presumindo-se uma distribuição normal, aproximadamente 95% de todas as observações devem estar dentro de dois desvios-padrão do valor esperado e >99% dentro de três.
1.2 Resultados
1.2.1 Existência de viés de par de códons
Com a utilização dos métodos acima, verificamos que existem vieses de par de códons significativos. Para todos os organismos investigados, o teste x2 liberou valores x2 várias vezes mais altos do que o número de graus de liberdade e, dessa forma, muitos desvios-padrão acima do valor esperado. Como ocorre para o viés de pares de códons individuais, o achado de Moura e cols. de que, em levedura, cerca de 4 7% dos contextos de par de códons caem em um intervalo de -3 a +3" desvios-padrão distantes dos valores esperados (embora eles tenham calculado os valores esperados de forma diferente), o que corresponde às pontuações ζ em nossa análise, pôde ser confirmado. De forma geral, há significativamente mais pares de códons com pontuações ζ bem elevadas do que deveria haver caso o uso de par de códons fosse aleatório. Veja a Tabela 1.2: com uma seleção aleatória, que poderia resultar aproximadamente em uma distribuição normal, por exemplo, somente cerca de 5% de todos os pares de códons deveriam ter uma pontuação ζ acima de 2 ou abaixo de -2, mas, no genoma inteiro dos quatro organismos selecionados, isso na verdade se aplica a mais de dois terços.
Tabela 1.2. Pontuações Z em diferentes organismos
<table>table see original document page 78</column></row><table> <table>table see original document page 79</column></row><table>
Observe que esses valores estão ligeiramente relacionados ao tamanho do genoma (veja a Tabela 1.1 para uma comparação), ou seja, organismo com genomas maiores tendem a ter pares de códons com pontuações ζ mais extremas. Especialmente quando se analisam grupos menores de genes (por exemplo, aqueles 479 altamente expressos em A. niger), os valores são menores (para esse exemplo: 65,1%, 37,2% e 19,7%, respectivamente), na medida em que números menores de ocorrências levam a desvios-padrão mais elevados (comparados com os valores esperados) e, dessa forma, a menos significância estatística dos resultados. Isso leva à conclusão de que o uso de par de códons não é conseqüência de uma seleção aleatória dos códons de acordo com as proporções de códon único.
A distribuição dos próprios valores do viés difere de um organismo para outro. Isso pode ser explicado com referência à Figura 3, que mostra a distribuição de valores do viés de par de códons para os 3.721 pares de códons senso:senso em diferentes organismos. Os números no canto superior direito de cada histograma na Figura 3 são os desvios-padrão para a distribuição observada; os valores médios (não mostrados) estão entre -0,06 e -0,01 para todos os organismos. Nos histogramas mostrados na Figura 3, pode- se observar que, dos dez organismos testados, as bactérias E. coli, B. subtilis, B. awyloliquefaciens e S. coelicolor possuem os viés de par de códons mais extremos, enquanto o viés nos fungos A. niger, A. oryzae, A. terreus, A. nidulans, P. chrysogenum e leveduras S. cerevisiae e K. Iactis é menos extremo.
Pode ser feita outra observação interessante quando se comparam vieses de par de códons de organismos diferentes. Os valores do viés de organismos relacionados mostram uma correlação maior do que aquela encontrada em organismos não relacionados. Isso é explicado com referência à Figura 4. A Figura 4 mostra a correlação do viés de par de códons de vários organismos. Um coeficiente de correlação é mostrado no canto superior direito de cada subgrãfico. Nessa análise, as correlações mais elevadas podiam ser observadas entre A. niger vs. P. chrysogenum, e A. niger vs. A. oryzae; as menores, ou seja, efetivamente ausência de correlação, podiam ser observadas entre B. subtilis e S. coelicolor. Curiosamente, não foi observada nenhuma correlação negativa. Isso significa que, embora organismos com um teor de GC elevado (como S. coelicolor) prefiram principalmente aqueles códons que são os menos usados em organismos ricos em AT (como S. cerevisiae ou, embora não extremamente rico em AT, B. subtilis) , não há dois organismos nos quais os pares preferidos de um organismo tivessem probabilidade de serem rejeitados no outro, e vice versa. Isso poderia significar que, embora o viés de praticamente cada códon único seja organismo-dependente, há vários pares de códons que são preferidos e/ou rejeitados em praticamente cada organismo (por exemplo, por causa de sua probabilidade para causar alterações ribossômicas da fase de leitura ou tRNAs com estruturas que não combinam).
1.2.2 Padrões de viés de par de códons
A fim de visualizar o viés de par de códons observado, podem ser feitos os chamados mapas, como foi feito por Moura e cols. (2005) (eles se referem a esses mapas como "mapas de contexto de códon"). Isso pode ser explicado mais facilmente com referência às imagens coloridas que consistem em retângulos coloridos para cada par de códons, com as fileiras representando o primeiro códon e as colunas representando o segundo códon do par. A cor vermelha indica um viés negativo, e a verde um viés positivo. A cor branca representa pares de códons que realmente possuem um viés igual a 0 (o que ocorre para ATG-ATG, por exemplo, já que é a única forma de codificar o par de aminoácidos Met-Met) e pares que incorporam um códon de parada.
No entanto, imagens coloridas não podem fazer parte da revelação de um pedido de patente. Para a visualização em preto e branco, a imagem será dividida em duas imagens nesse exemplo. A Figura 5A exibe os pares de códons positivos para A. niger, enquanto a Figura 5B exibe os pares de códons negativos para A. niger (veja também o Anexo 3, Tabela Cl). Quanto maior o viés do par de códons, mais preto o retângulo correspondente. Aqui, os valores do viés variam de -0,67 a 0,54, quando em outros organismos eles podem alcançar ligeiramente acima de +/-0,9 (veja também a figura 3) . As intensidades mais fortes de preto (verde do original (superior) e preto (vermelho do original (inferior)) nesses diagramas representam valores de 0,9 e - 0,9, respectivamente (não alcançados aqui; principalmente, os valores absolutos do viés máximo são ligeiramente menores do que aqueles do viés mínimo.
Além disso, fazemos referência às tabelas de matriz CPW no Anexo 3, que contêm os valores numéricos do viés dos pares de códons, e nos referimos ã Figura 5 como um exemplo em preto e branco da imagem colorida, pelo qual aqueles habilitados na técnica podem reconstruir uma versão colorida com o uso dos valores numéricos das tabelas no Anexo 3.
A primeira abordagem para esses mapas de par de códons foi ter as fileiras e colunas classificadas de acordo com sua ordem alfabética (já que essa é a ordem de sua 15 representação interna) . 0 que podia ser observado naquele mapa era que as diagonais pareciam conter ligeiramente mais manchas verdes do que vermelhas, o que indica que muitos códons possuem uma preferência pelo mesmo códon que seu vizinho. Além disso, a maioria das colunas vizinhas era ligeiramente similar onde fileiras vizinhas principalmente não eram (dados não mostrados); veja as Figuras 5A e 5B e o Anexo 3, Tabela Cl. No entanto, a maioria das fileiras era similar a uma fileira separada por três outras, ou seja, havia alguma similaridade de cada quarta fileira.
Já que a propriedade comum de todas as quartas fileiras é o último nucleotídeo do primeiro códon dos pares, prefere-se classificar as fileiras de acordo com a ordem alfabética da terceira posição como primeiro critério de organização, e a da posição do meio como segundo. 0 que se pode observar no mapa para A. niger (Figuras 5C e D, e Anexo 3, Tabela Cl) é que o viés parece estar correlacionado, na verdade, principalmente com o último nucleotídeo do primeiro códon (5') , e com o primeiro nucleotídeo do segundo (3') códon, na medida em que a maioria dos valores dos respectivos blocos de 16*16 pares de códons possui a mesma cor. Por exemplo, uma regra geral que pode ser identificada em Aspergillus é que pares de códons como xxT-Axx (x representando qualquer nucleotídeo, indicando que aquele na respectiva posição não é importante para a regra especificada) são rejeitados (bloco vermelho no canto inferior esquerdo), enquanto o padrão xxA-Txx caracteriza códons preferidos (bloco verde no canto superior direito), novamente indicando que o viés de par de códons é direcional. No entanto, nem todos os vieses podem ser explicados apenas com padrões nos dois nucleotídeos vizinhos no "meio" do par de códons. Os pares de códons xxC-Axx, por exemplo (veja o Segundo bloco do topo na extrema esquerda) , não são geralmente preferidos ou rejeitados, mas há uma preferência nítida por pares do padrão xxC-AAx (observe as quatro colunas verdes na esquerda do bloco mencionado anteriormente). 0 viés também pode depender de nucleotídeos não vizinhos (por exemplo, a forte rejeição de pares CxA-Gxx em B. subtilis; veja as Figuras 6A e 6B e o Anexo 3, Tabela C4) . Infelizmente, o viés de par de códons nem sempre pode ser atribuído a esses padrões "simples" (veja, por exemplo, o mapa bem caótico para E. coli nas Figuras 7A e B e o Anexo 3, Tabela C5) - até mesmo quando se efetua uma análise de cluster com o uso do programa Spotfire DecisionSite 8.0 (http://www.spotfire.com/produtos/decisionsite.cfm), não pôde ser encontrado nenhuma propriedade geral (dados não mostrados), ou seja, os clusters identificados consistiam principalmente em códons não relacionados (ou seja, nenhum nucleotídeo comum na mesma posição).
.1.2.3 Relação do viés e nível de expressão
Observando-se o mapa de viés para os genes com nível de expressão elevado (ou melhor: nível de expressão presumivelmente elevado, já que eles foram identificados observando-se apenas os níveis de transcrição) de A. niger (veja Figura 8), a existência de grupos maiores, ou seja, blocos no diagrama, não é tão óbvia (ou, em outras palavras, regras simples como descritas acima talvez não existam) . Já que dois terços de todos os pares de códons ocorrem 3 6 vezes ou menos nesse grupo, e porque as pontuações z são bem menores, na média, como mencionado acima, pode-se atribuir esse fato, em grande parte, às flutuações aleatórias.
A Figura 9 mostra um gráfico de dispersão de viés em um grupo de 479 genes altamente expressos (eixo vertical) versus o viés em todos os genes (horizontal) de A. niger. São mostrados todos os 3.721 pares de códons que não envolvem códons de parada.
Sombreamentos do cinza claro ao preto foram atribuídos de acordo com os valores absolutos das pontuações z no genoma global, ou seja, pontos claros no gráfico não possuem um viés significativo em todos os genes, o que também ocorreu com os tamanhos de acordo com as pontuações z absolutas no grupo altamente expresso, ou seja, pontos muito pequenos não possuem um viés significativo (aqui |pontuação z|<1,9). A linha sólida preta indica onde ambos os valores do viés são iguais; a linha preta pontilhada mostra a melhor aproximação linear da correlação real (identificada por análise do componente principal); sua inclinação é em torno de 2,1.
Quando se comparam os dois valores do viés de cada par de códons no grupo altamente expresso e no genoma completo (veja o gráfico de dispersão na Figura 9), pode-se observar que, para a maioria dos pares, o viés no grupo altamente transcrito é mais extremo, ou seja, menos, caso esteja abaixo de O, e maior, caso seja positivo, mas há alguns pares em que os valores do viés são bem diferentes e até mesmo possuem um sinal diferente. No entanto, esses são principalmente pares de códons com um pequeno número de ocorrências no grupo de cima, e a maioria dos pares nos quais o viés é altamente significativo (azul, círculos grandes) possui vieses similares em ambos os grupos (ou seja, eles estão próximos da linha azul que indica onde ambos os valores do viés são iguais).
Não pôde ser encontrado nenhum padrão específico em relação às diferenças de códons de viés similar que compartilham dois dos três nucleotídeos (para A. niger nem para B. subtilis) , ou seja, nos gráficos da diferença de viés análoga àquele acima não houve grupos maiores com diferença de viés similar.
1.3. Detalhes da identificação de pesos do par de códons para a adaptação gênica
O peso do par de códon para adaptação pode agora ser determinado de acordo com os métodos descritos (Anexo 1: Pesos do par de códon - método do grupo de uma seqüência (ou genoma)): .1. Com base no conjunto completo de genes; com base em um subconjunto de 1.
.2. Sendo identificado como a fração de genes altamente expressos.
Além disso, iniciamos uma pesquisa para identificar pesos do par de códons que estejam claramente relacionados a um nível maior de transcrição, o que é necessário para um método aperfeiçoado para adaptação do uso de par de códons, tendo sido aplicados os seguintes métodos: em A. niger, em que havia disponível uma classificação completa extraída de dados de GeneChip para o conjunto mencionado anteriormente de 4.584 genes realmente expressos (veja "Dados" em "Materiais e métodos"), foram calculados os pesos médios do par de códons de cada gene (ou seja, o equivalente dos valores de fitcp(g)). A seguir, os genes foram classificados de acordo com os valores de aptidão (ordem ascendente) e nível de expressão (ordem descendente). Como genes altamente expressos supostamente têm valores baixos de aptidão de par de códons, essas duas classificações seriam iguais quando se utilizassem pesos ideais do par de códons e, portanto, uma comparação dessas duas classificações pode gerar informações sobre a qualidade dos pesos usados na função de aptidão (em que foi dada ligeiramente mais atenção à classificação "correta" dos genes altamente expressos do que a classificação daqueles medíocres). Adicionalmente, foi calculado o coeficiente de correlação (covariância dividida pelo desvio-padrão de cada variável) entre a classificação e os pesos médios do par de códons dos 4.584 genes.
Foram examinados vários conjuntos de pesos possíveis, incluindo:
i. Valores do viés do genoma inteiro,
ii. Valores do viés do grupo altamente expresso, Viés com todos os valores que não possuem certa pontuação ζ mínima ajustada para zero
Valores do viés elevados à potência de 2 (e alguns outros valores) para dar aos códons altamente preferidos ou rejeitados uma influência menor/maior
v. Combinações destes
vi. As próprias pontuações ζ
vii. Diferença de valores do viés/pontuações ζ do grupo altamente expresso e do genoma completo.
Para o algoritmo genético (GA) , foram usadas suas negações, na medida em que foram identificados pares de códons preferidos com valores positivos (e não arbitrariamente), mas o GA efetua minimização. Isso se aplica a todos os pesos mencionados.
Destas, a "melhor" matriz de peso acabou sendo uma combinação dos itens ii a iv; no entanto, uma matriz ainda melhor podia ser obtida - como descrito acima - por cálculo do "viés" de par de códons no grupo altamente expresso com o uso dos valores esperados calculados com base nas proporções de códons do genoma inteiro. A Figura 10 mostra a correlação observada.
Diferentemente de todos os outros conjuntos de pesos testados, pares de códons que envolvem códons que estão mais sub-representados no grupo altamente expresso têm aqui uma ligeira desvantagem. Dessa forma, esses pesos são os únicos que também refletem os diferentes vieses de códon único do grupo altamente expresso e de todos os genes. O uso desses pesos traz o risco de rejeitar alguns pares de códons que realmente possuem um viés positivo no grupo altamente expresso, mas que consistem (no grupo altamente expresso) em códons raramente usados. No entanto, como nossas proporções desejadas de códon único não são normalmente idênticas àquelas no grupo de genes com expressão elevada, mas mais "extremas" do que essas, a otimização de códon único de qualquer forma substituiria esses sub-representados e, portanto, podemos considerar os pesos descritos acima muitos convenientes para a otimização de par de códons.
Concluindo, foi identificado um peso da matriz de par de códons potencialmente aprimorado para a adaptação gênica, como descrito acima. A equação é fornecida no Anexo 1: Pesos do par de códon - método do grupo altamente expresso com grupo (ou genoma) de referência.
.1.4. Otimização de códon único e de par de códons in si Iico
.1.4.1 Material e métodos
A caixa de ferramentas MATLAB desenvolvida para análise e otimização de genes consiste em várias funções que foram organizadas em diferentes diretórios de acordo com suas capacidades. A fim de utilizá-las, é necessário, portanto, torná-las todas conhecidas pelo ambiente MATLAB. Para isso, selecionar "Set Path" no menu Arquivo e depois clicar em "Add with subfolders" e selecionar o caminho onde a caixa de ferramentas está instalada (normalmente denominada "Matlab-bio"). Adicionar também a localização de FASTA e de outros arquivos que devem ser analisados. Todas as funções MATLAB individuais são descritas resumidamente em "contents.m" (tecle "help Matlab-bio" para exibir esse arquivo no ambiente MATLAB e use "help" seguido pelo nome de uma função para obter informações detalhadas sobre ela) . Para otimização gênica focalizada no uso de par de códons, as duas funções importantes são "fullanalysis" e "geneopt".
Caso o genoma completo de um organismo ao qual você queira adaptar um gene esteja localizado no arquivo, digamos, "Aniger_ORF.fasta" , e os identificadores de seus genes altamente expressos estejam em nan-high.txt", tecle "fullanalysis('Aniger_ORF.fasta1an-high.txt1, 1an')"; e você obterá: (i) um mapa do viés de par de códons para o genoma completo, (ii) um mapa do viés de par de códons para o grupo de genes no segundo arquivo e (iii) diversas variáveis (ou seja, conjuntos de dados armazenados temporariamente) no espaço de trabalho do MATLAB para uso posterior. 0 terceiro parâmetro de "fullanalysis" determina somente como essas variáveis são denominadas e pode ser omitido se apenas um genoma tiver que ser analisado ao mesmo tempo. Entre as variáveis mencionadas, estão: (i) uso de par de códons e dados de vieses para o genoma completo (denominado "cpan" nesse exemplo), (ii) o mesmo para o grupo de genes especial especificado pelo segundo parâmetro (denominado "cpans"), e (iii) estrutura com proporções-alvo de códon único e pesos do par de códons que podem ser usados pelo algoritmo genético. "fullanalysis
('Xyz_ORF. fasta') " só exibirá o mapa do viés de par de códons e armazenará os dados de vieses para o respectivo genoma.
Embora o segundo parâmetro possa ser qualquer arquivo que inclua identificadores gênicos (por exemplo, um conjunto de genes com expressão baixa ou genes com certa função comum), ele sempre é tratado como um conjunto de genes altamente expressos em relação a esse (potencial) parâmetro (denominado "optparamforan" no exemplo, que representa o parâmetro de otimização para o organismo especificado). Observe que as proporções de códon único aqui são calculadas simplesmente por <formula>formula see original document page 90</formula> que é uma aproximação aceitável. Também podem ser identificadas proporções-alvo por outros métodos que incluam os detalhes da distribuição de códon único (veja o texto principal) a fim aperfeiçoar ainda mais a especificação de proporções desejadas. Além disso, as proporções-alvo podem ser deixadas em branco quando não se encontra um viés especifico a fim de dar ao algoritmo de par de códons mais liberdade para achar soluções com uma aptidão de par de códons maior. Vários desses vetores-alvo pré-determinados de códon único são fornecidos no Anexo 1, para vários organismos hospedeiros.
Para usar uma proporção-alvo pré-especifiçada de códon único para o algoritmo genético, altere o campo "cr" do parâmetro teclando "optparamforan.cr = [", a seguir, cole as proporções de códon único (por exemplo, copiadas de uma planilha Excel; observe que elas devem estar em ordem alfabética dos códons), tecle "]", caso as proporções estejam disponíveis como uma fileira de 64 elementos, ou "]'", caso sejam copiadas de uma coluna, e pressione enter (observe as aspas simples ou apóstrofes adicionais após o colchete de fechamento no último caso). Às proporções de códons não importantes, ou seja, códons nos quais não se deseja uma proporção-alvo específica, pode ser atribuído o "valor" NaN {not a number), e elas serão ignoradas quando a aptidão de códon único for calculada.
Para excluir certas seqüências curtas do gene otimizado, ajuste o parâmetro "rs" da mesma forma, em que cada seqüência deve estar entre aspas simples, e todas as seqüências juntas devem estar entre chaves ("{}"), por exemplo (sem a quebra de linhas), "optparamforan.rs {'CTGCAG' 'GCGGCGCC·}". Finalmente, o campo cpi do parâmetro pode ser alterado para dar à otimização de códon único ou à otimização de par de códons uma importância maior na função de aptidão combinada (veja a subseção "efetuando a otimização de par de códons" em "resultados e discussão"). 0 valor-padrão é 0,2. Ajuste-o para um valor mais baixo, caso os resultados dos experimentos com genes com de pares de códons otimizados revelem pouco aperfeiçoamento de genes com de pares de códons otimizados comparados com aqueles com códon único otimizado; no caso oposto, um cpi mais elevado pode ser melhor.
A real otimização do gene com o uso do algoritmo genético pode então ser efetuada com a utilização da função geneopt. Os únicos parâmetros necessários são a seqüência a ser otimizada e a estrutura que contém os pesos do par de códons, proporções-alvo e sítios de restrição, como descrito acima e, portanto, geneopt(vMUVARNEQST*', optparamforan), por exemplo, poderia ser usado para otimizar certa seqüência de proteína (bem curta) para uma expressão elevada em A. niger; é usado para representar
que a seqüência genética resultante deve ter um códon de parada no final (no entanto, como se acredita que o sinal de parada ótimo em A. niger seja o tetrâmero TAAA, isso não é necessário). Observe que a seqüência a ser otimizada deve, novamente, estar em aspas simples; caso a seqüência contenha apenas as letras A, C, G, T ou U, e seu comprimento seja um fator de 3, ela é automaticamente considerada uma seqüência de nucleotídeo. 0 algoritmo genético então é executado para 1.000 gerações, com um tamanho da população de 200, dos quais 80 de cada são mantidas para a geração (as 79 melhores e uma escolhida aleatoriamente), e usado para gerar novos indivíduos, em que 4 0% dos novos indivíduos são gerados usando cruzamento e 60% usando o operador de mutação. Esses valores-padrão se mostraram muito convenientes para otimização, ou seja, alterações nesses parâmetros irão apenas levar, talvez, a genes muito ligeiramente "melhores", mas eles também podem ser alterados, por exemplo, caso se deseje gastar significativamente mais ou menos tempo de cálculo na otimização (um processamento médio de geneopt com um gene de cerca de 500 códons leva cerca de 15 minutos em um Processador Pentium M de 1,4 GHz). Geneopt(seq, optparamforan, [50 750 5 0 0,6]), por exemplo, irá deixar o algoritmo genético calcular 750 gerações de uma população, em que 5 0 indivíduos são mantidos para cada nova geração e 250 são recém gerados (5*50, ou seja, 300 indivíduos são examinados em cada geração), somente os melhores indivíduos (e sem escolha aleatória) são mantidos, e 60% das recombinações são realizadas usando o operador de cruzamento. Para mais detalhes sobre como especificar esses parâmetros, tecle help geneopt e help geneticalgorithm.
Observe que, embora o procedimento de geração de pesos do par de códons a partir da análise dos arquivos FASTA correspondentes seja aqui mostrado e descrito para A. niger e B. subtilis, somente para esses dois organismos isso não é necessário, pois esses cálculos já foram feitos para otimizações gênicas prévias. Para facilitar o uso, os respectivos parâmetros para os algoritmos genéticos foram armazenados (tecle "load gadata_for_an" ou "load gadata_for_bs", respectivamente; observe que os parâmetros existentes são denominados simplesmente an_jparam e bs_param) .
.1.4.2 Resultados
A Figura 11 mostra valores de aptidão de cinco versões otimizadas cada para diferentes valores de cpi (veja legenda do diagrama na Figura 11) . A proteína é uma a- amilase fúngica (FUA; também denominada AmyB) que foi otimizada para o hospedeiro A. niger (veja Exemplo 2) . Adicionalmente, são mostrados os resultados da otimização de códon único "pura" (pontos pretos na direita) e da otimização de par de códons (grupo superior à esquerda). As versões otimizadas foram obtidas por execução do algoritmo genético por cerca de 1.000 gerações, com um tamanho de população de 400, que levou cerca de 17 minutos para cada execução em um Pentium M de 1,4 GHz. Observe que a otimização de códon único pura e a otimização de par de códons pura levou somente cerca de 60% daquele tempo.
Na Figura 11, o {fitsc(gfua) = 0,165, fitcp{gfua)0,033) do tipo selvagem não se ajusta nesse gráfico (estaria bem mais à direita e acima). O gene ótimo é sempre aquele com os menores valores para fi tac e fi tcp. Considerando a posição dos pontos, não fica claro, portanto, para qual valor de cpi o gene mais aperfeiçoado poderia ssir obtido, já que ainda, não sabemos se o uso de códon único ou o uso de par de códons é mais importante. No entanto, parece que surge uma troca justa no caso de cpi = .0,2.
0 aperfeiçoamento no uso de códon único e de par de códons pode ser visualizado nos denominados gráficos de qualidade de seqüência propostos neste trabalho. A Figura .12 ilustra dois diagramas que exibem a qualidade de seqüência dos primeiros 20 (entre 4 99) códons da FUA mencionada anteriormente (veja também o Exemplo 2).
Observe que esses diagramas de qualidade de seqüência não dependem apenas da própria seqüência, mas também do conjunto de pesos e das proporções desejadas de códon único e, desse modo, do organismo. Observe também que é possível definir as proporções-alvo de códon único como "não importa" para aqueles códons com viés de códon baixo ou sem viés, ou seja, o uso de certo códon não é considerado positivo ou negativo para a expressão, comparado com seus códons sinônimos. Nesse caso, somente a marca χ em azul é mostrada para a proporção real do respectivo códon no gene, e aquela posição particular é ignorada quando se calcula a aptidão de códon único (veja 1.4. Otimização de códon único e de par de códons in silico).
1.5 Conclusões
Foi estabelecida uma correlação significativa entre o uso de par de códons e os níveis de transcrição em uma ampla variedade de organismos. Foi demonstrado que esse viés não pode ser explicado apenas por viés de dinucleotídeo em torno do sítio do quadro de leitura. Como todas as explicações possíveis para a preferência ou rejeição de certos pares de códons se concentram na tradução, deve-se supor que ambas sejam causadas por ação de seleção natural e, ao mesmo tempo, por características que afetam a tradução e por outras características que afetam a transcrição a fim de minimizar os esforços da célula para a produção de enzimas ou, pelo menos, a mais importante delas.
Dessa forma, a otimização de uso de par de códons em seqüências codificadoras de polipeptídeos pode ser considerada para a obtenção de superexpressão aumentada, além da otimização clássica de códon único ou harmonização de códon único, na qual apenas as freqüências de códons únicos são consideradas para otimização. A adaptação de par de códons e a adaptação de códon único do mesmo gene interferem apenas ligeiramente para a classe de hospedeiro fúngico investigada e para os bacilos neste exemplo, ou seja, ambas podem ser realizadas ao mesmo tempo, e o resultado terá uso de códon único "melhor" e uso de par de códons "melhor" do que o gene do tipo selvagem, e qualquer um dos dois aspectos só pode ser melhorado ligeiramente quando se ignora o outro.
Para ler os arquivos FASTA e realizar a análise e otimização, foram projetadas funções MATLAB de fácil utilização. Também foram introduzidos novos métodos de visualização do viés de par de códons e do uso de par de códons de genes únicos; veja o Exemplo 2 e o Exemplo 4. O algoritmo genético projetado para a otimização permite lidar de forma eficaz com as restrições impostas pela interdependência de pares de códons adjacentes, enquanto operadores de mutação especialmente projetados que sempre aperfeiçoam um dos dois aspectos de qualidade de seqüência (aptidão de códon único e de par de códons) ajudam a contornar a ineficiência que normalmente acompanha os algoritmos genéticos por causa de sua característica de gerarem muitas soluções possíveis ruins na etapa de recombinação após as primeiras gerações.
O uso de par de códons adequado influencia a produção de enzima, o que será demonstrado experimentalmente nos exemplos seguintes. Foram preparadas variantes com par de códons otimizado de três genes a serem expressas em B. subtilis, das quais uma será comparada com um gene sintético que tem somente o uso de códon único adaptado e outra com um gene sintético que passou pelo processo de otimização usando a negação dos pesos presumivelmente positivos, mas foi ainda otimizada para uso de códon único da mesma forma que antes; veja o Exemplo 4 e o Exemplo 5. Dessa forma, a noção de Irwin e cols. (1995) de que códons sub-representados estimulam a tradução, que foi aqui rejeitada, também será testada. Para A. niger, uma versão do par de códons otimizado da amyB mencionada anteriormente será testada e comparada com o gene do tipo selvagem e com o gene sintético com harmonização de códon único; veja os Exemplos 2 e 3.
2. Exemplo 2: Uso de um método da invenção para construção de seqüências de DNA aprimoradas para aumento da produção da enzima amilase fúngica de Aspergillus niger em A. niger.
A seguir, o método da invenção é aplicado para o projeto de novas seqüências de nucleotídeos para gene AmyB (FUA) de A. niger, que são otimizadas no uso de códon único e/ou de par de códons para aumento da expressão em A. niger. Esse método pode ser aplicado da mesma forma para o aperfeiçoamento do uso de códon de qualquer seqüência de nucleotídeos.
2.1 Introdução
Um conceito de otimização de códon único por meio de harmonização de códon foi desenvolvido previamente pelos solicitantes desta invenção e relatado no texto principal (veja também o exemplo 3) . Neste exemplo, mostramos como aplicamos o método da invenção para projetar um gene que foi otimizado para uso tanto de códon único quanto de par de códons. Nesse caso específico, são aplicadas matrizes que foram criadas por aplicação de dois subconjuntos de 2% e 4% de genes altamente expressos do genoma completo de
A. niger que contém 14.000 genes. Para o uso de códon único, o algoritmo conduziu à solução para um gene com freqüências de códons sinônimos como definidas pela Tabela
B.l (= coluna 3 da Tabela 2.1), enquanto, para o uso de par de códons, ele será otimizado em direção a um conjunto ótimo de pares de códons com uma freqüência elevada deles que possuem pesos negativos associados (na Tabela C.2) , sendo os pares de códons que estão super-representados com relação aos seus valores esperados no conjunto de 4% dos genes altamente expressos. Observe que, caso não haja uma lista definida de genes altamente expressos para um hospedeiro especificado, pode-se também: (i) aplicar as matrizes de peso de um organismo hospedeiro similar, por exemplo, as matrizes de P. chrysogenum podem ser aplicadas para A niger; ou (ii) aplicar os dados de seqüência do genoma completo ou um subconjunto deles para derivar matrizes de peso boas, mas menos ótimas.
2.2 Materiais e métodos
2.2.1 Seqüência codificadora de amyB do tipo selvagem que codifica alfa-amilase de A. niger AmyB
A seqüência de DNA do gene amyB que codifica a proteína alfa-amilase foi revelada em J. Biochem. Mol. Biol. 37(4): 429-438(2004) (Matsubara T., Ammar Y.B., Anindyawati T., Yamamoto S., Ito K., Iizuka M., Minamiura N. "Molecular cloning and determination of the nucleotide sequence of raw starch digesting alpha-amylase from Aspergillus awamori KT-11") e também pode ser obtida da Base de Dados de Seqüências de Nucleotídeos EMBL (http://www.ebi.ac.uk/embl/index.html) sob o número de acesso AB083159. A seqüência genômica do gene nativo de amyB de A. niger é mostrada como ID. DE SEQ. N°: 1. A seqüência codificadora ou de cDNA de amyB correspondente é mostrada como ID. DE SEQ. N°: 2. A seqüência traduzida do ID. DE SEQ. N0 : 2 é designada como o ID. DE SEQ. N°: 3, representando a proteína alfa-amilase AmyB de A. niger. Essa seqüência também tem uma similaridade de 10 0% com a proteína alfa-amilase de A. oryzae (Wirsel S., Lachmund A., Wildhardt G.( Ruttkowski E., "Three alpha-amylase genes of Aspergillus oryzae exhibit identical intron-exon organization"; Mol. Microbiol. 3: 3-14(1989, N0 de acesso no UniProt P10529, P11763 ou Q00250). A otimização de acordo com um método da invenção foi realizada na seqüência de cDNA de amyB.
2.3 Procedimento de projeto
A seqüência codificadora de nucleotídeos otimizada ID. DE SEQ. N0 6 é o resultado de um ciclo com o método de software descrito. Os parâmetros aplicados foram: tamanho da população = 2 00; número de repetições = 1.0 00; cpi =0,20, matriz CPW = "Tabela C.2. CPW: Aspergillus niger - seqüências altamente expressas" e a matriz CR = "Tabela B.l coluna 4: CR tabela ANS: Aspergillus niger - seqüências altamente expressas". Além disso, um valor de penalidade de + 1 é acrescentado a fitcombi para cada ocorrência de um sítio PstI (CTGCAG) e NotI (GCGGCGCC).
A convergência da solução em direção a um valor mínimo para fitCOmbi é mostrada na Figura 13. Os valores objetivos obtidos para o ID. DE SEQ. N° : 6 são dados na Tabela 2.2, juntos com aqueles para o ID. DE SEQ. N0: 2 e para o ID. DE SEQ. N° : 5. A Figura 14 explica os dados estatísticos de códon único para esses genes, como é mostrado nas Figuras 15 e 16, e a Tabela 2.2 fornece os valores reais para os códons nas três seqüências. A Figura 18-20 mostra os dados estatísticos tanto de códon único quanto do par de códons para as três variantes do gene. Esse tipo de gráfico é explicado em detalhe na Figura 17 e sua descrição. A partir desses gráficos, fica claro que os dados estatísticos de códon único são altamente similares para o ID. DE SEQ. N°:5 e para o ID. DE SEQ. N° : 6. No entanto, o método da invenção leva a um gene com um número aumentado de pares de códons com pesos negativos associados (wcp(g) < 0), 93% vs.74%, e também a uma redução adicional em fi tcp de -0,18 para -0,34, indicando um uso mais ótimo de pares de códons que possuem pesos mais negativos associados a eles.
Tabela 2.1 Otimização de códon para amyB.
<table>table see original document page 99</column></row><table> de [# de [% de zada zada por códons códons] códons por sc sc & cp ótima /AA] [# de [# de [%] códons] códons] A Ala_GCT 38 5 11, 9 16 18 Ala_GCC 51 15 35 , 7 21 23 Ala_GCA 0 12 28 , 6 0 0 Ala GCG 11 10 23 , 8 5 1 C Cys_TGT 0 7 77, 8 0 0 Cys_TGC 100 2 22 , 2 9 9 D Asp_GAT 36 20 47, 6 15 15 Asp_GAC 64 22 52 , 4 27 27 E Glu_GAA 26 5 41, 7 3 3 Glu GAG 74 7 58, 3 9 9 F Phe_TTT 0 3 20, 0 0 0 Phe TTC 100 12 80, 0 15 15 G Gly_GGT 49 10 23 , 3 21 22 Gly_GGC 35 18 41, 9 15 15 Gly_GGA 16 10 23 , 3 7 6 Gly_GGG 0 5 11, 6 0 0 H His_CAT 0 3 42 , 9 0 0 His CAC 100 4 57, 1 7 7 I I1e_ATT 27 7 25, 0 7 7 Ile_ATC 73 19 67, 9 21 21 Ile_ATA 0 2 7,1 0 0 K Lys_AAA 0 7 35, 0 0 0 Lys_AAG 100 13 65, 0 20 20 L Leu_TTA 0 1 2,7 0 0 Leu_TTG 13 10 27 , 0 5 4 Leu_CTT 17 4 10, 8 6 7 <table>table see original document page 101</column></row><table> <table>table see original document page 102</column></row><table>
Observações:
- w.t.: do tipo selvagem
- sc: de códon único
- cp: de par de códons
Tabela 2.2 Otimização de códon para amyB.
<table>table see original document page 102</column></row><table>
Todas as três seqüências listadas na Tabela 2.2 são seqüências codificadoras das quais a seqüência traduzida é designada como ID. DE SEQ. N°: 3.
3. Exemplo 3: Teste do método da invenção para a construção de seqüências de DNA aprimoradas para a geração de produção aumentada da enzima amilase do fungo Aspergillus niger em A. niger.
O método da invenção é aplicado abaixo ao aprimoramento do uso de códon único e de par de códons do gene AmyB de A. niger. Esse método pode ser aplicado da mesma forma que para o aprimoramento do uso de códon e de expressão aumentada de qualquer seqüência de nucleotideo. .3.1 Material e métodos
.3.1.1 Cepas
WT 1: Essa cepa de A. niger é usada como uma cepa do tipo selvagem. Essa cepa está depositada no "CBS Institute" sob o número de depósito CBS 513.88.
WT 2: Essa cepa de A. niger é uma cepa WT 1 que compreende uma eliminação do gene que codifica glicoamilase (glaA). WT 2 foi construída usando a abordagem "MARKER-GENE FREE" , como descrita em EP 0 635 574 BI. Nesta patente, é descrito detalhadamente como eliminar seqüências de DNA específicas para glaA no genoma de CBS 513.88. O procedimento resultou em uma cepa recombinante MARKER-GENE FREE AglaA de A. niger CBS 513.88, que finalmente não possui nenhuma seqüência de DNA estranho.
WT 3: Essa cepa de A. niger é uma cepa WT 2 que compreende uma mutação que resulta em uma cepa deficiente em oxalato de A. niger. WT 3 foi construída usando o método descrito em EP1590444. Neste pedido de patente, é descrito com detalhes como rastrear uma cepa deficiente em oxalato de A. niger. A cepa WT3 foi construída de acordo com os métodos dos Exemplos 1 e 2 de EP1590444; a cepa WT 3 é a cepa mutante 22 de EP1590444 (designada FINAL em EP1590444).
WT 4: Essa cepa de A. niger é uma cepa WT 3 que compreende a eliminação de três genes que codificam alfa- amilases (amyB, amyBI e amyBII) em três etapas subseqüentes. A construção de vetores de eliminação e de eliminação genômica desses três genes foi descrita em detalhe em WO 2005095624. Os vetores pDEL-AMYA, pDEL-AMYBI e pDEL-AMYBII, descritos em WO 2005095624, foram usados de acordo com a abordagem "MARKER-GENE FREE", como descrito em EP 0 635 574 BI. O procedimento descrito acima resultou em uma cepa recombinante deficiente em oxalato, MARKER-GENE FREE àglaA, AamyAi AamyBI e AamyBII amilase-negativa de A. niger CBS 513.88, que não possui, finalmente, nenhuma seqüência de DNA estranho. Dessa forma, WT 4 é mais otimizada para a expressão de alfa-amilase comparada com WT1.
3.1.2 Fermentações em frascos de agitação de A. niger
As cepas de A. niger foram pré-cultivadas em 20 ml de meio pré-cultura como descrito nos Exemplos: seção "fermentações em frascos em agitação de A. niger" de WO 99/32617. Após crescimento de um dia para o outro, 10 ml dessa cultura foram transferidos para meio de fermentação 1 (FMI) para fermentações de alfa-amilase. A fermentação é efetuada em frascos de 500 ml com defletor com 100 ml de caldo de fermentação a 340C e 170 rpm pelo número de dias indicado, geralmente como descrito em WO 99/32617.
Esse meio FMl contém por litro: 52,570 g de glicose, 8,5 g de maltose, 25 g de hidrolisado de caseína, 12,5 g de extrato de levedura, 1 g de KH2PO4, 2 g de K2SO4, 0,5 g de MgSO4. 7H20, 0,03 g de ZnCl2, 80,02 g de CaCl2, 0,01 g de MnSO4.4H20, 0,3 g de FeSO4.7H20, 10 ml de Pen-Strep (Invitrogen, número de catálogo 10378-016), 48 g de MES, ajustado ao pH 5,6 com H2SO4 4 N.
3.1.3 Atividade de alfa-amilase fúngica
Para determinar a atividade de alfa-amilase em caldo de cultura de A. niger, é usado o kit "Megazyme cereal alpha-amylase" (Megazyme, "CERALPHA alpha amylase assay kit", referência de catálogo K-CERA, ano 2000-2001), de acordo com o protocolo do fornecedor. A atividade medida se baseia na hidrólise de p-nitrofenil maltoheptaosida não redutora com bloqueio final na presença de excesso de glicoamilase e α-glicosidase. A quantidade de p-nitrofenol formado é uma medida da atividade de alfa-amilase presente em uma amostra.
3.2 Construção de uma construção de expressão de Aspergillus para a seqüência codificadora de amyB do tipo selvagem que codifica alfa-amilase de A. niger AmyB
A seqüência de DNA do gene amyB do tipo selvagem foi descrita sob 2.2.1. Para análise de expressão na espécie Aspergillus de construções de amyB de A. niger, o promotor de amyB forte é aplicado para a superexpressão da enzima alfa-amilase em A. niger com o uso de construções de expressão baseadas em pGBFIN (como descrito em WO .99/32617). A seqüência de iniciação da tradução do promotor amyB que inclui o códon de partida ATG de PamyB é 5'- GGCATTTATG ATG- 3' ou 5'-GAAGGCATTT ATG-3' , dependendo de qual ATG é selecionado como códon de partida. Essa seqüência de iniciação da tradução de PamyB foi modificada em 5'-CACCGTCAAA ATG- 3' em todas as construções de expressão de amyB subseqüentes geradas abaixo.
Sítios de restrição apropriados foram introduzidos em ambas as extremidades para permitir a clonagem em um vetor de expressão. O gene amyB nativo contém um códon de parada 'TGA' . Em todas as construções de amyB feitas abaixo, a seqüência de terminação da tradução 5'-TGA-3' foi substituída por 5'-TAAA-3', seguido pelo 5'-TTAATTAA-3' do sítio de restrição PacI. Na extremidade 5', foi introduzido um sítio XhoIl e, na extremidade 3', um sítio PacI. Portanto, um fragmento que compreende um promotor genômico de amyB modificado e a seqüência de cDNA de amyB foi completamente sintetizado, clonado, e a seqüência foi confirmada por análise de seqüências.
Esse fragmento, que compreende o promotor de alfa- amilase com seqüência de iniciação da tradução modificada e seqüência de cDNA de amyB com seqüência de terminação da tradução modificada, foi digerido com XhoI e PacI, e introduzido em um vetor pGBFIN-12 digerido com XhoI e PacI (construção e layout como descritos em WO 99/32617), gerando pGBFINFUA-1 (Figura 21) . A seqüência do fragmento de PCR introduzido foi confirmada por análise de seqüências, e sua seqüência é apresentada no ID. DE SEQ. N° : 4 .
.3.3 Aprimoramento do uso de códon único para a seqüência codificadora de alfa-amilase amyB para expressão em A. niger
Um método de otimização de códon único é aplicado abaixo para o aprimoramento do uso de códon do gene amyB de A. niger. A seqüência de nucleotídeos codificadora da amyB nativa é mostrada como ID. DE SEQ. N°: 2.
0 uso de códon do gene a.myB nativo de A. niger e a variante otimizada sintética são dados na Tabela 2.1 abaixo. Para o gene amyB nativo e sintético otimizado de códon único, são fornecidos os números exatos para cada códon, bem como a distribuição por aminoácido. Adicionalmente, a terceira coluna fornece a distribuição ótima proposta, que é o alvo para a otimização.
Para os aminoácidos do grupo 1, há somente uma possibilidade. 0 Grupo 1 consiste em metionina, que é sempre codificada por ATG, e triptofano, que é sempre codificado por TGG.
Os aminoácidos do grupo 2 são submetidos à otimização de acordo com a freqüência extrema de 0% ou 100%, e a estratégia é clara. Todos os códons para um AA do grupo 2 são trocados especificamente na variante ótima dos dois códons possíveis. Mais especificamente para cisteína, um cõdon, TGT é substituído por TGC; para fenilalanina, TTT por TTC; para histidina, CAT por CAC; para lisina, AAA por AAG, para asparagina, AAT por AAC; para glutamina, CAA por CAG; para tirosina, TAT por TAC.
Os aminoácidos do grupo 3 podem ser codificados por vários códons, como indicado na Tabela 3.1; cada códon estando presente em uma freqüência de códons preferida: para alanina, GCT, GCC, GCA, GCG; para aspartato, GAT, GAC; para glutamato, GAA, GAG; para glicina, GGT, GGC, GGA, GGG; para isoleucina, ATT, ATC, ATA; para leucina, TTA, TTG, CTT, CTC, CTA, CTG; para prolina, CCT, CCC, CCA, CCG; para arginina, CGT, CGC, CGA, CGG, AGA, AGG; para serina, TCT, TCC, TCA, TCG, AGT, AGC; para treonina, ACT, ACC, ACA, ACG; para valina, GTT, GTC, GTA, GTG, são otimizados de acordo com a seguinte metodologia:
Para os aminoácidos (AA) do grupo 3 e seus códons codificadores, o cálculo da ocorrência ótima de cada códon possível dentro de certa seqüência codificadora é efetuado de acordo com a seguinte metodologia:
i. Somar, para cada um dos respectivos AA do grupo 3, o número total de resíduos codificados na certa seqüência; veja a coluna Al (Tabela 3.1),
ii. Para cada AA e códon que codifica aquele AA, multiplicar o número total para aquele AA pela distribuição ótima de códons na Tabela 2.1, resultando em uma distribuição de códons bruta, que geralmente pode conter números decimais; veja a coluna A2 (Tabela 3.2),
iii. Arredondar os valores da distribuição de códons bruta (ii), por remoção dos dígitos, resultando em uma distribuição de códons arredondada; veja a coluna A3 (Tabela 3.2),
iv. Somar, para cada um dos AA, o número total de AA representados na distribuição de códons arredondada (iii); veja a coluna A4 (Tabela 3.1),
v. Calcular o número total de resíduos ausentes para cada um dos respectivos AA na distribuição de códons arredondada, por subtração do número total de resíduos codificados na certa seqüência (i) com o número total de AA representados na distribuição de códons arredondada (iv) ; veja a coluna A5 (Tabela 3.1),
vi. Calcular, para cada códon, a diferença decimal entre a distribuição de códons bruta (ii) e a distribuição de códons arredondada (iii) por subtração; veja a coluna A6 (Tabela 3.2),
vii. Multiplicar, para cada códon, a diferença decimal (vi) e a distribuição ótima de códons na tabela 1, gerando um valor de peso para cada códon; veja a coluna A7 (Tabela3.2) ,
viii. Para cada um dos respectivos AA, selecionar a quantidade de resíduos ausentes (ν) , a respectiva quantidade de códons que possuem o valor de peso mais elevado (vii); veja a coluna A8 (Tabela 3.2),
ix. O cálculo da distribuição ótima de códons final dentro de certa seqüência que codifica um polipeptídeo é feito somando-se a distribuição de códons arredondada (iii) e a quantidade selecionada de resíduos ausentes (viii) para cada códon; veja a coluna A9 (Tabela 3.2).
Tabela 3.1
<table>table see original document page 109</column></row><table>
Tabela 3.2
<table>table see original document page 109</column></row><table> <table>table see original document page 110</column></row><table> <table>table see original document page 111</column></row><table>
Subseqüentemente, foi criada uma seqüência de nucleotídeos codificadora completamente nova por distribuição aleatória do número de códons sinônimos propostos (Tabela 2.1) para cada aminoácido no peptideo amyB original. A seqüência amyB sintética, resultante do processo descrito acima, é indicada no ID. DE SEQ. N° : 5. As estruturas secundárias na seqüência codificadora modificada foram verificadas com o uso do programa "Clone Manager 7" (Sei. Ed. Central: "Scientific & Educational software", versão 7.02) quanto à possível ocorrência de estruturas secundárias prejudiciais.
3.4 Otimização da seqüência codificadora de acordo com o método combinado de códon único e de par de códons da invenção para a seqüência codificadora de alfa-amilase amyB para expressão em A. niger
Um método da invenção é aplicado para o aprimoramento da seqüência codificadora do gene amyB de A. niger. A seqüência de amyB otimizada resultante do processo descrito no Exemplo 2 é indicada no ID. DE SEQ. N°: 6. As estruturas secundárias na seqüência codificadora modificada foram verificadas com o uso do programa "Clone Manager 7" (Sei. Ed. Central: "Scientific & Educational software", versão .7.02) quanto à possível ocorrência de estruturas secundárias prejudiciais.
3.5 Construção de vetores de expressão de amyB modificados para a expressão de alfa-amilase AmyB de A. niger codificada por seqüências codificadoras descrita nos exemplos 3.2 e 3.3
A seqüência de DNA do fragmento XhoI - Pac I de pGBFINFUA-1 (Figura 21) é mostrada como ID. DE SEQ. N°: 4, e compreende o promotor amyB e a seqüência de cDNA do tipo selvagem de amyB com uma seqüência de iniciação da tradução modificada e uma seqüência de parada da tradução modificada. A seqüência de DNA que compreende uma variante da seqüência de iniciação da tradução do promotor de alfa- amilase combinada com uma seqüência codificadora com códons otimizados para o gene amyB que codifica alfa-amilase, como descrito no Exemplo 1.2, é mostrada como ID. DE SEQ. N°: 7. A seqüência de DNA que compreende uma variante da seqüência de iniciação da tradução do promotor de alfa-amilase combinada com uma seqüência codificadora otimizada de acordo com o método combinado de códon único e de par de códons da invenção para o gene amyB que codifica alfa- amilase, como descrito no Exemplo 3.3, é mostrada como ID. DE SEQ. N0: 8.
Para a clonagem dessas variantes da seqüência modificada em um vetor de expressão, os dois fragmentos do gene sintético foram digeridos com XhoI e PacI, e introduzidos no fragmento grande de um vetor pGBFINFUA-1 digerido com XhoI e PacI (Figura 21) , gerando vetores de expressão variantes. Após verificação da integração do fragmento correto, as construções de expressão variantes foram denominadas pGBFINFUA-2 e pGBFINFUA-3, como descrito abaixo na Tabela 3.3.
Tabela 3.3: Construções de expressão modificadas para a expressão de alfa-amilase em A. niger <table>table see original document page 113</column></row><table>
As seqüências traduzidas das seqüências codificadoras
amyB do plasmídeo pGBFINFUA-1 a pGBFINFUA-3 estão de acordo com a seqüência de aminoácidos retratada no ID. DE SEQ. N03, representando a enzima alfa-amilase do tipo selvagem de A. niger.
.3.6 Expressão em A. niger de construções de expressão pGBFINFUA modificadas de alfa-amilase de A. niger
As construções de expressão pGBFINFUA-1, -2 e -3, preparadas como descrito acima, foram introduzidas em A. niger por transformação, como descrito abaixo e de acordo com a estratégia retratada na Figura 22.
A fim de introduzir os três vetores pGBFINFUA-1, -2 e -3 (Tabela 3.3) em WT 4, foi feita uma transformação e subseqüente seleção de transformantes, como descrito em WO98/46772 e WO 99/32617. Resumidamente, o DNA linear das construções pGBFINFUA foi isolado e usado para transformar A. niger. Os transformantes foram selecionados em meio de acetamida e a colônia purificada de acordo com procedimentos padronizados. As colônias foram diagnosticadas quanto à integração do lócus glaA e quanto ao número de cópias com a utilização de PCR. Dez transformantes independentes de cada uma das construções pGBFINFUA-1, -2 e -3 com números de cópias estimados similares (baixa cópia: 1-3) foram selecionados e numerados usando o nome do plasmídeo transformante como, por exemplo, FUA-1-1 (para o primeiro transformante de pGBFINFUA-1) e FUA-3-1 (para o primeiro transformante de pGBFINFUA-3), respectivamente.
As cepas de FUA selecionadas e WT 4 de A. niger foram usadas para realizar os experimentos de frasco em agitação em 100 ml do meio e sob condições como descritas acima. Após 3 e 4 dias de fermentação, foram coletadas amostras.
A produção da enzima alfa-amilase foi medida em todos os três transformantes de FUA de A. niger diferentes. Como pode ser observado a partir da Figura 23, a otimização da seqüência codificadora de acordo com o método da invenção mostra um aprimoramento maior sobre a expressão de AmyB comparado com o outro método testado denominado otimização de códon único. Essas figuras foram resumidas na Tabela 3.4 abaixo.
Tabela 3.4. Atividades relativas médias de alfa-amilase de transformantes com construção do tipo selvagem comparadas com as de seqüências codificadoras de amyB modificadas (como concluído a partir da Figura 23).
<table>table see original document page 114</column></row><table> <table>table see original document page 115</column></row><table>
Esses resultados indicam claramente que o método da invenção pode ser aplicado para aumentar a expressão de proteína em um hospedeiro, embora a construção de expressão e o hospedeiro já tenham várias outras otimizações como, por exemplo, um promotor forte, uma seqüência de iniciação da tradução aprimorada, uma seqüência de parada de tradução aprimorada, um uso de códon único ótimo e/ou um host aprimorado para a expressão de proteína.
.4. Exemplo 4: Projeto de seqüências de DNA aprimoradas para expressão de três enzimas heterólogas em espécies de Bacillus: Bacillus sübtilis e Bacillus amyloliquefaciens.
.4.1. Introdução
0 Exemplo 4 descreve o design do experimento e a aplicação de um método da invenção descrito nesta patente para (aumento da) expressão de proteínas heterólogas em ambas as espécies Bacillus, mais especificamente netse exemplo, Bacillus subtilis e Bacillus amyloliquefaciens. Um hospedeiro de expressão preferido é Bacillus amyloliquefaciens.
0 genoma de Baeillus subtilis foi publicado em 1997, e de outras espécies Baeillus se seguiram (Kunst, F. e eols. 1997. "The complete genome sequence of the Gram-positive bacterium Baeillus subtilis" Nature 390: 249-56; Rey, M.W. e eols. (2004) . "Complete genome sequence of the industrial bacterium Baeillus lieheniformis and comparisons with closely related Bacillus species" Genome Biology 5: R77; Rasko D.A. e cols. (2005) "Genomics of the Bacillus cereus group of organisms" . FEMS Microbiology Reviews 29: 303-329) .
Neste exemplo, a seqüência completa de B. subtilis foi escolhida como a base para o cálculo de freqüências de códon único e pesos do par de códons. A comparação do teor de GC e tRNAs forneceu um quadro similar para as espécies de Bacillus mencionadas (vide supra) . Essa é uma indicação de que os mesmos dados estatísticos são aplicáveis para outras espécies relacionadas de Bacillus. Além disso, a partir do exemplo 1 (veja também a Figura 4) , já estava claro que espécies relacionadas apresentam freqüências de par de códons similares.
Na Figura 4 (veja também o exemplo 1) , pode ser encontrado um gráfico da comparação de par de códons, com base nos dados estatísticos do genoma completo para B. subtilis vs. B. amyloliquefaciens. É observada uma boa correlação entre ambos os conjuntos de dados. Além disso, parece que B. amyloliquefaciens é mais versátil, já que há um subgrupo de combinações de par de códons que é bem aceito em B. amyloliquefaciens, enquanto possui valores altamente negativos para B. subtilis; o oposto não é observado.
.4.2. Design do experimento
Três seqüências de proteínas foram selecionadas para expressão tanto em Bacillus subtilis quanto em Bacillus amyloliquefaciens:
Proteína 1: Xilose (glicose) isomerase xylA (EC.5.3.1.5) de Bacillus stearothermophilus; Proteína 2: Xilose (glicose) isomerase xylA (EC.5.3.1.5) de Streptomyces olivochromogen.es;
Proteína 3: L-arabinose isomerase (EC 5.3.1.4) de Thermoanaerobacter mathranii. Tabela 4.1 Visão geral das construções gênicas; a Proteína .2 foi escolhida para explorar ainda mais o conceito de par de cõdons em um sentido mais amplo.
<table>table see original document page 117</column></row><table>
A Tabela 4.1 fornece uma visão geral dos métodos aplicados aos 3 genes descritos acima. Para a Proteína 1, Proteína 2 e Proteína 3, a otimização de par de códons do método da invenção é aplicada em adição à otimização de códon único desenvolvida anteriormente.
Como controle, o efeito da otimização de códon único e da otimização de par de códons negativos foi testado experimentalmente por inclusão de 2 construções adicionais para a proteína 2. É projetada uma variante (ID. DE SEQ. N°: 18) que é "otimizada" em direção aos pares de códons ruins (ou seja, otimização de par de códons negativos), e uma segunda apenas com otimização de códon único (ID. DE SEQ. N°: 17). A Proteína 2 foi escolhida, na medida em que a espécie Streptomyces apresenta viés de par de códons altamente diferente; veja o exemplo Iea Figura 4.
Todos os genes projetados de B. amyloliquefaciens evitaram a ocorrência de sítios de restrição NdeI (CATATG) e BamHI (GGATTC). Adicionalmente, eles continham um único sítio de restrição para a remoção da parte de E. coli do vetor de clonagem pBHA12.
4.3. Otimização de códon único
Foram projetadas variantes otimizadas de códon único para Proteína 1 e Proteína 2 com a utilização do método descrito no Exemplo 3.3 para otimização de códon único, resultando no ID. DE SEQ. N°: 16 e no ID. DE SEQ. N°: 17, respectivamente. A tabela de distribuição de códon único aplicada (Tabela 4.2) foi determinada com o uso dos 5 0 genes mais altamente expressos, como determinado por 24 GeneChips de Affymetrix para B. subtilis 168 usando 6 séries independentes de fermentação. Todos os GeneChips foram normalizados com relação à sua média aritmética. A lista de expressão exclui aqueles genes que foram deliberadamente superexpressos no projeto da cepa e, portanto, seu nível de expressão medido não pode ser correlacionado com seu uso de códon.
A determinação da tabela de distribuição de códon único 4.2 é feita por inspeção visual de histogramas da freqüência de códons das 50, 100, 200 e 400 seqüências mais expressas e de todas as seqüências de B. subtilis. No caso de uma tendência nítida em direção a 0% ou 100% para os genes mais altamente expressos, atribuiu-se 0% e 100%, respectivamente. Para os outros códons que não foram atribuídos, o uso médio foi calculado e normalizado para o conjunto de códons sinônimos, deixando de fora os códons atribuídos. As freqüências-alvo de códon único resultantes são apresentadas na Tabela 4.2, coluna 3.
Tabela 4.2 Distribuição do uso de códon para o design de gene sintético com base nos 50 genes mais altamente expressos e inspeção visual de histogramas de uso de códon único, por exemplo, Figura 24; o uso do termo "não importa" pode ser aplicado durante a otimização de par de códons para deixar livre a escolha desses códons e, portanto, levando em conta a otimização de códon único para esses códons.
<table>table see original document page 119</column></row><table> <table>table see original document page 120</column></row><table> Arg_CGG 0 1 Arg AGA 28 0 Arg_AGG 0 1 S Ser_TCT 34 0 Ser_TCC 0 1 Ser TCA 34 0 Ser_TCG 0 1 Ser_AGT 0 1 Ser_AGC 32 0 T Thr_ACT 33 0 Thr ACC 0 1 Thr_ACA 46 0 Thr_ACG 22 1 V Val_GTT 47 1 Val_GTC 0 1 Val_GTA 23 1 Val_GTG 30 1 W Trp_TGG 100 1 Y Tyr_TAT 62 0 Tyr_TAC 38 0 Stop_TGA 0 1 Stop_TAG 0 1 Stop_TAA 100 1
4.4. Otimização de par de códons
A otimização de par de códons foi realizada de acordo com o método da invenção. As seqüências de nucleotídeos codificadoras otimizadas ID. DE SEQ. N° : 13-15 são o resultado de uma rodada com o método de software descrito. Os parâmetros aplicados foram: tamanho da população = 200; número de repetições = 1.000; cpi = 0,20, matriz CPW = "Tabela C.4. CPW: Bacillus subtilis - seqüências altamente expressas" e a matriz CR = "Tabela B.l coluna 5: CR tabela BAS: Bacillus subtilis - seqüências altamente expressas" (também na Tabela 4.2) e elementos "não importa" como na Tabela 4.2. Além disso, um valor de penalidade de +1 é acrescentado a fItcombi para cada ocorrência de um sítio de restrição iVdel (CATATG) e SamHI (GGATTC) .
As seqüências de nucleotídeos codificadoras otimizadas ID. DE SEQ. N°: 18 são o resultado de uma rodada com o método de software descrito. Os parâmetros aplicados foram: tamanho da população = 200; número de repetições = 1.000; cpi = 0,20, matriz CPW = -1 vez "Tabela C.4. CPW: Bacillus subtilis - seqüências altamente expressas" (para obtenção da otimização de par de códons em direção aos pares de códons ruins) e a matriz CR = "Tabela B.l coluna 5: CR tabela BAS: Bacillus subtilis - seqüências altamente expressas" (também na Tabela 4.2) e elementos "não importa" como na Tabela 4.2. Além disso, um valor de penalidade de + 1 é acrescentado a fitcombi para cada ocorrência de um sítio de restrição NdeI (CATATG) e BamHI (GGATTC).
Os elementos "não importa" na Tabela 4.2 são escolhidos para aqueles códons que não apresentam viés de códon. Isso foi feito por inspeção visual do gráfico de viés de códon único; veja 4.3. 0 uso desses elementos fornece liberdade adicional à parte de par de códons da otimização.
Todas as otimizações convergiram em direção a um valor mínimo para fitcombi. Os valores objetivos obtidos para os IDS . DE SEQ. N°s: 13-15 e para o ID. DE SEQ. N°: 18 são apresentados na Tabela 4.2, juntos com aqueles para o ID. DE SEQ. Ν°: 11, ID. DE SEQ. Ν°: 16 e ID. DE SEQ. Ν°: 17. A partir desses dados, fica claro que os dados estatísticos de códon único são altamente similares para o ID. DE SEQ. N°: 16 e ID. DE SEQ. N°: 17 em comparação com o ID. DE SEQ. N°: 14 e ID. DE SEQ. N°: 15. No entanto, o método da invenção leva a um gene com um número aumentado de pares de códons com pesos negativos associados, indicando um uso mais ótimo de pares de códons que possuem mais pesos negativos associados a eles; veja a Tabela 4.3.
A "otimização" com o uso da maximização de fi tcp leva a um gene com um número aumentado de pares de códons com pesos positivos associados, indicando um uso aumentado de pares de códons que possuem mais pesos positivos a eles associados e, dessa forma, espera-se uma má influência sobre as características de tradução. Para o ID. DE SEQ. N°: 18 (wcp{g) < 0) é de 24% vs. 85% para o ID. DE SEQ. N°:14, e também fi tcp aumentou de 1,2 0 para -1,43.
Tabela 4.3 Otimização de códon; valores objetivos de aptidão para genes para expressão em B. subtilis e B. amyloliquefaciens.
<table>table see original document page 123</column></row><table> <table>table see original document page 124</column></row><table>
.5. Exemplo 5: Teste do método da invenção quanto ã expressão de três enzimas heterólogas em Bacillus subtilis e Bacillua amyloliguefaciens.
.5.1 Introdução
0 Exemplo 5 descreve o experimento e os resultados da expressão de 3 genes heterólogos com variantes de seqüência destes em células hospedeiras tanto em Bacillus subtilis quanto em Bacillus amyloliquefaciens. As variantes são feitas de acordo com o método da invenção, como descrito no Exemplo 4 .
.5.2 Materiais e métodos
.5.2.1 Meios de crescimento de Bacillus
.2*TY (por litro) : 16 g de triptona peptona, 10 g de extrato de levedura Difco, 5 g de NaCl.
.5.2.2 Transformação de B. subtilis
Meios
Meio 2x Spizizen: 28 g de K2HPO4; 12 g de KH2PO4; 4 g de (NH4)2SO4; 2,3 g de Na3-Citrato. 2H20; 0,4 g de MgSO4. 7H20; H2O até 900 ml e ajustar até pH 7,0-7,4 com NaOH 4 N. Adicionar H2O até 1 litro.
Autoclavar 20 minutos a 120°C.
Meio Ix Spizizen-plus: adicionar a 50 ml meio 2x Spizizen 50 ml de milliQ; 1 ml de glicose 50% e 100 μΐ de casaminoácidos (concentração final de 2 0 pg/ml).
Uma única colônia de Bacillus (ou uma alíquota de um vaso de congelamento profundo) de uma placar de ágar não seletivo 2xTY foi inoculada em 10 ml de caldo 2xTY em um frasco de agitação de 100 ml. As células cresceram de um dia para o outro em uma agitadora incubadora a 3 70C e ± 250 rpm. A OD foi medida em 600 nm e a cultura foi diluída com meio Ix Spizizen-plus até OD60O «0,1. As células cresceram a 370C e 250-300 rpm até a OD60O da cultura ser de 0,4 -0,6. A cultura foi diluída 1:1 com meio Ix Spizizen suplementado com glicose 0,5% (meio de inanição), e foi incubada por 90 minutos a 37°C e 250-300 rpm. A cultura foi centrifugada a 4.500 rpm em uma centrífuga de bancada por10 minutos. Noventa % do sobrenadante foram removidos e o pélete foi suspenso no volume restante. 0 DNA (1 - 5 pg em um máximo de 20 μΐ) foi misturado com 0,5 ml de células competentes em uma universal, e incubado por 1 hora a 370C em um banho-maria em agitação rotatória sob agitação firme ( = 5/6) . As células foram plaqueadas (20 a 200 μΐ) em placas de ágar seletivo 2xTY contendo 25 pg/ml de canamicina, e incubadas de um dia para o outro a 370C.
.5.2.3 Preparação de extrato sem células
O pélete obtido da cultura de 1 ml foi ressuspenso em tampão A contendo Tris-HCl 10 mM (pH 7,5), EDTA 10 mM, NaCl F50 mM, 1 mg/ml de lisozima e inibidores de protease (coquetel inibidor completo de protease sem EDTA, Roche). Os péletes ressuspensos foram incubados por 3 0 minutos a37°C para protoplastação e subseqüentemente sonificados da seguinte forma: 3 0 segundos, 10 mícrons de amplitude (3 ciclos), com resfriamento de 15 segundos entre ciclos. Após sonificação, os restos celulares foram precipitados por centrifugação (10 minutos, 13.000 rpm a 4°C), e os lisados transparentes foram usados para análise posterior.
.5.2.4 Seleção de genes codificadores de glicose isomerase e L-arabinose isomerase e design de genes sintéticos para expressão em Bacillus amyloliquefaciens e Bacillus subtilis
As três enzimas selecionadas são:
.1. Xilose isomerase de Bacillus stearothermophílus (P54272 Swissprot); seqüência de proteínas ID. DE SEQ. N°:9,
.2. Xilose isomerase de Streptomyces olivochromogenes (P15587 Swissprot); proteína ID. DE SEQ. N°: 10,
.3. L-arabinose isomerase de Thermoanaerobacter mathranii (AJ 582623.1 EMBL, e também U.S. 2003/012971A1), proteína ID. DE SEQ. N°: 11, nucleotídeos ID. DE SEQ. N°:12 .
Como observado acima, as enzimas selecionadas possuem origem microbiana diferente. Com o objetivo de superproduzir essas enzimas em Bacillus subtilis ou Bacillus amyloliquefaciens, otimizamos a seqüência de nucleotídeos para cada proteína de tal forma que ela seja adequada à expressão em espécies de Bacillus; veja o Exemplo 4. Otimizamos as seqüências de nucleotídeos que codificam as enzimas mencionadas acima. As seqüências estão listadas na lista de seqüências sob o ID. DE SEQ. N°: 13 (glicose (xilose) isomerase de Bacillus stearothermophilus) , ID. DE SEQ. N0 : 14 ( (xilose) isomerase de Streptomyces olivochromogenes glicose), ID. DE SEQ. N°: 15 (L-arabinose isomerase de Thermoanaerobacter mathranii). Como controle, foi gerada uma variante com uma otimização de códon único, sem otimização de par de códons, ID. DE SEQ. N°: 16-17, e uma com otimização de códon único com "otimização de par de códons negativos" ID. DE SEQ. N°: 18; veja o exemplo 4 e a Tabela 4.1.
.5.3 Clonagem dos genes codificadores de glicose isomerase e L-arabinose isomerase no vetor shuttle de E. coli/Bacillus e transformação em Bacilli
Para a expressão dos genes selecionados em Baeilli, utilizamos o vetor shuffle de E. coli/Bacillus pBHA12 (Figura 26). Esse vetor é derivado basicamente do vetor de expressão pBHA-1 (EP 340878) no qual um promotor derivado do gene amyQ de Bacillus amyloliguefaciens substituiu o promotor HpaII. 0 plasmídeo pBHA12 contém dois sítios de clonagem múltipla (Figura 26). Todos os genes selecionados e otimizados foram feitos sinteticamente (DNA 2.0, Menlo Park, CA, E.U.A.) como dois fragmentos (A e B). 0 fragmento A, que corresponde à extremidade 5' do gene, foi clonado atrás do promotor amyQ. Ambos os fragmentos foram estendidos com sítios de restrição de endonuclease específicos, a fim de permitir a clonagem direta nos sítios de clonagem múltipla 1 e 2 (veja Figura 27). A extremidade3' do fragmento Aea extremidade 5' do fragmento B se superpõem por um sítio de restrição de endonuclease único que permite a excisão da parte de E. coli do vetor e a retro-ligação, antes da transformação de Bacillus subtilis (CBS 363.94). Durante o procedimento de clonagem e transformação de B. subtilis, E. coli foi usada como um hospedeiro intermediário. Foi escolhida a abordagem de clonagem em duas etapas em pBHA12 a fim de evitar possíveis problemas durante a clonagem e propagação dos vetores de expressão em E. coli. Na Tabela 5.1, estão listados os sítios de reconhecimento de enzima de restrição adicionados aos fragmentos AeB, bem como o sítio de restrição único que permite a retro-ligação e, dessa forma, a reconstrução de um gene inteiro e funcional. Todas as extremidades 5' dos fragmentos A contêm um sítio NdeI (seqüência de reconhecimento CATATG) que permite a clonagem de genes como um fragmento que começa exatamente em seu respectivo códon de partida (ATG).
Tabela 5.1. Resumo dos sítios de clonagem por endonuclease de restrição (RE) que foram adicionados aos fragmentos gênicos para facilitar a clonagem em pBHA12.
<table>table see original document page 128</column></row><table> <table>table see original document page 129</column></row><table>
Os fragmentos A e B de 5 genes foram clonados em duas etapas no MCSl e 2, respectivamente, como mostrado para o ID. DE SEQ. N°: 13 na Figura 27, com o uso de métodos padronizados de biologia molecular (Sambrook & Russell, "Molecular Cloning: A Laboratory Manual", 3a Ed., CSHL Press, Cold Spring Harbor, NY, 2001; e Ausubel e cols., wCurrent Protocols in Molecular Biology", Wiley InterScience, NY, 1995). A transformação foi realizada na E. coli TOPlO (Invitrogen) ou INVllO (Invitrogen), no caso de utilização de endonucleases de restrição sensíveis à metilação em uma etapa posterior. Foram isolados vários transformantes de E. coli resistentes à ampicilina para cada construção de expressão usando os kits de isolamento de plasmídeo mini ou midi (Macherey-Nagel e Sigma, respectivamente). A ligação correta dos fragmentos AeB correspondentes no vetor pBHA12 foi confirmada por análise de restrição. Na etapa seguinte, os plasmídeos pBHA12 que continham os fragmentos AeB dos genes foram digeridos com a endonuclease de restrição única (veja Tabela 5.1) para retirar a parte de E. coli do vetor. A parte de Bacillus do vetor que continha o gene interrompido foi isolada do gel de agarose com a utilização do kit de extração de gel (Macherey-Nagel) e retro-ligada. A mistura de ligação foi transformada na B. subtilis cepa CBS 363.94 por transformação de célula competente. Foram isolados vários transformantes de B. subtilis resistentes à canamicina para cada construção de expressão com a utilização dos kits de isolamento de plasmídeo mini ou midi (Macherey-Nagel e Sigma, respectivamente). As construções de expressão foram verificadas por análise de restrição quanto ao padrão correto após a excisão da parte de E. coli e da retro- ligação da parte de Bacillus do vetor pBHA12. Para cada construção, foram selecionados três transformantes de B. subtilis para análise do extrato sem células.
5.4 Detecção de enzimas superproduzidas em Bacilli Três transf ormantes de B. subtilis e três transformantes de B. amyloliquefaciens para cada construção foram usados para analisar o extrato sem células quanto à presença da proteína de glicose ou L-arabinose isomerase correspondente. Os meios de fermentação 2xTY foram usados para o crescimento das cepas. Foram coletadas amostras (1 ml) em 24 horas de fermentação (em frasco em agitação), e o extrato sem células foi preparado incluindo inibidores protease em tampão de extração. Treze μΐ do extrato sem células foram analisados em SDS-PAGE (Invitrogen). Para vários transformantes, foi detectada uma banda nítida correspondente ao peso molecular esperado da proteína superexpressa. Uma comparação visual das bandas é exibida na Tabela 5.2. Fica claro que o método da invenção aumentou a produção de proteína para xilose isomerase de Bacillus stearothermophilus, xilose isomerase de Streptomyces olivochromogenese L-arabinose isomerase de
Thermoanaerobacter mathranii pela utilização do método de par de códons, ou seja, ele resultou no aumento da produção de proteína em comparação com o gene WT de referência ou com as variantes de códon único otimizadas. Além disso, caso se aplicasse a otimização de par de códons negativos junto com a otimização de códon único, nenhum produto seria detectado.
Tabela 5.2 Superexpressão de três genes heterólogos em Bacilli. WT: do tipo selvagem; sc: otimização de códon único; cp: otimização de par de códons; cp": otimização de par de códons negativos.
<table>table see original document page 131</column></row><table>
REFERÊNCIAS
Boycheva, S., Chkodrov, G. e Ivanov, I. (2003). "Codon pairs in the genome of Escherichia coli", Bioinformatics19 (8) : 987-998.
Gurvich, O.L., Baranov, P.V., Gesteland, R.F., Atkins, J.F. (2005). "Expression leveis influence ribosomal frameshifting at the tandem rare arginine codons AGG_AGG and AGA_AGA", J. Bacteriol. 187: 4.023-4.032.
Gustafsson, C., Govindarajan, S. e Minshull, J. (2004) . "Codon bias and heterologous protein expression", Trends Biotechnol. 22(7): 346-353.
Gutman, G.A. e Hatfield, G.W. (1989) . "Nonrandom utilization of codon pairs in Escherichia coli", PNAS 86: 3.699-3.703.
Gygi, S.P., Rochon, Y., Franza, B. R. e Aebersold, R. (1999). "Correlation between protein and mRNA abundance in Yeast", Mol. Cel. Biol. 19(3): 1.720-30.
Hatfield, G.W. e Gutman, G.A. (1992). "Codon pair utilization", Patente U.S. N0 5.082.767.
Irwin7 B., Heck, D. e Hatfield, G.W. (1995). "Codon pair utilization biases influence translational elongation step times", J. Biol. Chem. 270: 22.801-22.806.
Karlin e cols. (2001). "Characterization of highly expressed genes of four fast-growing bactéria", J. of
Bacteriology 183 (17) : 5.025-39.
Kunst, F. e cols. (1997) . "The complete genome sequence of the Gram-positive bacterium Bacillus subtilis", Nature 390: 249-256.
Lithwick, G. e Margalit, H. (2003). "Hierarchy of sequence-dependent features associated with prokaryotic translation", Genome Res. 13(12): 2.665-73.
Makrides, S.C. (1996). "Strategies for achieving high- level expression of genes in Escherichia coli", Microbiol. Rev. 60: 512-538.
Moura, G. e cols. (20 05). "Comparative context analysis of codon pairs on an ORFeome scale". Genome Biology 2005, 6:R28.
Nevalainen, Κ.Μ.H., Te'o, V.S.J. e Bergquist, P.L. (2005). "Heterologous protein expression in filamentous fungi", Trends Biotechnol. 2005 23(9): 468-474.
Pel, H.J., e cols. (2007). "Genome sequencing and analysis of the versatile cell factory Aspergillus niger CBS513.88", Nat Biotech. 2007 25(2): 221-231.
Punt, P.J., van Biezen, N., Conesa, A., Albers, A., Mangnus, J. e van den Hondel, C. (2 005). "Filamentous fungi as cell factories for heterologous protein production", Trends Biotechnol. 20(5): 200-206.
Rocha, E.P.C., A. Danchin e A. Viari (1999). "Translation in Bacillus subtilis: roles and trends of initiation and termination, insights from a genome analysis", NAR1 27 (17) :3567-76. Boycheva, S., Chkodrov, G. e Ivanov, I. (2003). "Codon pairs in the genome of Escherichia coli", Bioinformatics 19(8): 987-998.
Schwartz, S. e Curran, J.F. (1997). ,,Analyses of frameshifting at UUU-pyrimidine sites", NAR 25(10): 2.005-2 . 011.
Spanjaard, R.A. e van Duin, J. (1988) . "Translation of the sequence AGG-AGG yields 50% ribosomal frameshift", PNAS 85: 7.967-7.971.
ANEXO 1: Lista de símbolos e equações
Códon único: Ci
Códons que codificam o mesmo aminoácido: Syn(Ci)
Número de ocorrências do códon Ci :
nsc(Ci) Proporção do códon ck (comparado com seus sinônimos)
<formula>formula see original document page 134</formula>
Par de códons:
(Ci,Cj)
Ocorrências (número observado) de par de códons:
nobs((Ci,Cj))
Número esperado desse par de códons:
<formula>formula see original document page 134</formula>
Desvio-padrão correspondente: <formula>formula see original document page 134</formula>
Pontuação-padrão correspondente (pontuação z)
<formula>formula see original document page 134</formula>
Coeficiente de viés para um par de códons:
<formula>formula see original document page 134</formula>
Valores "esperados" combinados (para pesos):
<formula>formula see original document page 134</formula>
Pesos do par de códon - método do grupo de uma seqüência (ou genoma): <formula>formula see original document page 134</formula>
Pesos do par de códon - método do grupo altamente expresso com grupo (ou genoma) de referência:
<formula>formula see original document page 134</formula> ANEXO 2: Vetores CR
Tabela B.l: Valores da matriz CR para os seguintes organismos em colunas: (1) AN: genoma completo de A. niger - método: distribuição estatística; (2) ANS: 250 genes altamente expressos de A. niger - método: inspeção visual, (3) AN_d: vetor importa/não importa (0-1) de A. niger; (4) BS: genoma completo de B. subtilis - método: distribuição estatística; (5) BSS: 50 genes altamente expressos de B. subtilis - método: inspeção visual, (6) BS_d: vetor importa/não importa (0-1) de B. subtilis; (7) EC: genoma completo E. coli - 4 .298 seq; - método: distribuição estatística; (8) ECS grupo altamente expresso de E. coli - 100 seq. de Carbone e cols. (2003) - método: inspeção visual; (9) EC_d: vetor importa/não importa (0-1) de E. coli; (10) BA: genoma completo de B. amyloliquefaciens - método: distribuição estatística; (11) BAS: 50 genes altamente expressos de B. amyloliquefaciens - método: inspeção visual, (12) BS_d: vetor importa/não importa (0-1) de B. amyloliquefaciens; (13) SC: genoma completo de S. cerevisiae - método: distribuição estatística; (14) SCS: 200 genes altamente expressos de S. cerevisiae - método: inspeção visual, (15) SC_d: vetor importa/não importa (0-1) de S. cerevisiae; (16) SCO: genoma completo de S. coelicolor A3(2) - método: distribuição estatística.
Observação: para microorganismos fúngicos e, mais especificamente, P. chrysogenum, A. Oryzae, A. terreus, A. nidulans, A. fumigatus, T. reesei, N. fischerii, aplica-se o vetor CR derivado com o uso de seqüências de A. niger.
Para levedura em geral e, mais especificamente, K. Iactis e S. pombe, aplica-se o vetor CR derivado com o uso de seqüências de S. cerevisiae. Para espécies de Streptomyces, aplica-se o vetor CR derivado com o uso de S. coelicolor A3 (2) .
<table>table see original document page 136</column></row><table> <table>table see original document page 137</column></row><table> <table>table see original document page 138</column></row><table> 17 CAA 69 90 1 5
18 CAC 36 59 1 93
19 CAG 31 10 1 95
20 CAT 64 41 1 7
21 CCA 41 74 1 2
22 CCC 16 5 1 41
23 CCG 13 0 1 54
24 CCT 31 23 1 2
25 CGA 7 0 1 3
26 CGC 6 1 1 47
27 CGG 4 0 1 39
28 CGT 14 25 1 6
29 CTA 14 9 1 0
30 CTC 6 0 1 36
31 CTG 11 5 1 60
32 CTT 13 3 1 2
33 GAA 70 85 1 15
34 GAC 35 51 1 95
35 GAG 30 15 1 85
36 GAT 65 49 1 5
37 GCA 30 2 1 4
38 GCC 22 33 1 58
39 GCG 11 0 1 36
40 GCT 37 64 1 2
41 GGA 23 0 1 7
42 GGC 20 8 1 64
43 GGG 12 1 1 19
44 GGT 45 95 1 10
45 GTA 22 0 1 3
46 GTC 20 39 1 55 <table>table see original document page 140</column></row><table> <table>table see original document page 141</column></row><table> <table>table see original document page 142</column></row><table> <table>table see original document page 143</column></row><table> <table>table see original document page 144</column></row><table> <table>table see original document page 145</column></row><table> <table>table see original document page 146</column></row><table> <table>table see original document page 147</column></row><table> <table>table see original document page 148</column></row><table> <table>table see original document page 149</column></row><table> <table>table see original document page 150</column></row><table> <table>table see original document page 151</column></row><table> <table>table see original document page 152</column></row><table> <table>table see original document page 153</column></row><table> <table>table see original document page 154</column></row><table> <table>table see original document page 155</column></row><table> <table>table see original document page 156</column></row><table> <table>table see original document page 157</column></row><table> <table>table see original document page 158</column></row><table> <table>table see original document page 159</column></row><table> <table>table see original document page 160</column></row><table> <table>table see original document page 161</column></row><table> <table>table see original document page 162</column></row><table> <table>table see original document page 163</column></row><table> <table>table see original document page 164</column></row><table> <table>table see original document page 165</column></row><table> <table>table see original document page 166</column></row><table> <table>table see original document page 167</column></row><table> <table>table see original document page 168</column></row><table> <table>table see original document page 169</column></row><table> <table>table see original document page 170</column></row><table> <table>table see original document page 171</column></row><table> <table>table see original document page 172</column></row><table> <table>table see original document page 173</column></row><table> <table>table see original document page 174</column></row><table> <table>table see original document page 175</column></row><table> <table>table see original document page 176</column></row><table> <table>table see original document page 177</column></row><table> <table>table see original document page 178</column></row><table> <table>table see original document page 179</column></row><table> <table>table see original document page 180</column></row><table> <table>table see original document page 181</column></row><table> <table>table see original document page 182</column></row><table> <table>table see original document page 183</column></row><table> <table>table see original document page 184</column></row><table> <table>table see original document page 185</column></row><table> <table>table see original document page 186</column></row><table> <table>table see original document page 187</column></row><table> <table>table see original document page 188</column></row><table> <table>table see original document page 189</column></row><table> <table>table see original document page 190</column></row><table> <table>table see original document page 191</column></row><table> <table>table see original document page 192</column></row><table> <table>table see original document page 193</column></row><table> <table>table see original document page 194</column></row><table> <table>table see original document page 195</column></row><table> <table>table see original document page 196</column></row><table> <table>table see original document page 197</column></row><table> <table>table see original document page 198</column></row><table> <table>table see original document page 199</column></row><table> <table>table see original document page 200</column></row><table> <table>table see original document page 201</column></row><table> <table>table see original document page 202</column></row><table> <table>table see original document page 203</column></row><table> <table>table see original document page 204</column></row><table> <table>table see original document page 205</column></row><table> <table>table see original document page 206</column></row><table> <table>table see original document page 207</column></row><table> <table>table see original document page 0</column></row><table> <table>table see original document page 209</column></row><table> <table>table see original document page 210</column></row><table> <table>table see original document page 211</column></row><table> <table>table see original document page 212</column></row><table> <table>table see original document page 213</column></row><table> <table>table see original document page 214</column></row><table> <table>table see original document page 215</column></row><table> <table>table see original document page 216</column></row><table> <table>table see original document page 217</column></row><table> <table>table see original document page 218</column></row><table> <table>table see original document page 219</column></row><table> <table>table see original document page 220</column></row><table> <table>table see original document page 221</column></row><table> <table>table see original document page 222</column></row><table> <table>table see original document page 223</column></row><table> <table>table see original document page 224</column></row><table> <table>table see original document page 225</column></row><table> <table>table see original document page 226</column></row><table> <table>table see original document page 227</column></row><table> <table>table see original document page 228</column></row><table> <table>table see original document page 229</column></row><table> <table>table see original document page 230</column></row><table> <table>table see original document page 231</column></row><table> <table>table see original document page 232</column></row><table> <table>table see original document page 233</column></row><table> <table>table see original document page 234</column></row><table> <table>table see original document page 235</column></row><table> <table>table see original document page 236</column></row><table> <table>table see original document page 237</column></row><table> <table>table see original document page 238</column></row><table> <table>table see original document page 239</column></row><table> <table>table see original document page 240</column></row><table> <table>table see original document page 241</column></row><table> <table>table see original document page 242</column></row><table> <table>table see original document page 243</column></row><table> <table>table see original document page 244</column></row><table> <table>table see original document page 245</column></row><table> <table>table see original document page 246</column></row><table> <table>table see original document page 247</column></row><table> <table>table see original document page 248</column></row><table> <table>table see original document page 249</column></row><table> <table>table see original document page 250</column></row><table> <table>table see original document page 251</column></row><table> <table>table see original document page 252</column></row><table> <table>table see original document page 253</column></row><table> <table>table see original document page 254</column></row><table> <table>table see original document page 255</column></row><table> <table>table see original document page 256</column></row><table> <table>table see original document page 257</column></row><table> <table>table see original document page 258</column></row><table> <table>table see original document page 259</column></row><table> <table>table see original document page 260</column></row><table> <table>table see original document page 261</column></row><table> <table>table see original document page 262</column></row><table> <table>table see original document page 263</column></row><table> <table>table see original document page 264</column></row><table> <table>table see original document page 265</column></row><table> <table>table see original document page 266</column></row><table> <table>table see original document page 267</column></row><table> <table>table see original document page 268</column></row><table> <table>table see original document page 269</column></row><table> <table>table see original document page 270</column></row><table> <table>table see original document page 271</column></row><table> <table>table see original document page 272</column></row><table> <table>table see original document page 273</column></row><table> <table>table see original document page 274</column></row><table> <table>table see original document page 275</column></row><table> <table>table see original document page 276</column></row><table> <table>table see original document page 277</column></row><table> <table>table see original document page 278</column></row><table> <table>table see original document page 279</column></row><table> <table>table see original document page 280</column></row><table> <table>table see original document page 281</column></row><table> <table>table see original document page 282</column></row><table> <table>table see original document page 283</column></row><table> <table>table see original document page 284</column></row><table> <table>table see original document page 285</column></row><table> <table>table see original document page 286</column></row><table> <table>table see original document page 287</column></row><table> <table>table see original document page 288</column></row><table> <table>table see original document page 289</column></row><table> <table>table see original document page 290</column></row><table> <table>table see original document page 291</column></row><table> <table>table see original document page 292</column></row><table> <table>table see original document page 293</column></row><table> <table>table see original document page 294</column></row><table> <table>table see original document page 295</column></row><table> <table>table see original document page 296</column></row><table> <table>table see original document page 297</column></row><table> <table>table see original document page 298</column></row><table> <table>table see original document page 299</column></row><table> <table>table see original document page 300</column></row><table> <table>table see original document page 301</column></row><table> <table>table see original document page 302</column></row><table> <table>table see original document page 303</column></row><table> <table>table see original document page 304</column></row><table> <table>table see original document page 305</column></row><table> <table>table see original document page 306</column></row><table> <table>table see original document page 307</column></row><table> <table>table see original document page 308</column></row><table> <table>table see original document page 309</column></row><table> <table>table see original document page 310</column></row><table> <table>table see original document page 311</column></row><table> <table>table see original document page 312</column></row><table> <table>table see original document page 313</column></row><table> <table>table see original document page 314</column></row><table> <table>table see original document page 315</column></row><table> <table>table see original document page 316</column></row><table> <table>table see original document page 317</column></row><table> <table>table see original document page 318</column></row><table> <table>table see original document page 319</column></row><table> <table>table see original document page 320</column></row><table> <table>table see original document page 321</column></row><table> <table>table see original document page 322</column></row><table> <table>table see original document page 323</column></row><table> <table>table see original document page 324</column></row><table> <table>table see original document page 325</column></row><table> <table>table see original document page 326</column></row><table> <table>table see original document page 327</column></row><table> <table>table see original document page 328</column></row><table> <table>table see original document page 329</column></row><table> <table>table see original document page 330</column></row><table> <table>table see original document page 331</column></row><table> <table>table see original document page 332</column></row><table> <table>table see original document page 333</column></row><table> <table>table see original document page 334</column></row><table> <table>table see original document page 335</column></row><table> <table>table see original document page 336</column></row><table> <table>table see original document page 337</column></row><table> <table>table see original document page 338</column></row><table> <table>table see original document page 339</column></row><table> <table>table see original document page 340</column></row><table> <table>table see original document page 341</column></row><table> <table>table see original document page 342</column></row><table> <table>table see original document page 343</column></row><table> <table>table see original document page 344</column></row><table> <table>table see original document page 345</column></row><table> <table>table see original document page 346</column></row><table> <table>table see original document page 347</column></row><table> <table>table see original document page 348</column></row><table> <table>table see original document page 349</column></row><table> <table>table see original document page 350</column></row><table> <table>table see original document page 351</column></row><table> <table>table see original document page 352</column></row><table> <table>table see original document page 353</column></row><table> <table>table see original document page 354</column></row><table> <table>table see original document page 355</column></row><table> <table>table see original document page 356</column></row><table> <table>table see original document page 357</column></row><table> <table>table see original document page 358</column></row><table> <table>table see original document page 359</column></row><table> <table>table see original document page 360</column></row><table> <table>table see original document page 361</column></row><table> <table>table see original document page 362</column></row><table> <table>table see original document page 363</column></row><table> <table>table see original document page 364</column></row><table> <table>table see original document page 365</column></row><table> <table>table see original document page 366</column></row><table> <table>table see original document page 367</column></row><table> <table>table see original document page 368</column></row><table> <table>table see original document page 369</column></row><table> <table>table see original document page 370</column></row><table> <table>table see original document page 371</column></row><table> <table>table see original document page 372</column></row><table> <table>table see original document page 373</column></row><table> <table>table see original document page 374</column></row><table> <table>table see original document page 375</column></row><table> <table>table see original document page 376</column></row><table> <table>table see original document page 377</column></row><table> <table>table see original document page 378</column></row><table> <table>table see original document page 379</column></row><table> <table>table see original document page 380</column></row><table> <table>table see original document page 381</column></row><table> <table>table see original document page 382</column></row><table> <table>table see original document page 383</column></row><table> <table>table see original document page 384</column></row><table> <table>table see original document page 385</column></row><table> <table>table see original document page 386</column></row><table> <table>table see original document page 387</column></row><table> <table>table see original document page 388</column></row><table> <table>table see original document page 389</column></row><table> <table>table see original document page 390</column></row><table> <table>table see original document page 391</column></row><table> <table>table see original document page 392</column></row><table> <table>table see original document page 393</column></row><table> <table>table see original document page 394</column></row><table> <table>table see original document page 395</column></row><table> LISTAGEM DE SEQUENCIAS
<110> DSM IP Assets B.V.
<120> MÉTODO PAJRA OBTENÇÃO DE AUMENTO DA EXPRESSÃO DE POLIPEPTÍDEOS <13 0 > 2505IWO <160> 18
<170> PatentIn version 3.3
<210> 1
<211> 3965
<212 > DNA
<213> Aspergillus niger
<400> 1 gtttgacgcg
tacactattt
tgttacggtt caaagagtat gcgctccatc atcgatagaa aatttttata gttagggctg cggagtcaac agcgaaggac agcccaagaa
caaccaacac
ccacaaatca atcgcttgga gtatcacaac atcacatcaa
gcgtggtggt
cctgcggact gatgggtcga ttcagaaaga catcatcgac
aataaaataa
ggcttcacag ggagatgcct cctgtcatct aactacggca tatcttatgg cggatatggt gctcagtcga gtttcattca ctgtctcctt 50 gggtgggatc ggctgatcga gtccagaagg gtgctcgacg aactatccca aaacggctaa tggacgacct tgggcacatt ttttccgttc catagccctc ctacgccggc ctggctctcg
tttgcagtgt ctataacctt accttccata tggggggggt taaatgttct ctactcattt tggcgggtgg atatttacgt agcatccaag cacctctagg aaaggtcggc cctccagagt cagtcgtccc ttccccgccc atataaatac gctctccctt ctctatttct ggcgatcgca cgactgcgac ggaatgtaaa aaggtaaatt aaagaactct ccatctggat accatggcta tttacatcaa ctgcagatga tcgatgtggt tcatttcagt ttacagtgtg aaactatgaa gcctgatctc attggtatcg tgatacttac acttctggcc gtgatccggc tgtatggttc aaccagttac ctacaacatg cgtcgagaac ccaatttcca gccaagaacg caagaacagc ggctacccga
agaagcttcc actgttcaat tgtagactag gacagcagta ggctgtggtg ttatatagaa tgggcaactc aaaaatcgtc cccaagtcct catcggacgc ccgtcggcct gactaggggc cggtattgtc ctggccgtag tagcaaggga ctctgaacaa gtacggcctt atccatttat ttgtaatact ctgacttgat gcccctttat agtcctaacc cacccccgtt ctggcagcag tatgaactaa cttgaaggcg tgctaaccat actgacaatg tttaaaccgt gatcagactc gataccacca aactactcca gaaatcagtt cgggtacaac ctacacttgt ctccaaccat tatccactcc atcaacaccg cacgacaacc cacagaaccc tcgcagcatt actacgccgg ccgacagcga
agctaccgta acagtacgat cgcacttggc atgactccaa tacaggggca gtcagaattc gcttgcgcgg aagggatgca tcacggagaa accatccaat tttctgcaac ggaaatttat ctgcagaatg agcttaaagt tgccatgctt taaaccccac caggtcgcgg ttccttctca gcggatcagg atagaaatac caaaaaaaaa atcacatagt acagcccagc gatatgtaag cttgatggtt ctctcttcgg atggttcgtg agtaatatca tcagttccca aggttgagga aggatgtggt gtaagatatt gacggcctcc aaagccgcag ccctaccaga gagccttctt tcaacgcctt tcaaatccga cacggttcgc cacctaacaa catcatcctc cggaaacgac gctgtacaag
gattactgat caaaatttcc attagggttc ctgtaaatcg taaaattacg atggtgtttt gcaactcgct agaccaaagt accccagcgt tagaagcagc gctgatcacg cgggattaat caatttaaac atgtcccttg ggaggatagc agaaggcatt cacctgcttt cggatcgatt tgtgttgtta tgtggtggaa agaaggaaaa tggactatat tgccccagac tcgatttctt ttagatactc cccttcatga gtcctttgca gggctatgat agactacttc ttgctggcta caagaatgaa tctccctcat gtatcgacac gcgtgtactg acgtcatgga gcaagtctca caagtcaacc ctgtccagac ttcgtaagtc gagcaaagtt aacgacggaa cccgcgaacc ttaattgcct
acaaactcaa ggaatattaa gaaatacgat gcttctaggc cactacccga gatcatttta taccgattac actaaaaccc ccacatcacg aaagcgaaac ggcagcgatc ttccactcaa tcttctgcga tcgatgcgat aaccgacaac tatgatggtc ggctgcaacg tgcaaggacg cctactagct catggcaggg gcagaagaaa ccagggaatg caccgcatat taaatatcta tctgaacgaa gagggggatg actgacttcg ggagcgggta cacccgttct ggagataaca tggtacgact tctacaactt agtaaaacac tatcggcgag cggcgtactg tctcctaacg tccggcagca tcaacactcc ttccctttta acaccaacga tccccatcat gcgaagcaac ccgcgaacgc
60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 1740 1800 1860 1920 1980 2040 2100 2160 2220 2280 2340 2400 2460 2520 2580 aatccggaac ctctaagcat caatacagaa atgggtcgca tctccttgag cgaccgtgac gggtattgta tggagagtat tgtacataac atataataca cctataatag gatgacagca cacgtgaccc cccttcccag agtaatattg gtttagtttg taatcacgct cgtcaagctc tcacggcagg cggcgagata atcccaacag acaagatacg cgcttcagcg ttaag
tatgccatta accctaatgg ctggcccatc gatcgtgact tggtgcgggt ggttggttcg tccgactgag atgatggtac caaggttgtg gaagtaccat actagcgtgc gtaacgactc tgtgccttgt gtaccatcca ttgactgcgt ccccggatct attcagaaag cagcagtgct acacccgaca acgaccgcta tggatttcgg ttacataaag gagagtgtcg
gcaaagatac cctatcttca tacaaagacg atcttgtcca tacacagccg gatggaaatg aagttggcag tgctattcaa tctgtataat acagtaccgc ttggcattag caactgtagc ggtagctcct aaagacaagc ttgtgatgcg tctgtgccga gcttccaaga ggggcctcgg ctgcaacgtc gcttgtatca aggagggagg cagtactact aaagattcag
aggattcgtg gagtatctga acacaacgat acaagggtgc gccagcaatt tgcctgttcc gtagcaagat tctggcattg atatacatgt gttatgaaaa ggttcgaaaa ccacatcttg taactttgtc atccgtcgct ggtgatgtcc cggttgctcc attaggccgg ctatgatatg taccacattt accaaatcca ggggaagata tgtttcaaac taaaacatcg
acctacaagg cacaagagac cgccatgcgc ttcgggtgat gacggaggtc tatggcaggt ctgtagtagc gacagtgagt aagatacatg cacattaatc acaatcgaag agttcggcaa atcattcgaa tcactctgag tctgcgatcg ccgaattttc tagttcggcg gttagaatgc gagcgttatt actgaaatta tacgatgaac tgtgtacaca ccaggggtga
taagcacaac taatcactgg aagggcacag tcgtataccc attggctgca gggctaccta tcgtgaaggg ttgagtttga agcttcggtg cggatccttt agtataaggg ctactgttgg gaattttcgt atcagatgag gccgcaagct ttagctagtg cgtttggtgt tcggggtggg ggcagacttg ttgctttgcc ggaagactgg ccagggctct tggaaagggg
2640 2700 2760 2820 2880 2940 3000 3060 3120 3180 3240 3300 3360 3420 3480 3540 3600 3660 3720 3780 3840 3900 3960 3965
<210 > 2
<211> 1497
<212 > DNA
<213> Aspergillus niger
<2 2 0 > <221> <222>
CDS
(1)...(1497)
<4 0 0> 2 atg gtc gcg Met Val Ala 1
cct gct ttg Pro Ala Leu
ttc Phe
act Thr
ate
Ile
65
tgg
Trp
ctt ctc Leu Leu
35 tgt aat Cys Asn 50
ate gac Ile Asp
ate acc Ile Thr
gat gcc tac Asp Ala Tyr
aac tac ggc Asn Tyr Gly 115
gag agg ggg
tgg tgg Trp Trp 5
gct gea Ala Ala 20
acg gat Thr Asp
act gcg Thr Ala
aag ttg Lys Leu
ccc gtt Pro Val
85 cat ggc His Gly 100
act gea Thr Ala
atg tat
tet cta ttt Ser Leu Phe
acg cct gcg Thr Pro Ala
cga ttt Arg Phe
gat Asp
gac
Asp
70
aca
Thr
cag
Gln
55
tat
Tyr
gcc Ala
gea
Ala
40
aaa
Lys
ate Ile
cag Gln
ctg Leu
gac
Asp
25
agg
Arg
tac Tyr
cag Gln
ctg Leu
tac tgg cag Tyr Trp Gln
gat gac ttg Asp Asp Leu 120
ctt atg gtc
cag Gln 105 aag Lys
tac Tyr 10 tgg
Trp
acg Thr
tgt Cys
gga Gly
ccc
Pro
90
gat
Asp
ggc ctt cag gtc Gly Leu Gln Val
cga Arg
gat Asp
ggt Gly
atg
Met
75
cag
Gln
tcg Ser
ggg
Gly
gga Gly 60 ggc Gly
caa tcc Gln Ser
30 tcg acg Ser Thr 45
aca tgg Thr Trp
ttc aca Phe Thr
acc acc gea Thr Thr Ala
gcg gea Ala Ala 15
att tat Ile Tyr
act gcg Thr Ala
cag ggc Gln Gly
gcc ate Ala Ile 80 tat gga Tyr Gly 95
ata tac tet ctg aac gaa Ile Tyr Ser Leu Asn Glu 110
ctc tet tcg gcc ctt cat Leu Ser Ser Ala Leu His 125
gat gtg gtt gct aac cat atg ggc
gcg Ala
48
96
144
192
240
288
336
384
432 * Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly 130 135 140 tat gat gga gcg ggt age tca gtc gat tac agt gtg ttt aaa ccg ttc Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe 145 150 155 160 agt tcc caa gac tac ttc cac ccg ttc tgt ttc att caa aac tat gaa Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Phe Ile Gln Asn Tyr Glu 165 170 175 gat cag act cag gtt gag gat tgc tgg cta gga gat aac act gtc tcc Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser 180 185 190 ttg CCt gat CtC gat acc acc aag gat gtg gtc aag aat gaa tgg tac Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr 195 200 205 gac tgg gtg gga tca ttg gta tcg aac tac tcc att gac ggc ctc cgt Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg 210 215 220 ate gac aca gta aaa cac gtc cag aag gac ttc tgg ccc ggg tac aac Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn 225 230 235 240 aaa gcc gea ggc gtg tac tgt ate ggc gag gtg CtC gac ggt gat ccg Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro 245 250 255 gcc tac act tgt CCC tac cag aac gtc atg gac ggc gta ctg aac tat Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr 260 265 270 CCC att tac tat cea CtC CtC aac gcc ttc aag tca acc tcc ggc age Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser 275 280 285 atg gac gac CtC tac aac atg ate aac acc gtc aaa tcc gac tgt cca Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro 290 295 300 gac tca aca CtC ctg ggc aca ttc gtc gag aac cac gac aac cca cgg Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg 305 310 315 320 ttc gct tet tac acc aac gac ata gcc CtC gcc aag aac gtc gea gea Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala 325 330 335 ttc ate ate CtC aac gac gga ate CCC ate ate tac gcc ggc caa gaa Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu 340 345 350 cag cac tac gcc ggc gga aac gac CCC gcg aac cgc gaa gea acc tgg Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp 355 360 365 CtC tcg ggc tac ccg acc gac age gag ctg tac aag tta att gcc tcc Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser 370 375 380 gcg aac gea ate cgg aac tat gcc att age aaa gat aca gga ttc gtg Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val 385 390 395 400 acc tac aag aac tgg CCC ate tac aaa gac gac aca acg ate gcc atg Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met 405 410 415 cgc aag ggc aca gat ggg tcg cag ate gtg act ate ttg tcc aac aag Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys 420 425 430 ggt gct tcg ggt gat tcg tat acc etc tcc ttg agt ggt gcg ggt tac Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr 435 440 445 aca gcc ggc cag caa ttg acg gag gtc att ggc tgc acg acc gtg acg Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr
480
528
576
624
672
720
768
816
864
912
960
1008
1056
1104
1152
1200
1248
1296
1344
1392 450 455 460 gtt ggt tcg gat gga aat gtg CCt gtt CCt atg gea ggt ggg cta CCt Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro 465 470 475 480 agg gta ttg tat ccg act gag aag ttg gea ggt age aag ate tgt agt Arg Val Leu Tyr Pro 485 Thr Glu Lys Leu Ala 490 Gly Ser Lys Ile Cys 495 Ser
<210> 3
<211> 498
< 212 > PRT
<213> Aspergillus niger
<4 0 0 > 3
Met Val Ala Trp Trp Ser Leu Phe Leu Tyr Gly Leu Gln Val Ala Ala 15 10 15
Pro Ala Leu Ala Ala Thr Pro Ala Asp Trp Arg Ser Gln Ser Ile Tyr
20 25 30
Phe Leu Leu Thr Asp Arg Phe Ala Arg Thr Asp Gly Ser Thr Thr Ala
35 40 45
Thr Cys Asn Thr Ala Asp Gln Lys Tyr Cys Gly Gly Thr Trp Gln Gly 50 55 60
Ile Ile Asp Lys Leu Asp Tyr Ile Gln Gly Met Gly Phe Thr Ala Ile 65 70 75 80
Trp Ile Thr Pro Val Thr Ala Gln Leu Pro Gln Thr Thr Ala Tyr Gly 85 90 95
Asp Ala Tyr His Gly Tyr Trp Gln Gln Asp Ile Tyr Ser Leu Asn Glu
100 105 110
Asn Tyr Gly Thr Ala Asp Asp Leu Lys Ala Leu Ser Ser Ala Leu His
115 120 125
Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly 130 135 140
Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe 145 150 155 160
Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Phe Ile Gln Asn Tyr Glu 165 170 175
Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser
180 185 190
Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr
195 200 205
Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg 210 215 220
Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn 225 230 235 240
Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro 245 250 255
Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr
260 265 270
Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser
275 280 285
Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro 290 295 300
Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg 305 310 315 320
Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala 325 330 335
Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu
340 345 350
1440
1488
age tcg tga 1497
Ser Ser Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp 355 360 365 Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser 370 375 380 Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val 385 390 395 400 Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met 405 410 415 Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys 420 425 430 Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr 435 440 445 Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr 450 455 460 Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro 465 470 475 480 Arg Val Leu Tyr Pro Thr Glu Lys Leu Ala Gly Ser Lys Ile Cys Ser
485
490
495
Ser Ser
<210 > 4
<211> 3494
<212 > DNA
<213 > Artificial
<220>
<223> Nucleotide sequence with the Aspergillus niger alpha amylase Promoter with modified translational initiator sequence and the alpha amylase nucleotide coding sequence with modified translational terminator sequence
<22 0 > <221> < 22 2 > <22 3 >
Promoter (1)... (1988)
Alpha amylase promoter of Aspergillus niger
<220> <221> <222> <22 3 >
misc_feature (1979)... (1988)
Translational initiator sequence
<22 0 > <221> <222 > <223 >
<2 2 0 > <221> <222 > <223 >
Gene
(1989)... (3482)
Nucleotide coding sequence of Aspergillus niger alpha amylase
misc_feature (3483)... (3486)
Translational terminator sequence
<4 0 0 > 4
ctcgagggac
tgttcagcat
cctctcttat
ataaaaagtt
tctataggtt
cgttcgttta
atttttcgac
gctacagcca
aacgcatcgt cgatctgggc ctgtattccg tgagcttctt tccaatcaat cagatactct gcataacatt agtcctgttc
ttgatacact gtctcgttct tgaaagagga gccaatatga attagtgccg gactgtagta ttcagcatcc agtgtccttt
tcccgccaat gtaagcattc gggccactgt aacagatttc tcaaaacgtt tcatctgatc tgtgttatct gacacagttc
atggacgttg tccagaagcc 60 tcctagttac tgatgacttt 120 cctctatata gtttatggat 180 cccacattaa gagctgtttc 240 tgttcagatc agattgtcca 300 tcacacgttg gttgtgacgt 360 tcgcccagtg tgaactgggt 420 ggttgttcag agttaccttc 480 cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg 540
ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca 600
tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca 660
ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag 72 0
gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga 780
agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg 84 0 tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg 900 aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa 960
aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa 1020
ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat 1080
tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa 1140
aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt 1200
agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg 1260
taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa 1320
aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg 1380
gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca 1440
actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga 1500
ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc 1560
ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag 1620
aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct 1680
gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg 1740
gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa 1800
tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg 1860
tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga 1920
ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca 1980
ccgtcaaaat ggtcgcgtgg tggtctctat ttctgtacgg ccttcaggtc gcggcacctg 2040
ctttggctgc aacgcctgcg gactggcgat cgcaatccat ttatttcctt ctcacggatc 2100
gatttgcaag gacggatggg tcgacgactg cgacttgtaa tactgcggat cagaaatact 2160
gtggtggaac atggcagggc atcatcgaca agttggacta tatccaggga atgggcttca 2220
cagccatctg gatcaccccc gttacagccc agctgcccca gaccaccgca tatggagatg 2280
cctaccatgg ctactggcag caggatatat actctctgaa cgaaaactac ggcactgcag 2340
atgacttgaa ggcgctctct tcggcccttc atgagagggg gatgtatctt atggtcgatg 2400
tggttgctaa ccatatgggc tatgatggag cgggtagctc agtcgattac agtgtgttta 2460
aaccgttcag ttcccaagac tacttccacc cgttctgttt cattcaaaac tatgaagatc 2520
agactcaggt tgaggattgc tggctaggag ataacactgt ctccttgcct gatctcgata 2580
ccaccaagga tgtggtcaag aatgaatggt acgactgggt gggatcattg gtatcgaact 2640
actccattga cggcctccgt atcgacacag taaaacacgt ccagaaggac ttctggcccg 2700
ggtacaacaa agccgcaggc gtgtactgta tcggcgaggt gctcgacggt gatccggcct 2760
acacttgtcc ctaccagaac gtcatggacg gcgtactgaa ctatcccatt tactatccac 2820
tcctcaacgc cttcaagtca acctccggca gcatggacga cctctacaac atgatcaaca 2880
ccgtcaaatc cgactgtcca gactcaacac tcctgggcac attcgtcgag aaccacgaca 2940
acccacggtt cgcttcttac accaacgaca tagccctcgc caagaacgtc gcagcattca 3000
tcatcctcaa cgacggaatc cccatcatct acgccggcca agaacagcac tacgccggcg 3060
gaaacgaccc cgcgaaccgc gaagcaacct ggctctcggg ctacccgacc gacagcgagc 3120
tgtacaagtt aattgcctcc gcgaacgcaa tccggaacta tgccattagc aaagatacag 3180
gattcgtgac ctacaagaac tggcccatct acaaagacga cacaacgatc gccatgcgca 3240
agggcacaga tgggtcgcag atcgtgacta tcttgtccaa caagggtgct tcgggtgatt 3300 cgtataccct ctccttgagt ggtgcgggtt acacagccgg ccagcaattg acggaggtca 3360 ttggctgcac gaccgtgacg gttggttcgg atggaaatgt gcctgttcct atggcaggtg 3420
ggctacctag ggtattgtat ccgactgaga agttggcagg tagcaagatc tgtagtagct 3480
cgtaaattaa ttaa 3494
<210> 5 <211> 1498 <212 > DNA <213 > Artificial
<22 0 >
<223> Nucleotide coding sequence of alpha amylase of Aspergillus niger with optimized coding frequency <220>
<221> Gene
<222 > (1)... (14 94 )
<223> Nucleotide coding sequence of alpha amylase of Aspergillus with optimized coding frequency
<220>
<221> misc_feature
<222 > (14 95 )... (14 98)
<223> Translational terminator sequence
niger
<4 0 0 > 5
atggtcgcct
gcgacccccg
cgcaccgacg
acttggcagg
tggattactc
ggttactggc
aaggccttgt
aaccacatgg
tcctcccagg
gtcgaggact
gacgtcgtta
gacggcctcc
aaggccgccg
ccctaccaga
gctttcaagt
agcgattgcc
ttcgcctcct
aacgacggta
cccgctaacc
ctgatcgcta
acctacaaga
gacggttctc
ctctctctgt
accactgtca
cgcgtcctgt
ggtggtccct ccgattggcg gttccaccac gtatcatcga ctgttaccgc agcaggacat cttccgccct gttacgacgg attacttcca gctggctggg agaacgagtg gcatcgacac gtgtgtactg acgtcatgga ctacctccgg ctgactcgac acactaacga ttcctatcat gcgaagccac gcgccaacgc actggcctat agatcgttac ccggcgctgg ccgtgggttc accccaccga
gttcctctac tagccagtcg cgccacctgc caagctggat tcagctcccc ctactctctg ccacgagcgt tgcgggcagc ccccttctgc agacaacact gtacgattgg cgtcaagcac catcggcgaa tggtgtcctg ctccatggac cctgttgggc catcgccctt ctacgctggt ctggctgtcc gattcgtaac ctacaaggat cattttgtcc ctacactgcc ggacggcaac gaagctcgcc
ggacttcagg atttacttct aacactgcgg tacatccagg cagaccaccg aacgaaaact ggcatgtacc tctgtcgatt ttcatccaga gtttcgcttc gtgggtagct gtccagaagg gttctggacg aactacccca gacctctaca accttcgtgg gcgaagaacg caggagcagc ggttacccca tacgccatct gacaccacta aacaagggag ggtcagcagc gttcccgtcc ggttctaaga
tggctgcccc cgctctcgcc 60 tgcttactga ccgcttcgct 120 accagaagta ctgcggcggc 180 gtatgggatt caccgctatc 240 cctacggcga tgcctaccac 300 acggtaccgc tgacgatctc 360 tgatggtcga cgtcgtggct 420 actcggtttt caagcctttc 480 actacgagga ccagacccag 540 ccgatctcga cactaccaag 600 tggtctccaa ctacagcatt 660 atttctggcc tggatacaac 720 gtgaccctgc ttacacctgc 780 tctactaccc ccttctcaac 840 acatgattaa cactgttaag 900 agaaccacga taacccccgt 960 tcgctgcctt catcatcctc 1020 actacgccgg cggaaacgat 1080 ccgactctga gctctacaag 1140 ccaaggacac tggcttcgtc 1200 tcgctatgcg taagggtacc 1260 ccagcggtga ttcctacacc 1320 ttaccgaggt catcggatgc 1380 ccatggctgg tggcctccct 1440 tctgctccag ctcctaaa 1498
<210> 6
<211> 1498
<212 > DNA
<213 > Artificial
<22 0 >
<223> Nucleotide coding sequence of alpha amylase of Aspergillus niger with optimized coding sequence according the invention
<2 2 0 >
<221> Gene <222 > (1)... (14 94 )
<223> Nucleotide coding sequence of alpha amylase of Aspergillus niger with optimized coding sequence according the invention
<22 0 > <221> <22 2 > <223 >
<4 0 0 >
misc_feature (1495)... (1498)
Translational terminator sequence ttgctgctcc tgctcttgct 60 tgctgaccga ccgcttcgct 120 accagaagta ctgcggtggt 180 gcatgggttt cactgccatc 240 cctacggtga tgcctaccac 300 acggcactgc cgatgacctc 360 tgatggtgga tgttgttgcc 420 actctgtctt caagcccttc 480 actacgaaga ccagacccag 540 ccgatcttga caccaccaag 600 tggtctccaa ctactccatc 660 acttctggcc tggctacaac 720 gagatcctgc ctacacctgc 780 tctactaccc cttgctcaac 840 acatgatcaa caccgtcaag 900 agaaccacga caaccctcgt 960 tcgctgcttt catcatcctg 1020 actacgctgg tggcaacgac 1080 ccgacagcga attgtacaag 1140 ccaaggacac tggtttcgtc 1200 ttgccatgcg caagggtact 1260 cctccggtga ctcctacacc 1320 tgaccgaggt cattggctgc 1380 ccatggccgg tggtcttcct 1440 tctgctcgtc gtcgtaaa 1498
<210 > 7
<211> 3494
<212 > DNA
<213 > Artificial
<220>
<223> Nucleotide sequence with the Aspergillus niger alpha amylase
promoter with optimized codon frequency and modified translational
initiator sequence and the alpha amylase nucleotide coding sequence with modified translational terminator sequence
<220>
<221> Promoter
<222> (1)... (1988)
<223> Alpha amylase promoter of Aspergillus niger <220>
<221> misc_feature
<222> (1979)... (1988)
<223> Translational initiator sequence
<220> <221> Gene
< 222 > (1989)... (3482)
<223> Nucleotide coding sequence with optimized coding frequency of Aspergillus niger alpha amylase
<220>
<221> misc_feature <222 > (3483)... (3486)
<223> Translational terminator sequence <4 0 0 > 7
ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc 60 tgttcagcat cgatctgggc gtctcgttct cctctcttat ctgtattccg tgaaagagga ataaaaagtt tgagcttctt gccaatatga tctataggtt tccaatcaat attagtgccg cgttcgttta cagatactct gactgtagta atttttcgac gcataacatt ttcagcatcc gctacagcca agtcctgttc agtgtccttt cactcaatag tataatgaat acaaggcttt ggctcctgga agaaacccag atgattgggc tcaagtacat gttcaggtga tgggcaaaat ccaggggtgg gggcatacga tggagtttgt gcatcgtcat cgtagtaagg actaaacgtc agcctagtgt tgggatcatc atatgttagc tccgtgaggg aagaggtgca gctaacaaaa aactaagaca ggtacagtat tgtagcccta aggatcgaac cgtggctcag tacaaacaaa ggcacatgct ttgtcatgtt tgacgcgttt tactgataca aactcaatac actatttcta aatttccgga atattaatgt tacggttacc agggttcgaa atacgatcaa agagtattgg taaatcggct tctaggcgcg ctccatctaa aattacgcac tacccgaatc gatagaacta gtgttttgat cattttaaat ttttatatgg actcgcttac cgattacgtt agggctgata ccaaagtact aaaaccccgg agtcaacagc ccagcgtcca catcacgagc gaaggaccac , aagcagcaaa gcgaaacagc ccaagaaaaa
gatcacgggc agcgatccaa ccaacaccct gattaatttc cactcaacca caaatcacag *tttaaactct tctgcgaatc gcttggattc tcccttgtcg atgcgatgta tcacaacata ggatagcaac cgacaacatc acatcaagct ccgtcaaaat ggtcgcctgg tggtccctgt ctctcgccgc gacccccgcc gattggcgta gcttcgctcg caccgacggt tccaccaccg gcggcggcac ttggcagggt atcatcgaca ccgctatctg gattactcct gttaccgctc cctaccacgg ttactggcag caggacatct acgatctcaa ggccttgtct tccgccctcc tcgtggctaa ccacatgggt tacgacggtg agcctttctc ctcccaggat tacttccacc agacccaggt cgaggactgc tggctgggag ctaccaagga cgtcgttaag aacgagtggt acagcattga cggcctccgc atcgacaccg gatacaacaa ggccgccggt gtgtactgca acacctgccc ctaccagaac gtcatggatg ttctcaacgc tttcaagtct acctccggct ctgttaagag cgattgccct gactcgaccc acccccgttt cgcctcctac actaacgaca tcatcctcaa cgacggtatt cctatcatct gaaacgatcc cgctaaccgc gaagccacct tctacaagct gatcgctagc gccaacgcga gcttcgtcac ctacaagaac tggcctatct agggtaccga cggttctcag atcgttacca cctacaccct ctctctgtcc ggcgctggct tcggatgcac cactgtcacc gtgggttcgg gcctccctcg cgtcctgtac cccaccgaga cctaaattaa ttaa
<210 > 8
gtaagcattc tcctagttac tgatgacttt 120
gggccactgt cctctatata gtttatggat 180
aacagatttc cccacattaa gagctgtttc 240
tcaaaacgtt tgttcagatc agattgtcca 300
tcatctgatc tcacacgttg gttgtgacgt 360
tgtgttatct tcgcccagtg tgaactgggt 420
gacacagttc ggttgttcag agttaccttc 480
cctctatgtt gcctcgtagt cctttcttcg 540
tgggattgat gcaagggagt ataaggttca 600
acggatggcg tacgatctct accgaagtca 660
atccacggat caggtggctg aagctgagag 72 0
atcccctcaa ggcagtagat gccactgaga 780
ctacaccata tgggtgtccc agcaagagtg 840
ccagtaaaat gatcaggttc atggacaatg 900
cccgtcttgg ttaacctggt aaggtcaaaa 960
aggaatgtta acagtttgcg ggagatgcaa 102 0
gcagtgtaga agcttccagc taccgtagat 1080
taaccttact gttcaataca gtacgatcaa 1140
ttccatatgt agactagcgc acttggcatt 1200
ggggggtgac agcagtaatg actccaactg 1260
atgttctggc tgtggtgtac aggggcataa 1320
ctcattttta tatagaagtc agaattcatg 1380
cgggtggtgg gcaactcgct tgcgcgggca 1440
tttacgtaaa aatcgtcaag ggatgcaaga 1500
atccaagccc aagtccttca cggagaaacc 1560
ctctaggcat cggacgcacc atccaattag 1620
ggtcggcccg tcggcctttt ctgcaacgct 1680
ccagagtgac taggggcgga aatttatcgg 174 0
tcgtccccgg tattgtcctg cagaatgcaa 1800
cccgcccctg gccgtagagc ttaaagtatg 1860
taaatactag caagggatgc catgcttgga 1920
ctcccttctc tgaacaataa accccacaca 1980
tcctctacgg acttcaggtg gctgcccccg 2040
gccagtcgat ttacttcttg cttactgacc 2100
ccacctgcaa cactgcggac cagaagtact 2160
agctggatta catccagggt atgggattca 2220
agctccccca gaccaccgcc tacggcgatg 2280
actctctgaa cgaaaactac ggtaccgctg 2340
acgagcgtgg catgtacctg atggtcgacg 2400
cgggcagctc tgtcgattac tcggttttca 2460
ccttctgctt catccagaac tacgaggacc 2520
acaacactgt ttcgcttccc gatctcgaca 2580
acgattgggt gggtagcttg gtctccaact 2640
tcaagcacgt ccagaaggat ttctggcctg 2700
tcggcgaagt tctggacggt gaccctgctt 2760
gtgtcctgaa ctaccccatc tactaccccc 2820
ccatggacga cctctacaac atgattaaca 2880
tgttgggcac cttcgtggag aaccacgata 2940
tcgcccttgc gaagaacgtc gctgccttca 3000
acgctggtca ggagcagcac tacgccggcg 3 060
ggctgtccgg ttaccccacc gactctgagc 3120
ttcgtaacta cgccatctcc aaggacactg 3180
acaaggatga caccactatc gctatgcgta 3240
ttttgtccaa caagggagcc agcggtgatt 3300
acactgccgg tcagcagctt accgaggtca 3360
acggcaacgt tcccgtcccc atggctggtg 3420
agctcgccgg ttctaagatc tgctccagct 3480
3494 <211> <212 > <213 >
3494 DNA
Artificial
<220>
<223> Nucleotide sequence with the Aspergillus niger alpha amylase promoter with optimized coding sequence and
modified translational initiator sequence and the alpha amylase nucleotide coding sequence with modified translational terminator sequence
<220> <221> <222 >
Promoter (1)... (1988 )
<223> Alpha amylase promoter of Aspergillus niger
<220> <221> <222 > <223 >
misc_feature (1979)... (1988)
Translational initiator sequence
<220> <221> <222> <223 >
Gene
(1989)... (3482)
Nucleotide coding sequence with optimized coding sequence
Aspergillus niger alpha amylase
<220 >
<221> misc_feature
< 222 > (3483)... (3486)
<223> Translational terminator sequence
<400 > 8
ctcgagggac
tgttcagcat
cctctcttat
ataaaaagtt
tctataggtt
cgttcgttta
atttttcgac
gctacagcca
cactcaatag
ggctcctgga
tcaagtacat
ccaggggtgg
gcatcgtcat
agcctagtgt
tccgtgaggg
aactaagaca
aggatcgaac
ggcacatgct
tactgataca
aatttccgga
agggttcgaa
taaatcggct
aattacgcac
gtgttttgat
actcgcttac
ccaaagtact
ccagcgtcca
aagcagcaaa
aacgcatcgt cgatctgggc ctgtattccg tgagcttctt tccaatcaat cagatactct gcataacatt agtcctgttc tataatgaat agaaacccag gttcaggtga gggcatacga cgtagtaagg tgggatcatc aagaggtgca ggtacagtat cgtggctcag ttgtcatgtt aactcaatac atattaatgt atacgatcaa tctaggcgcg tacccgaatc cattttaaat cgattacgtt aaaaccccgg catcacgagc gcgaaacagc
ttgatacact gtctcgttct tgaaagagga gccaatatga attagtgccg gactgtagta ttcagcatcc agtgtccttt acaaggcttt atgattgggc tgggcaaaat tggagtttgt actaaacgtc atatgttagc gctaacaaaa tgtagcccta tacaaacaaa tgacgcgttt actatttcta tacggttacc agagtattgg ctccatctaa gatagaacta ttttatatgg agggctgata agtcaacagc gaaggaccac ccaagaaaaa
tcccgccaat gtaagcattc gggccactgt aacagatttc tcaaaacgtt tcatctgatc tgtgttatct gacacagttc cctctatgtt tgggattgat acggatggcg atccacggat atcccctcaa ctacaccata ccagtaaaat cccgtcttgg aggaatgtta gcagtgtaga taaccttact ttccatatgt ggggggtgac atgttctggc ctcattttta cgggtggtgg tttacgtaaa atccaagccc ctctaggcat ggtcggcccg
atggacgttg tcctagttac cctctatata cccacattaa tgttcagatc tcacacgttg tcgcccagtg ggttgttcag gcctcgtagt gcaagggagt tacgatctct caggtggctg ggcagtagat tgggtgtccc gatcaggttc ttaacctggt acagtttgcg agcttccagc gttcaataca agactagcgc agcagtaatg tgtggtgtac tatagaagtc gcaactcgct aatcgtcaag aagtccttca cggacgcacc tcggcctttt
tccagaagcc tgatgacttt gtttatggat gagctgtttc agattgtcca gttgtgacgt tgaactgggt agttaccttc cctttcttcg ataaggttca accgaagtca aagctgagag gccactgaga agcaagagtg atggacaatg aaggtcaaaa ggagatgcaa taccgtagat gtacgatcaa acttggcatt actccaactg aggggcataa agaattcatg tgcgcgggca ggatgcaaga cggagaaacc atccaattag ctgcaacgct
60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 1380 1440 1500 1560 1620 1680 gatcacgggc gattaatttc tttaaactct tcccttgtcg ggatagcaac ccgtcaaaat ctcttgctgc gcttcgctcg gcggtggtac ctgccatctg cctaccacgg atgacctcaa ttgttgccaa agcccttctc agacccaggt ccaccaagga actccatcga gctacaacaa acacctgccc tgctcaacgc ccgtcaagtc accctcgttt tcatcctgaa gcaacgaccc tgtacaagtt gtttcgtcac agggtactga cctacaccct ttggctgcac gtcttcctcg cgtaaattaa
agcgatccaa cactcaacca tctgcgaatc atgcgatgta cgacaacatc ggttgcctgg cactcctgcc taccgatgga ctggcagggt gatcaccccc atactggcag ggccctttct ccacatgggc ttcccaggac tgaggactgc tgttgtcaag tggtctccgc ggctgctggt ctaccagaac cttcaagtcc cgactgcccc cgccagctac cgacggtatc tgccaaccgt gattgcctct ctacaagaac tggcagccag ctccctctcc caccgtcacc tgtcctctac ttaa
ccaacaccct caaatcacag gcttggattc tcacaacata acatcaagct tggtccctct gactggcgct agcaccactg atcattgaca gtgactgctc caggatatct tctgctctgc tacgacggtg tacttccacc tggttgggtg aacgaatggt attgacaccg gtctactgca gtcatggatg acctccggca gacagcactc accaacgaca cccatcatct gaggccacct gccaacgcca tggcccatct atcgtcacca ggtgctggct gttggatcgg cccactgaga
ccagagtgac tcgtccccgg cccgcccctg taaatactag ctcccttctc tcctgtacgg cccagtccat ccacctgcaa agctcgacta agctccccca actctctgaa acgagcgtgg ctggcagctc ccttctgctt acaacaccgt acgactgggt tcaagcacgt ttggtgaggt gtgttctcaa gcatggatga tccttggtac ttgctcttgc acgctggcca ggctgtctgg tccgcaacta acaaggatga tcctgtccaa acactgctgg atggcaacgt agcttgctgg
taggggcgga tattgtcctg gccgtagagc caagggatgc tgaacaataa tctccaggtt ctacttcctg cactgcggac catccagggc gaccactgcc cgagaactac aatgtacctg tgttgactac catccagaac ctccctcccc gggatccctg ccagaaggac cctcgatgga ctaccccatc cctctacaac cttcgtcgag caagaacgtc ggagcagcac ctaccccacc cgccatctcc caccaccatt caagggtgcc ccagcagctg gcctgtgccc cagcaagatc
aatttatcgg cagaatgcaa ttaaagtatg catgcttgga accccacaca gctgctcctg ctgaccgacc cagaagtact atgggtttca tacggtgatg ggcactgccg atggtggatg tctgtcttca tacgaagacc gatcttgaca gtctccaact ttctggcctg gatcctgcct tactacccct atgatcaaca aaccacgaca gctgctttca tacgctggtg gacagcgaat aaggacactg gccatgcgca tccggtgact accgaggtca atggccggtg tgctcgtcgt
1740 1800 1860 1920 1980 2040 2100 2160 2220 2280 2340 2400 2460 2520 2580 2640 2700 2760 2820 2880 2940 3000 3060 3120 3180 3240 3300 3360 3420 3480 3494
<210 > <211 > <212 >
9
441 PRT
<213 > Bacillus stearothermophiIus <4 0 0 > : 9 Met Pro Tyr Phe Asp Asn Ile Ser Thr Ile Ala Tyr Glu Gly Pro Ala 1 5 10 15 Ser Lys Asn Pro Leu Ala Phe Lys Phe Tyr Asn Pro Glu Glu Lys Val 20 25 30 Gly Asp Lys Thr Met Glu Glu His Leu Arg Phe Ser Val Ala Tyr Trp 35 40 45 His Thr Phe Thr Gly Asp Gly Ser Asp Pro Phe Gly Ala Gly Asn Met 50 55 60 Ile Arg Pro Trp Asn Lys Tyr Ser Gly Met Asp Leu Ala Lys Ala Arg 65 70 75 80 Val Glu Ala Ala Phe Glu Phe Phe Glu Lys Leu Asn Ile Pro Phe Phe 85 90 95 Cys Phe His Asp Val Asp Ile Ala Pro Glu Gly Glu Thr Leu Lys Glu 100 105 110 Thr Tyr Lys Asn Leu Asp Ile Ile Val Asp Met Ile Glu Glu Tyr Met 115 120 125 Lys Thr Ser Lys Thr Lys Leu Leu Trp Asn Thr Ala Asn Leu Phe Thr 130 135 140 His Pro Arg Phe Val His Gly Ala Ala Thr Ser Cys Asn Ala Asp Val 145 150 155 160 Phe Ala Tyr Ala Ala Ala Lys Val Lys Lys Gly Leu Glu Ile Ala Lys 165 170 175 Arg Leu Gly Ala Glu Asn Tyr Val Phe Trp Gly Gly Arg Glu Gly Tyr
180 185 190
Glu Thr Leu Leu Asn Thr Asp Met Lys Leu Glu Leu Asp Asn Leu Ala 195 200 205
Arg Phe Leu His Met Ala Val Asp Tyr Ala Lys Glu Ile Gly Phe Asp 210 215 220
Gly Gln Phe Leu Ile Glu Pro Lys Pro Lys Glu Pro Thr Lys His Gln 225 230 235 240
Tyr Asp Phe Asp Val Ala Thr Ala Leu Ala Phe Leu Gln Thr Tyr Gly 245 250 255
Leu Lys Asp Tyr Phe Lys Phe Asn Ile Glu Ala Asn His Ala Thr Leu
260 265 270
Ala Gly His Thr Phe Glu His Glu Leu Arg Val Ala Arg Ile His Gly 275 280 285
Met Leu Gly Ser Val Asp Ala Asn Gln Gly Asp Met Leu Leu Gly Trp 290 295 300
Asp Thr Asp Glu Phe Pro Thr Asp Leu Tyr Ser Thr Thr Leu Ala Met 305 310 315 320
Tyr Glu Ile Leu Lys Asn Gly Gly Leu Gly Arg Gly Gly Leu Asn Phe 325 330 335
Asp Ala Lys Val Arg Arg Gly Ser Phe Glu Pro Glu Asp Leu Phe Tyr
340 345 350
Ala His Ile Ala Gly Met Asp Ser Phe Ala Val Gly Leu Lys Val Ala 355 360 365
His Arg Leu Ile Glu Asp Arg Val Phe Asp Glu Phe Ile Glu Glu Arg 370 375 380
Tyr Lys Ser Tyr Thr Glu Gly Ile Gly Arg Glu Ile Val Glu Gly Thr 385 390 395 400
Val Asp Phe His Lys Leu Glu Ala His Ala Leu Gln Leu Gly Glu Ile 405 410 415
Gln Asn Gln Ser Gly Arg Gln Glu Arg Leu Lys Thr Leu Leu Asn Gln
420 425 430
Tyr Leu Leu Glu Val Cys Ala Ala Arg 435 440
<210> 10 <211> 388 <212 > PRT
<213 > Streptomyces olivochromogene S <4 0 0 > 10 Met Ser Tyr Gln Pro Thr Pro Glu Asp Arg Phe Thr Phe Gly Leu Trp 1 5 10 15 Thr Val Gly Trp Gln Gly Arg Asp Pro Phe Gly Asp Ala Thr Arg Pro 20 25 30 Ala Leu Asp Pro Val Glu Thr Val Gln Arg Leu Ala Glu Leu Gly Ala 35 40 45 His Gly Val Thr Phe His Asp Asp Asp Leu Ile Pro Phe Gly Ser Ser 50 55 60 Asp Thr Glu Arg Glu Ser His Ile Lys Arg Phe Arg Gln Ala Leu Asp 65 70 75 80 Ala Thr Gly Met Thr Val Pro Met Ala Thr Thr Asn Leu Phe Thr His 85 90 95 Pro Val Phe Lys Asp Gly Gly Phe Thr Ala Asn Asp Arg Asp Val Arg 100 105 110 Arg Tyr Ala Leu Arg Lys Thr Ile Arg Asn Ile Asp Leu Ala Val Glu 115 120 125 Leu Gly Ala Lys Thr Tyr Val Ala Trp Gly Gly Arg Glu Gly Ala Glu 130 135 140 Ser Gly Ala Ala Lys Asp Val Arg Val Ala Leu Asp Arg Met Lys Glu 145 150 155 160 Ala Phe Asp Leu Leu Gly Glu Tyr Val Thr Ser Gln Gly Tyr Asp Thr 165 170 175 Arg Phe Ala Ile Glu Pro Lys Pro Asn Glu Pro Arg Gly Asp Ile Leu 180 185 190 Leu Pro Thr Val Gly His Ala Leu Ala Phe Ile Glu Arg Leu Glu Arg 195 200 205 Pro Glu Leu Tyr Gly Val Asn Pro Glu Val Gly His Glu Gln Met Ala 210 215 220 Gly Leu Asn Phe Pro His Gly Ile Ala Gln Ala Leu Trp Ala Gly Lys 225 230 235 240 Leu Phe His Ile Asp Leu Asn Gly Gln Ser Gly Ile Lys Tyr Asp Gln 245 250 255 Asp Leu Arg Phe Gly Ala Gly Asp Leu Arg Ala Ala Phe Trp Leu Val 260 265 270 Asp Leu Leu Glu Ser Ala Gly Tyr Glu Gly Pro Arg His Phe Asp Phe 275 280 285 Lys Pro Pro Arg Thr Glu Asp Ile Asp Gly Val Trp Ala Ser Ala Ala 290 295 300 Gly Cys Met Arg Asn Tyr Leu Ile Leu Lys Glu Arg Ala Ala Ala Phe 305 310 315 320 Arg Ala Asp Pro Glu Val Gln Glu Ala Leu Arg Ala Ser Arg Leu Asp 325 330 335 Glu Leu Ala Gln Pro Thr Ala Ala Asp Gly Val Gln Glu Leu Leu Ala 340 345 350 Asp Arg Thr Ala Phe Glu Asp Phe Asp Val Asp Ala Ala Ala Ala Arg 355 360 365 Gly Met Ala Phe Glu Arg Leu Asp Gln Leu Ala Met Asp His Leu Leu
Gly 385
370
Ala Arg Gly
375
380
<210> 11
<211> 1398
<212> DNA
<213> Thermoanaerobacter mathranii
<4 0 0 > 11
atgcaaacca
gatatgttac
cttcaagatg
catattgtga
tatggacctg
gcgaacattc
aatcaaggtg
tgtcctatta
gctaaagctg
atgcatggaa
caaattaatc
gagattaatg
gaagaaagcc
aaaggatatg
caaattccaa
ggtgatgctg
tttactgaga
gaaggtaact
ggcattggaa
actcttgttt
gaaattctgg
tcaacaggtg
agaaaaagcc caggcattac ttgccgattt aagaatttaa ctacaaatat aacctgttcc ttcacggtgc ttacagaaga tgcagacaat tgtatgatat aagaatacat cggttattga atagatatgc acggatttac tgatggctgc taactgcaag tgtacgctat ggaaaatagc aacttgataa ctttagtatc atacagaaga tgaaggcatg
gcaaatagga tgaaagacaa tcattttcct tgaaaaagac tgttaatgca gacagtaaca ccaagataca atggcattca taaagcattg tttgggagat tggcgaagtt agagaataga tgcaagatta tgcgcatttc gtcaaattta tttggttgcg ggattttaag aagaaaggat tccgccgaca cttagaagga agcaaagtat tcttgatgga
tttttaggca gaaaaatatg aaagcagcaa cttgatggta ctaaggaata gaggattggg gcaaatgcca gaagaattta cgaaacatga gatgcagcct tatagatata aagaattttt caaattggat gatgtgttta atggctgaag gcaggtcatg agaaattcaa agaccgatta attgtgttta gaaagatata attgaaatgc tggcttacaa
ttatgcaaga caagagaagt agaatagaca ttatgatagt ataaactacc atatgggaga ttttaaggat aaaaatttgt aaatagcgca ttacaagaaa tggaaactgc atatcgatcc ttaaaaaatt aaggagatgg gatatggata tattgatagg ttttaatgag aacttattga tggcacaacc ggttagttgt catatttcca atggaggaac
gttgtacgat tatagaacaa ggacattgaa aatgcttacg tattatgctt tttgacatac gggaattaag tggagattgg gtttggaaga aataggtccg gacagaagag aaatcttagc tcttattaat aagattcaag tgcagcagag agatgcacat ccatatgggc tagagaactg tgggccagca gtcaaaagga ctttagacct acatcatgaa
60 120 180 240 300 360 420 480 540 600 660 720 780 840 900 960 1020 1080 1140 1200 1260 1320 tgtttaaatc taggtgataa cacacggaga tggaaaatat tatgtaacct cttggacatt 13 8 0 gaatatgtag aagtatag 1398
<210> 12
<211> 465
<212 > PRT
<213> Thermoanaerobacter mathranii
<400> Met Gln 1
Glu Leu
Tyr Ala
Phe Pro
50 Glu Phe 65
Tyr Gly
Pro Ile
Trp Asp
Asp Thr 130 Thr Glu 145
Ala Lys
Gln Phe
Ala Phe
Glu Val 210 Val Ile 225
Glu Glu
Phe Leu
Phe Lys
Asn Leu 290 Thr Ala 305
Phe Thr
Ser His
Ile Lys
Pro Thr 370 Leu Val 385
Glu Ile
Thr Lys
Tyr Asp 20 Arg Glu 35
Lys Ala
Asn Glu
Pro Ala
Met Leu 100 Met Gly 115
Ala Asn
Glu Trp
Ala Val
Gly Arg 180 Thr Arg 195
Tyr Arg
Glu Glu
Ser His
Ile Asn 260 Gly Asp 275
Met Ala
Ser Leu
Glu Met
Met Gly 340 Leu Ile 355
Ile Val Ser Leu Leu Asp
Lys Lys 5
Asp Met
Val Ile
Ala Lys
Lys Asp 70
Thr Asn 85
Ala Asn
Asp Leu
Ala Ile
His Ser 150 Gln Thr 165
Met His
Lys Ile
Tyr Met
Asn Arg 230 Arg Tyr 245
Lys Gly
Gly Arg
Glu Gly
Val Ala 310 Tyr Ala 325
Glu Gly
Asp Arg
Phe Met
Glu Gly 390 Thr Glu
Pro Gln
Leu Pro
Glu Gln
40 Asn Arg 55
Leu Asp
Ile Val
Ile Gln
Thr Tyr 120 Leu Arg 135
Glu Glu
Ile Lys
Gly Met
Gly Pro 200 Glu Thr 215
Lys Asn
Ala Ala
Tyr Asp
Phe Lys 280 Tyr Gly 295
Ala Gly
Met Asp
Asn Trp
Glu Leu 360 Ala Gln 375
Glu Arg Glu Ala
Ile Gly 10
Gly Ile 25
Leu Gln
Gln Asp
Gly Ile
Asn Ala
90 Pro Val 105
Asn Gln
Met Gly
Phe Lys
Ala Leu 170 Tyr Asp 185
Gln Ile
Ala Thr
Phe Tyr
Arg Leu 250 Gly Phe 265
Gln Ile
Tyr Ala
His Val
Phe Lys 330 Lys Ile 345
Gly Ile Pro Gly Tyr Arg Lys Tyr
Phe Leu
Thr Glu
Asp Val
Ile Glu 60
Met Ile 75
Leu Arg
Pro Thr
Gly Val
Ile Lys 140 Lys Phe 155
Arg Asn
Ile Leu
Asn Gln
Glu Glu 220 Ile Asp 235
Gln Ile
Thr Ala
Pro Met
Ala Glu 300 Leu Ile 315
Arg Asn
Ala Arg
Gly Lys
Pro Ala 380 Leu Val 395
Ile Glu
Gly Ile
Arg Gln 30
Ala Asp 45
His Ile
Val Met
Asn Asn
Val Thr 110 His Gly 125
Cys Pro
Val Gly
Met Lys
Gly Asp 190 Glu Tyr 205
Glu Ile
Pro Asn
Gly Phe
His Phe 270 Met Ala 285
Gly Asp
Gly Asp
Ser Ile
Lys Asp 350 Leu Asp 365
Thr Leu Val Ser Met Pro
Met Gln 15
Glu Lys
Phe His
Val Lys
Leu Thr 80
Lys Leu 95
Glu Asp
Ala Gln
Ile Ile
Asp Trp 160 Ile Ala 175
Asp Ala
Ile Gly
Asn Ala
Leu Ser 240 Lys Lys 255
Asp Val
Ala Ser
Ala Val
Ala His 320 Leu Met 335
Arg Pro
Asn Pro
Val Ser
Lys Gly 400 Tyr Phe 405 410 415
His Phe Arg Pro Ser Thr Gly Val Lys Ala Cys Leu Asp Gly Trp Leu
420 425 430
Thr Asn Gly Gly Thr His His Glu Cys Leu Asn Leu Gly Asp Asn Thr
435 440 445
Arg Arg Trp Lys Ile Leu Cys Asn Leu Leu Asp Ile Glu Tyr Val Glu 450 455 460
Val .465
<210> 13 <211> 1329 <212 > DNA < 213 > Artificial
<220> <223> Nucleotide coding sequence with optimized codon frequency
<4 00 > 13
atgccatact tcgacaacat cagcacgatc gcttatgaag gcccggcttc taaaaacccg 60 cttgcattca aattctacaa ccctgaagaa aaagtgggag acaaaacaat ggaagaacac 120 cttcgtttct ctgttgctta ctggcacacg ttcactggtg acggttctga tccattcggt 180 gctggaaaca tgatccgtcc ttggaacaaa tacagcggca tggatttggc aaaagcacgc 240 gttgaagctg cttttgaatt ctttgaaaaa ctgaacatcc cattcttctg cttccacgat 300 gtggatatcg ctcctgaagg agaaacgctg aaagaaactt acaaaaacct tgatatcatc 360 gttgatatga tcgaagaata catgaaaaca agcaaaacaa aacttttgtg gaacactgca 420 aacctgttca ctcacccacg tttcgttcag ggtgctgcaa cttcttgtaa cgctgatgtg 480 tttgcttacg cagctgcaaa agtaaaaaaa ggtcttgaaa tcgcaaaacg tcttggtgct 540 gaaaactacg tattctgggg cggacgtgaa ggcyaygaaa cayygcygaa cactgatatg 600 aaacttgaac ttgataacct tgctcgtttc cttcacatgg ctgttgatta cgcaaaagaa 660 atcggcttcg acggacaatt cctgatcgaa ccaaaaccaa aagaaccgac aaaacaccaa 720 tacgatttcg acgttgcaac tgctcttgca ttccttcaaa cgyacggatt gaaagactac 780 ttcaaattca acatcgaagc aaaccacgca actattgctg gacacacgtt tgaacatgag 840 cttcgtgtgg ctcgtattca cggcatgctt ggttctgttg atgcaaacca aggtgacatg 900 ctgcttggct gggacactga tgaattccca actgatcttt attcaactac tcttgcaatg 960 tacgaaattt taaaaaacgg cggacttgga cgcggcggat taaacttcga tgcaaaagtg 1020 cgccgcggaa gctttgaacc tgaagatttg ttctacgctc acatcgctgg tatggacagc 1080 ttcgctgtag gtttgaaagt ggctcaccgc ctgatcgaag accgtgtatt cgatgaattc 1140 atcgaagaac gttacaaatc atacactgaa ggcatcggcc gtgaaatcgt tgaaggcact 1200 gttgatttcc acaaacttga agctcacgct cttcaattag gtgaaatcca aaaccaaagc 1260 ggacgtcaag aacgcctgaa aacgctttta aaccaatacc ttcttgaagt atgtgctgcg 1320 cgctaataa 1329
<210> 14 <211> 1170 <212> DNA <213> Artificial
<220> <223> Nucleotide coding sequence with optimized codon frequency
<400> 14
atgagctacc aaccaactcc agaagaccgt ttcacattcg gtttgtggac ggtaggctgg 60 caaggccgtg atccattcgg agatgcaact cgtcctgctc ttgatcctgt tgaaactgtt 120 caacgtcttg ctgaacttgg tgctcacggc gtaacgttcc acgatgatga tctgatccca 180 ttcggaagct ctgacactga acgtgaaagc cacatcaaac gtttccgtca agctcttgat 240 gcaactggta tgactgttcc aatggcaaca acaaacctgt tcactcaccc tgtattcaaa 300 gacggcggat tcactgcaaa cgaccgtgac gttcgtgctt acgctcttcg caaaacgatc 360 cgcaacatcg atcttgctgt tgaacttggt gcaaaaacgt acgtggcttg gggcggacgt 420 gaaggcgctg aaagcggagc tgcaaaagat gtgcgtgtgg ctcttgaccg catgaaagaa 480 gcattcgatt tgcttggtga atacgtgact tctcaaggct acgatactcg tttcgcaatc 540 gaaccaaaac caaacgaacc acgcggagat attttgctgc caactgtagg acacgctctt 600 gcattcatcg aacgtcttga acgtcctgaa ctttacggtg taaaccctga agtgggacac 660 gaacaaatgg caggcctgaa cttcccacac ggtatcgctc aagctttgtg ggcaggaaaa 720 ctgttccaca ttgatctaaa cggacaaagc ggaatcaaat acgatcaaga tcttcgtttc 780 ggtgctggtg accttcgtgc tgctttctgg cttgttgatt tgcttgaatc tgctggttat 840 gaaggcccgc gtcacttcga cttcaaaccg ccgcgtactg aagatattga cggtgtttgg 900 gcttctgctg caggctgtat gagaaactat ttgattttaa aagaacgtgc tgctgctttc 960 cgtgctgatc ctgaagtgca agaagcactt cgtgcaagcc gtcttgatga actggctcaa 1020 ccaactgctg ctgacggcgt tcaagaactg cttgctgacc gtactgcttt tgaagatttc 1080 gacgttgatg ctgctgctgc acgcggtatg gcttttgaac gtcttgatca gcttgcaatg 1140 gaccaccttc ttggcgctcg tggataataa 1170
<210> 15 <211> 1401 <212> DNA <213> Artificial
<220> <223> Nucleotide coding sequence with optimized codon frequency
<400> 15 atgcaaacga aaaaaaaacc gcaaatcggc ttccttggca tcatgcaaga actttacgat 60 gatatgcttc ctggaattac agaacgtcaa gaaaaatacg ctcgtgaagt gatcgaacaa 120 ttgcaagatg tggctgatlt ccacttccca aaagcagcaa aaaaccgtca agatattgaa 180 catatcgtaa aagaattcaa cgaaaaagat cttgacggca tcatgatcgt gatgctgact 240 tacggaccgg caacaaacat cgtaaacgct cttcgcaaca acaaacttcc aatcatgctt 300 gcaaacatcc aaccagtgcc gactgttact gaagactggg atatgggaga tttgacttac 360 aaccaaggtg ttcacggcgc tcaagacact geaaaegcaa tccttcgcat gggtatcaaa 420 tgtccgatca tcactgaaga atggcacagc gaagaattca aaaaattcgt tggtgactgg 480 gcaaaagctg ttcaaacgat caaagcactt cgcaacatga aaatcgctca attcggacgc 540 atgcacggta tgtacgatat cctxggagat gacgctgctt tcactcgtaa aatcggtcct 600 caaatcaacc aagaatacat cggtgaagtg taccgttaca tggaaacggc aactgaagaa 660 gaaatcaacg ctgttatcga agaaaaccgt aaaaacttct acatcgatcc aaacctttct 720 gaagaaagcc accgttacgc tgctcgtctt caaatcggct ccaaaaaatt cctgatcaac 780 aaaggctatg acggcttcac tgctcacttc gatgtattca aaggtgacgg ccgtttcaaa 840 caaatcccaa tgatggctgc ttctaacctg atggctgaag gctacggata cgctgctgaa 900 ggagatgctg taactgcttc tcttgttgct gctggacacg tgctgatcgg agatgctcac 960 ttcactgaaa tgtacgcaat ggatttcaaa cgcaacagca ttttaatgtc tcacatgggt 1020 gaaggaaact ggaaaatcgc tcgtaaagac cgtccaatca aactgattga ccgtgaactt 1080 ggcatcggaa aacttgataa cccgccgaca atcgtattca tggctcaacc aggtcctget 1140 acgcttgttt ctcttgtttc tcttgaaggt gaacgttacc gtcttgttgt ttctaaaggt 1200 gaaatccttg atacagaaga agcaaaatac atcgaaatgc cttacttcca cttccgtcca 1260 agcactggtg tgaaagcatg ccttgacggc tggctgacga acggcggaac tcaccacgaa 1320 tgcctgaacc ttggagacaa cactcgccgc tggaaaatcc tttgcaacct tcttgatatt 1380 gaatacgttg aagtctaata a 1401
<210> 16 <211> 1329 <212> DNA <213> Artificial
<220> <223> Nucleotide coding sequence with optimized codon frequency
<400> 16 atgccgtatt ttgataacat ttcaacaatc gcatacgaag gccctgcttc taaaaatcca 60 ttagcattca aattttataa cccggaagaa aaagtUggag ataaaactat ggaagaacat 120 cttcgtttca gcgtggctta ctggcacacg tttacaggtg atggctcaga tcctttcgga 180
gcaggtaata tgattcgccc gtggaacaaa tattctggca tggatttggc taaagcaaga 24 0
gtagaagctg catttgaatt ctttgaaaaa ctgaatatcc cattcttttg tttccatgat 300
gttgatattg ctcctgaagg agaaacttta aaagaaacgt ataaaaacct tgatattatc 360
gtggatatga ttgaagaata catgaaaaca agcaaaacta aattgctgtg gaatacagca 420
aacttattta cgcatccgcg tttcgtacac ggtgctgcaa catcatgcaa tgctgatgtt 480
tttgcttatg ctgcagctaa agttaaaaaa ggccttgaaa tcgcaaaacg cttaggagct 540
gaaaactacg tgttctgggg tggcagagaa ggatatgaaa ctcttttgaa cacagatatg 600
aaactggaat tagataatct tgcacgtttt ttgcacatgg ctgtagatta tgcaaaagaa 660
attggtttcg atggccaatt tctgattgaa cctaaaccga aagaaccaac taaacatcaa 720
tacgatttcg atgttgctac ggcattagct tttcttcaaa catacggatt aaaagattac 780
ttcaaattta acatcgaagc aaatcatgct actcttgcag gtcacacatt cgaacatgaa 840
ttgcgcgtgg ctagaattca tggcatgctg ggatctgttg atgcaaacca aggtgatatg 900
ttacttggct gggatacgga tgaatttcct acagatttat atagcactac acttgctatg 960
tatgaaatct tgaaaaatgg aggtctgggc cgtggaggtt taaacttcga tgcaaaagta 1020
cgccgtggct catttgaacc ggaagatctt ttctacgctc atattgcagg aatggattct 1080
tttgctgttg gtttgaaagt ggcacacaga ctgattgaag atcgcgtttt cgatgaattt 1140
atcgaagaac gttataaaag ctacacggaa ggcattggaa gagaaatcgt agaaggtact 1200
gtggatttcc ataaattaga agctcatgca cttcaattag gcgaaattca aaatcaatca 1260
ggacgccaag aacgtcttaa aacattgctg aaccaatatt tacttgaagt ttgtgctgca 1320
cgctaataa 1329
<210> 17
<211> 1170
<212 > DNA
<213 > Artificial
<220 >
<223> Nucleotide coding sequence with optimized codon frequency
<400> 17
atgtcatatc aaccgactcc ggaagataga tttacttttg gcttatggac agttggctgg 60
caaggtagag atccgtttgg agatgctaca cgtccggcac tggacccggt agaaacagta 120
caacgtctgg cagaactggg agcacatggc gttacttttc atgacgatga cttaattcca 180
tttggtagca gcgacactga aagagaatca catattaaaa gatttagaca agcattagac 240
gctacaggta tgacagtgcc tatggctaca acaaatttgt ttacgcatcc tgtttttaaa 300
gatggaggat ttacagctaa cgatagagat gttcgtagat atgcattaag aaaaacgatc 360
cgtaacatcg acttggcagt ggaactgggc gctaaaactt atgtagcatg gggaggcaga 42 0
gaaggcgctg aatctggugc ugctaaagac gtgagagttg ctttagatag aatgaaagaa 480
gctttcgatc tgctgggaga atacgttact tctcaaggtt atgatacacg cttcgcaatt 540
gaacctaaac ctaatgaacc tcgcggtgat atcttattac ctacggtagg tcatgcatta 600
gctttcattg aacgtttgga aagaccagaa ttgtatggtg ttaatcctga agtgggacat 660
gaacaaatgg caggccttaa ctttcctcat ggaatcgctc aagctctttg ggctggaaaa 720
ctttttcata tcgatcttaa tggccaaagc ggcattaaat atgaccaaga tttgagattt 780
ggcgctggtg acttacgtgc tgcattttgg ttggttgact tgttggaatc tgcaggctac 840
gaaggcccgc gtcactttga ctttaaacct ccgagaacgg aagatattga tggagtgtgg 900
gctagcgctg ctggatgtat gcgcaattat cttattctta aagaacgcgc agcagcattt 960
agagcagatc ctgaagttca agaagcttta cgcgcttcac gtttggatga attggctcaa 1020
cctacagctg cagacggagt gcaagaattg ttggctgatc gcacggcttt cgaagatttc 1080
gatgttgatg cagcagctgc tagaggtatg gctttcgaaa gattggacca attggctatg 1140
gatcatctgc tgggagctcg tggttaataa 1170
<210> 18
<211> 1170
<212> DNA
<213> Artificial
<220>
<223> Nucleotide coding sequence with optimized codon frequency <400> 18
atgtcttatc aacctactcc ggaagataga ttcacttttg gtctgtggac agtgggttgg 60
caaggtagag atcccttcgg cgatgcaacg cgcccggcat tagatcccgt agaaacagtg 120
caaagattag cagaattggg cgcacatgga gttacattcc acgacgacga ccttatcccg 18 0
tttggtagct cagatacaga acgcgaatca catattaaaa gattcagaca agcattggac 240
gcaacgggaa tgacagtacc tatggcaacg actaaccttt ttacgcaccc cgtttttaaa 300
gatggtggat ttacagctaa tgatagagat gttcgtagat atgctcttag gaaaactatt 360
agaaatatcg atctggcagt ggaattggga gctaaaacat acgtagcatg gggtggtcgc 420
gaaggagcag aatctggagc agctaaagat gttagagtag cactggatag aatgaaagaa 480
gctttcgatt tattgggcga atatgttact agtcaaggtt acgacacaag atttgctatc 540
gaacccaaac ctaatgaacc tcgtggcgat attctgttgc caacggtggg tcatgcatta 600
gctttcatag aaagattaga aagacctgaa ttatatggag ttaatcctga agttggtcat 660
gaacaaatgg ctggcttgaa ctttccacat ggaatagctc aagcactgtg ggctggcaaa 720
ctttttcaca tagaccttaa tggccaatca ggaattaaat acgaccaaga cttacgcttt 780
ggagctggcg acttgagagc tgcattttgg ttggtggact tattggaaag cgctggctac 840
gaaggcccta gacattttga ttttaaacca ccgcgtaccg aagatattga tggagtttgg 900
gctagcgcag ctggttgcat gaggaactac ttaatactta aagaaagagc tgcagcattc 960
agagccgacc cggaagtaca agaagccctt agagcatcac gattggacga attagctcaa 1020
ccgaccgcag cagatggagt gcaagaatta ttagctgatc gcacagcatt tgaagatttc 1080
gatgttgacg cagcagcagc tagaggcatg gccttcgaac gtctggatca actggcaatg 1140
gatcatctgt tgggcgcacg gggataataa 1170

Claims (23)

1. Método de otimização de uma seqüência de nucleotídeos codificadora que codifica uma seqüência de aminoácidos predeterminada, onde a seqüência codificadora é otimizada para expressão em uma célula hospedeira predeterminada, o método caracterizado pelo fato de que compreende: (a) a geração de pelo menos uma seqüência codificadora original que codifica a seqüência de aminoácidos predeterminada; (b) a geração de pelo menos uma seqüência codificadora recém gerada dessa (pelo menos uma) seqüência codificadora original por substituição nessa (pelo menos uma) seqüência codificadora original de um ou mais códons por um códon sinônimo; (c) a determinação de um valor de aptidão da referida (pelo menos uma) seqüência codificadora original e um valor de aptidão da referida (pelo menos uma) seqüência codificadora recém gerada, ao mesmo tempo em que utiliza uma função de aptidão que determina pelo menos uma entre a aptidão de códon único e a aptidão de par de códons para a célula hospedeira predeterminada; (d) a escolha de uma ou mais seqüências codificadoras selecionadas entre a referida (pelo menos uma) seqüência codificadora original e a referida (pelo menos uma) seqüência codificadora recém gerada de acordo com um critério de seleção predeterminado, de tal forma que, quanto maior o referido valor de aptidão, maior a probabilidade de ser escolhida; (e) a repetição das ações (b) a (d) , tratando as referida uma ou mais seqüências codificadoras selecionadas como uma ou mais seqüências codificadoras originais nas ações (b) a (d) até que um critério predeterminado de parada de repetição seja alcançado.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o referido critério de seleção predeterminado é tal que as referidas uma ou mais seqüências codificadoras selecionadas tenham o melhor valor de aptidão de acordo com um critério predeterminado.
3. Método, de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado pelo fato de que o referido método compreende, após a ação (e): (f) a seleção da melhor seqüência codificadora individual entre as referidas uma ou mais seqüências codificadoras selecionadas, em que a referida melhor seqüência codificadora individual possui um valor de aptidão melhor do que outras seqüências codificadoras selecionadas.
4. Método, de acordo com qualquer uma das reivindicações 1, 2 ou 3, caracterizado pelo fato de que o referido critério predeterminado de parada de repetição é pelo menos um de: (a) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui o melhor valor de aptidão acima de um valor limiar predeterminado; (b) testar se nenhuma das referidas seqüências codificadoras selecionadas possui o melhor valor de aptidão abaixo do referido valor limiar predeterminado; (c) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui pelo menos 30% dos pares de cõdons cora pesos positivos associados do par de códons para a célula hospedeira predeterminada na referida seqüência codificadora original que está sendo transformada em pares de códons com pesos negativos associados; e, (d) testar se pelo menos uma das referidas seqüências codificadoras selecionadas possui pelo menos 3 0% dos pares de códons com pesos positivos associados acima de 0 para a célula hospedeira predeterminada na referida seqüência codificadora original que está sendo transformada em pares de códons com pesos abaixo de 0 associados.
5. Método, de acordo com qualquer uma das reivindicações 1, 2, 3 ou 4, caracterizado pelo fato de que a referida função de aptidão define a aptidão de códon único por meio de: <formula>formula see original document page 416</formula> em que g simboliza uma seqüência codificadora, |g| seu comprimento, g{k) seu códon k-th, <formula>formula see original document page 416</formula> é uma proporção desejada de códon c (k), e rf (c(k)) uma proporção real na seqüência de nucleotídeos codificadora g.
6. Método, de acordo com qualquer uma das reivindicações 1, 2, 3 ou 4, caracterizado pelo fato de que a referida função de aptidão define a aptidão de par de códons por meio de: <formula>formula see original document page 416</formula> em que w{{c{k)), c{k +1)) é um peso de um par de códons em uma seqüência codificadora g, |g| é o comprimento da referida seqüência de nucleotídeos codificadora, e c{k) é o códon k-th na referida seqüência codificadora.
7. Método, de acordo com qualquer uma das reivindicações 1, 2, 3 ou 4, caracterizado pelo fato de que a referida função de aptidão é definida por meio de: <formula>formula see original document page 417</formula> cpi é um valor real maior do que zero, fitcpig) é a função de aptidão do par de códons, fitsc(q) é uma função de aptidão de códon único, w((c(k), c(k +1)) é um peso de um par de códons em uma seqüência codificadora g, |g| é o comprimento da referida seqüência codificadora, c (k) é o códon k-th na referida seqüência de códons, <formula>formula see original document page 417</formula> e uma proporção desejada de códon c (k) , e uma proporção real na seqüência codificadora g.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que cpi é entre 10-4 e 0,5.
9. Método, de acordo com qualquer uma das reivindicações 6, 7 ou 8, caracterizado pelo fato de que os referidos pesos do par de códons w são tomados de uma matriz de 61 x 61 pares de códons sem códons de parada, ou de uma matriz de 61 x 64 pares de códons que inclui códons de parada, e em que os referidos pesos do par de códons w são calculados com base em um método automatizado, com o uso, como informação de entrada, de pelo menos um de: (a) um grupo de seqüências de nucleotídeos que consiste em pelo menos 200 seqüências codificadoras de um hospedeiro predeterminado; (b) um grupo de seqüências de nucleotídeos que consiste em pelo menos 200 seqüências codificadoras da espécie à qual o hospedeiro predeterminado pertence; (c) um grupo de seqüências de nucleotídeos que consiste em pelo menos 5% das seqüências de nucleotídeos codificadoras de proteína em uma seqüência genômica do hospedeiro predeterminado; e, (d) um grupo de seqüências de nucleotídeos que consiste em pelo menos 5% das seqüências de nucleotídeos codificadoras de proteína em uma seqüência genômica de um gênero relacionado ao hospedeiro predeterminado.
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que os referidos pesos do par de códons w são determinados para pelo menos 5%, 10%, 20%, 50% e, de preferência, 100% dos 61 x 64 pares de códons possíveis que incluem o sinal de terminação como códon de parada.
11. Método, de acordo com qualquer uma das reivindicações 6, 7 ou 8, caracterizado pelo fato de que os referidos pesos do par de códons w são tomados de uma matriz de 61 x 61 pares de códons sem códons de parada, ou de uma matriz de 61 x 64 pares de códons que incluem códons de parada, e em que os referidos pesos do par de códons w são definidos por meio de: <formula>formula see original document page 418</formula> em que os valores esperados combinados <formula>formula see original document page 418</formula> definidos por meio de: <formula>formula see original document page 419</formula> em que <formula>formula see original document page 419</formula> representa a proporção de códon único de ck no conjunto de dados do genoma inteiro e nolL <formula>formula see original document page 419</formula> as ocorrências de um par (ci,cj) no grupo altamente expresso, e em que o grupo altamente expresso são os genes cujos mRNAs podem ser detectados em um nível de pelo menos 2 0 cópias por célula.
12. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou 11, caracterizado pelo fato de que a referida seqüência de nucleotídeos codificadora original que codifica uma seqüência de aminoácidos predeterminada é selecionada de: (a) uma seqüência de nucleotídeos do tipo selvagem que codifica a referida seqüência de aminoácidos predeterminada. (b) a tradução reversa da seqüência de aminoácidos predeterminada pela qual um códon para uma posição de aminoácido na seqüência de aminoácidos predeterminada é escolhido aleatoriamente dos códons sinônimos que codificam o aminoácido; e (c) a tradução reversa da seqüência de aminoácidos predeterminada pela qual um códon para uma posição de aminoácido na seqüência de aminoácidos predeterminada é escolhido de acordo com um viés de códon único para a célula hospedeira predeterminada ou de uma espécie relacionada à célula hospedeira.
13. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ou 12, caracterizado pelo fato de que a referida célula hospedeira predeterminada é uma célula de um microorganismo, preferivelmente um microorganismo de um gênero selecionado de: Bacillusl Actinomicetes, Escherichia, Streptomyces, Aspergillus, Penieillium, Kluyveromyees, Saccharomyees.
14. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ou 12, caracterizado pelo fato de que a referida célula hospedeira predeterminada é uma célula de um animal ou planta, de preferência uma célula de uma linhagem celular selecionada de CHO, BHK, NSO, COS, Vero, PER.C6™, HEK-293, Drosophila S2, Spodoptera Sf9 e Spodoptera Sf21.
15. Computador caracterizado por compreender um processador e memória, o processador sendo configurado para ler da referida memória e escrever na referida memória, a memória compreendendo dados e instruções configurados para fornecer ao referido processador a capacidade para efetuar o método de qualquer uma das reivindicações 1 - 14.
16. Programa de computador caracterizado por compreender dados e instruções, e configurado para ser carregado em uma memória de um computador que também compreende um processador, o processador sendo configurado para ler da referida memória e escrever na referida memória, os dados e as instruções sendo configurados para fornecer ao referido processador a capacidade de efetuar o método de qualquer uma das reivindicações 1-14.
17. Portador de dados caracterizado por ser fornecido com um programa de computador, como reivindicado na reivindicação 16.
18. Molécula de ácido nucléico, caracterizada por compreender uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada, em que a seqüência codificadora não é uma seqüência codificadora de ocorrência natural, e em que a seqüência codificadora possui um fitcp{g) de pelo menos abaixo de -0,1 e, de preferência, abaixo de -0,2 e, mais pref erivelmente, abaixo de -0,3, para uma célula hospedeira predeterminada.
19. Molécula de ácido nucléico caracterizada por compreender uma seqüência codificadora que codifica uma seqüência de aminoácidos predeterminada, em que a seqüência codificadora não é uma seqüência codificadora de ocorrência natural e em que a seqüência codificadora possui um fitCp{g) de pelo menos abaixo de -0,1 e, de preferência, abaixo de -0,2, para uma célula hospedeira predeterminada, e um fitsci(g) de pelo menos abaixo de 0,1 para uma célula hospedeira predeterminada.
20. Molécula de ácido nucléico, de acordo com qualquer uma das reivindicações 18 ou 19, caracterizada pelo fato de que a seqüência codificadora está ligada operacionalmente a uma seqüência de controle da expressão que é capaz de dirigir a expressão da seqüência codificadora na célula hospedeira predeterminada.
21. Célula hospedeira caracterizada por compreender uma molécula de ácido nucléico como definida na reivindicação 20.
22. Método para a produção de um polipeptídeo que possui a seqüência de aminoácidos predeterminada, o método caracterizado por compreender o cultivo de uma célula hospedeira, como definida na reivindicação 21, sob condições que conduzem à expressão do polipeptídeo e, opcionalmente, à recuperação do polipeptídeo.
23. Método para a produção de pelo menos um de um metabólito intracelular e um metabólito extracelular, o método caracterizado por compreender o cultivo de uma célula hospedeira, como definida na reivindicação 21, sob condições que conduzem à produção do metabólito, pelo qual preferivelmente o polipeptídeo que possui a seqüência de aminoácidos predeterminada está envolvido na produção do metabólito.
BRPI0713795-8A 2006-06-29 2007-06-15 Método de otimização de uma sequência de nucleotídeos codificadora que codifica uma sequência de aminoácidos predeterminada BRPI0713795B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06076328 2006-06-29
EP06076328.1 2006-06-29
PCT/EP2007/055943 WO2008000632A1 (en) 2006-06-29 2007-06-15 A method for achieving improved polypeptide expression

Publications (2)

Publication Number Publication Date
BRPI0713795A2 true BRPI0713795A2 (pt) 2012-11-06
BRPI0713795B1 BRPI0713795B1 (pt) 2018-03-20

Family

ID=37199000

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0713795-8A BRPI0713795B1 (pt) 2006-06-29 2007-06-15 Método de otimização de uma sequência de nucleotídeos codificadora que codifica uma sequência de aminoácidos predeterminada

Country Status (12)

Country Link
US (2) US8812247B2 (pt)
EP (2) EP2035561A1 (pt)
JP (1) JP5250850B2 (pt)
CN (1) CN101490262B (pt)
AU (1) AU2007263880A1 (pt)
BR (1) BRPI0713795B1 (pt)
CA (1) CA2657975A1 (pt)
DK (1) DK2423315T3 (pt)
EA (1) EA015925B1 (pt)
ES (1) ES2534282T3 (pt)
PL (1) PL2423315T3 (pt)
WO (1) WO2008000632A1 (pt)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10260805A1 (de) * 2002-12-23 2004-07-22 Geneart Gmbh Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins
AU2007281998B2 (en) * 2006-08-04 2014-02-20 Pharmathene Inc. Long half-life recombinant butyrylcholinesterase
JP2010517587A (ja) 2007-02-15 2010-05-27 ディーエスエム アイピー アセッツ ビー.ブイ. 関心のある化合物を生産するための組み換え宿主細胞
WO2009005564A2 (en) * 2007-06-29 2009-01-08 The Regents Of The University Of California Cellulose- and hemicellulose-degradation enzyme -encoding nucleotide sequences with refined translational kinetics and methods of making same
WO2009030254A1 (en) * 2007-09-04 2009-03-12 Curevac Gmbh Complexes of rna and cationic peptides for transfection and for immunostimulation
WO2009065777A1 (en) 2007-11-20 2009-05-28 Dsm Ip Assets B.V. Dicarboxylic acid production in a filamentous fungus
EA032726B1 (ru) 2007-11-20 2019-07-31 ДСМ АйПи АССЕТС Б.В. Рекомбинантная эукариотическая клетка для продукции янтарной кислоты, которая содержит nad(h)-зависимую фумаратредуктазу
US20110104771A1 (en) * 2008-02-15 2011-05-05 Rene Verwall Process for the production of a dicarboxylic acid
WO2009109633A1 (en) * 2008-03-07 2009-09-11 Dsm Ip Assets B.V. A pentose sugar fermenting cell
EA201001436A1 (ru) * 2008-03-07 2011-02-28 ДСМ АйПи АССЕТС Б.В. Клетка, сбраживающая пентозный сахар
TW200951103A (en) 2008-03-11 2009-12-16 Dsm Ip Assets Bv Preparation of 6-aminocaproic acid from α-ketopimelic acid
HUE037878T2 (hu) 2008-03-11 2018-09-28 Genomatica Inc Adipátészter vagy tioészter szintézis
EP2123768A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of (Z)-6,7-dihydro-1H-azepin-2(5H)-one
EP2123767A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of epsilon-caprolactam via lysine cyclisation
UA103033C2 (ru) 2008-07-08 2013-09-10 ДСМ АйПи АСЭТС Б.В. СПОСОБ ПОЛУЧЕНИЯ ДИКАРБОНОВЫХ КИСЛОТ ПРИ НИЗКИХ рН
CN102741421B (zh) * 2009-03-10 2015-03-25 帝斯曼知识产权资产管理有限公司 用于提高多肽产率的方法
WO2010102976A1 (en) 2009-03-10 2010-09-16 Dsm Ip Assets B.V. Pregastric esterase and derivatives thereof
TW201037078A (en) 2009-03-11 2010-10-16 Dsm Ip Assets Bv Preparation of alpha-ketopimelic acid
WO2010118932A1 (en) 2009-04-15 2010-10-21 Dsm Ip Assets B.V. Dicarboxylic acid production process
US20120041171A1 (en) 2009-04-22 2012-02-16 Dsm Ip Assets B.V. Process for the production of a recombinant polypeptide of interest
UA108853C2 (uk) 2009-07-10 2015-06-25 Спосіб ферментації галактози
EP3293264A1 (en) 2009-07-22 2018-03-14 DSM IP Assets B.V. Improved host cell for the production of a compound of interest
JP5776907B2 (ja) 2009-07-24 2015-09-09 ディーエスエム アイピー アセッツ ビー.ブイ. N−アシル保護またはn−グアニジル保護1,4−ブタンジアミン前駆体を介する1,4−ブタンジアミンの調製方法
EA026438B1 (ru) 2009-08-27 2017-04-28 ДСМ АйПи АССЕТС Б.В. Способ ферментативного получения дикарбоновых кислот
EA201200408A1 (ru) 2009-09-03 2012-09-28 ДСМ АйПи АССЕТС Б. В. Ферментная композиция для выпечки в качестве замены ssl
US20120238722A1 (en) 2009-11-24 2012-09-20 Roquette Freres Sa Process for the crystallization of succinic acid
EP2336310A1 (en) 2009-12-16 2011-06-22 Isobionics B.V. Valencene synthase
WO2011084145A2 (en) * 2009-12-21 2011-07-14 Pharmathene, Inc. Recombinant butyrylcholinesterases and truncates thereof
JP5521236B2 (ja) * 2009-12-22 2014-06-11 独立行政法人産業技術総合研究所 発現予測装置および発現予測方法
EP2534264A4 (en) * 2010-02-09 2014-02-26 Univ Columbia METHODS FOR MODIFYING EXPRESSION AND SOLUBILITY OF POLYPEPTIDES
WO2011157717A1 (en) 2010-06-14 2011-12-22 Dsm Fine Chemicals Austria Nfg. Gmbh & Co Kg Novel polypeptides having nad(p)h oxidase activity and the use thereof
CA2803222A1 (en) 2010-07-01 2012-01-05 Dsm Ip Assets B.V. A method for the production of a compound of interest
ES2650245T3 (es) 2010-07-14 2018-01-17 Dpx Holdings B.V. Método enzimático para aminación (R)-selectiva
US20130237698A1 (en) 2010-09-10 2013-09-12 Dsm Ip Assets B.V. Preparation of 6-aminocaproic acid from alpha-ketopimelic acid
WO2012031910A2 (en) 2010-09-10 2012-03-15 Dsm Ip Assets B.V. Method for preparing alpha-ketopimelic acid by c1-elongation
BR112013006883A2 (pt) 2010-09-24 2016-06-07 Dsm Ip Assets Bv processo de produção de ácido dicarboxílico
EP2495304A1 (en) 2010-12-03 2012-09-05 DSM IP Assets B.V. Dicarboxylic acid production in a yeast cell
WO2012089613A1 (en) 2010-12-28 2012-07-05 Dsm Ip Assets B.V. Process to increase the production of a succinyl-coa derived compound
US20140106398A1 (en) 2011-03-11 2014-04-17 Dsm Ip Assets B.V. Vector-host system
WO2012131059A1 (en) 2011-04-01 2012-10-04 Dsm Ip Assets B.V. Preparation of 5-formyl valeric acid from alpha-ketopimelic acid
EP2537926A1 (en) 2011-06-21 2012-12-26 Isobionics B.V. Valencene synthase
EP2726624B1 (en) 2011-07-01 2016-11-30 DSM IP Assets B.V. Process for producing dicarboxylic acids employing fungal cells
US20140234937A1 (en) * 2011-07-13 2014-08-21 Aemetis, Inc. Compositions and methods for the production of isoprene
WO2013007820A1 (en) 2011-07-14 2013-01-17 Dsm Ip Assets B.V. Screening method
AR087423A1 (es) 2011-08-04 2014-03-19 Dsm Ip Assets Bv Celula capaz de fermentar azucares pentosas
EP2554668A1 (en) 2011-08-04 2013-02-06 DSM IP Assets B.V. A pentose sugar fermenting cell
KR20140114860A (ko) 2012-01-05 2014-09-29 노파르티스 아게 프로테아제 결핍 사상형 진균 세포들 및 그의 이용방법
DK2620496T3 (en) 2012-01-30 2015-09-07 Dsm Ip Assets Bv Alpha-amylase
KR102064025B1 (ko) 2012-04-17 2020-01-08 에프. 호프만-라 로슈 아게 수식된 핵산을 사용하는 폴리펩티드의 발현 방법
US9695454B2 (en) 2012-05-23 2017-07-04 Glykos Finland Oy Production of fucosylated glycoproteins
US20150147365A1 (en) 2012-05-31 2015-05-28 Dsm Ip Assets B.V. Oral preparation
BR112015001155A2 (pt) 2012-07-18 2017-06-27 Isobionics B V célula hospedeira rhodobacter respectivo uso e método para preparar monoterpeno ou sesquiterpeno
JP6468561B2 (ja) 2012-07-19 2019-02-13 ディーエスエム アイピー アセッツ ビー.ブイ.Dsm Ip Assets B.V. AgsE欠損株
EP2877576B1 (en) * 2012-07-24 2019-06-05 BP Corporation North America Inc. Xylose isomerases and their uses
WO2014033018A1 (en) 2012-08-28 2014-03-06 Dsm Ip Assets B.V. Yeast strains engineered to produce ethanol from acetate
WO2014033019A1 (en) 2012-08-28 2014-03-06 Dsm Ip Assets B.V. Yeast strains engineered to produce ethanol from acetate
WO2014044782A1 (en) 2012-09-19 2014-03-27 Dsm Ip Assets B.V. Cell modification method using essential genes as markers and optionally recycling these
SG10201602115PA (en) * 2012-09-19 2016-05-30 Univ Singapore Codon optimization of a synthetic gene(s) for protein expression
DK2909305T3 (en) 2012-10-16 2019-04-15 Dsm Ip Assets Bv CELLS WITH IMPROVED PENTOSE CONVERSION
WO2014142647A1 (en) 2013-03-14 2014-09-18 Wageningen Universiteit Fungals strains with improved citric acid and itaconic acid production
DK3019602T3 (en) 2013-07-10 2018-11-12 Glykos Finland Oy MULTIPLE PROTEASE-DEFECTED FILAMENTARY FUNGAL CELLS AND PROCEDURES FOR USE THEREOF
KR20160054501A (ko) 2013-08-26 2016-05-16 맵백스 테라퓨틱스, 인코포레이티드 시알릴-루이스 a에 대한 사람 항체 코드화 핵산
AR097480A1 (es) 2013-08-29 2016-03-16 Dsm Ip Assets Bv Células de levadura convertidoras de glicerol y ácido acético con una conversión de ácido acético mejorada
WO2015082488A1 (en) 2013-12-02 2015-06-11 Dsm Ip Assets B.V. Ice structuring protein
WO2015177153A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
BR112016026789B1 (pt) 2014-05-19 2023-05-02 Dsm Ip Assets B.V Polipeptídeo com atividade de endoprotease específica de prolina, composição, ácido nucleico que codifica a referida endoprotease, vetor de expressão, célula hospedeira de microrganismo recombinante, método para a preparação de um polipeptídeo, processo para a preparação de um alimento ou produto para alimentação animal e uso de um polipeptídeo
WO2015177152A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
ES2863074T3 (es) 2014-06-04 2021-10-08 Biontech Res And Development Inc Anticuerpos monoclonales humanos contra el gangliósido GD2
AU2015293949B2 (en) 2014-07-21 2019-07-25 Teknologian Tutkimuskeskus Vtt Oy Production of glycoproteins with mammalian-like N-glycans in filamentous fungi
DK3242950T3 (da) 2015-01-06 2021-12-20 Dsm Ip Assets Bv Crispr-cas-system til en trådformet svampeværtscelle
DK3242949T3 (da) 2015-01-06 2022-01-24 Dsm Ip Assets Bv Crispr-cas-system til en gærværtscelle
CN108064287A (zh) 2015-01-06 2018-05-22 帝斯曼知识产权资产管理有限公司 用于解脂酵母宿主细胞的crispr-cas系统
CN107429273A (zh) 2015-02-16 2017-12-01 帝斯曼知识产权资产管理有限公司 用于在厌氧条件下生产衣康酸的方法
AR104205A1 (es) 2015-04-09 2017-07-05 Dsm Ip Assets Bv Fosfolipasa c
AU2016273208B2 (en) 2015-06-02 2021-01-21 Dsm Ip Assets B.V. Use of ice structuring protein AFP19 expressed in filamentous fungal strains for preparing food
US10724040B2 (en) 2015-07-15 2020-07-28 The Penn State Research Foundation mRNA sequences to control co-translational folding of proteins
WO2017050652A1 (en) 2015-09-25 2017-03-30 Dsm Ip Assets B.V. Asparaginase
EP4361240A2 (en) 2015-11-17 2024-05-01 DSM IP Assets B.V. Preparation of a stable beer
WO2017211930A1 (en) 2016-06-10 2017-12-14 Dsm Ip Assets B.V. Mutant lipase and use thereof
CN109689856A (zh) 2016-07-13 2019-04-26 帝斯曼知识产权资产管理有限公司 用于海藻宿主细胞的CRISPR-Cas系统
EP3919615A1 (en) 2016-07-13 2021-12-08 DSM IP Assets B.V. Malate dehyrogenases
US10913938B2 (en) 2016-07-29 2021-02-09 Dsm Ip Assets B.V. Polypeptides having cellulolytic enhancing activity and uses thereof
CN106650307B (zh) * 2016-09-21 2019-04-05 武汉伯远生物科技有限公司 一种基于密码子对使用频度的基因密码子优化方法
CN109715804A (zh) 2016-09-23 2019-05-03 帝斯曼知识产权资产管理有限公司 用于宿主细胞的指导rna表达系统
BR112019012559A2 (pt) 2016-12-21 2019-11-26 Dsm Ip Assets Bv variantes de enzima lipolítica
WO2018114938A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
EP3559222A1 (en) 2016-12-21 2019-10-30 DSM IP Assets B.V. Lipolytic enzyme variants
WO2018114912A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
US20190330600A1 (en) 2016-12-22 2019-10-31 Dsm Ip Assets B.V. Glutathione reductase
WO2018148761A1 (en) * 2017-02-13 2018-08-16 The Regents Of The University Of Colorado, A Body Corporate Compositions, methods and uses for multiplexed trackable genomically-engineered polypeptides
NL2018457B1 (en) 2017-03-02 2018-09-21 Isobionics B V Santalene Synthase
CN110431224A (zh) 2017-03-13 2019-11-08 帝斯曼知识产权资产管理有限公司 锌双核簇转录调控因子缺陷型菌株
CN107353327A (zh) * 2017-03-30 2017-11-17 南京百斯杰生物工程有限公司 植酸酶在黑曲霉中表达
WO2018127611A1 (en) 2017-04-06 2018-07-12 Dsm Ip Assets B.V. Self-guiding integration construct (sgic)
CN110070913B (zh) * 2017-07-25 2023-06-27 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法
NL2019473B1 (en) 2017-09-01 2019-03-11 Isobionics B V Terpene Synthase producing patchoulol and elemol, and preferably also pogostol
BR112020005972A2 (pt) 2017-09-26 2020-11-17 Bunge Global Innovation, Llc remoção enzimática de substratos de clorofila de óleos à base de triacilglicerol
JP7256796B2 (ja) 2017-10-13 2023-04-12 ベーリンガー インゲルハイム インターナショナル ゲゼルシャフト ミット ベシュレンクテル ハフツング Thomsen-nouvelle(tn)抗原に対するヒト抗体
WO2019012162A2 (en) 2017-12-20 2019-01-17 Dsm Ip Assets B.V. GENOMIC EDITING METHOD IN HOST CELL
EP3772966A1 (en) 2018-04-05 2021-02-17 DSM IP Assets B.V. Variant maltogenic alpha-amylase
CN112088215A (zh) 2018-05-09 2020-12-15 帝斯曼知识产权资产管理有限公司 Crispr瞬时表达构建体(ctec)
CA3100615A1 (en) 2018-05-18 2019-11-21 Dsm Ip Assets B.V. Mutant lipase and use thereof
CA3100611A1 (en) 2018-05-18 2019-11-21 Dsm Ip Assets B.V. Mutant lipase and use thereof
WO2019243312A1 (en) 2018-06-19 2019-12-26 Dsm Ip Assets B.V. Lipolytic enzyme variants
SG11202011455SA (en) * 2018-07-30 2020-12-30 Nanjing Genscript Biotech Co Ltd Codon optimization
KR20210043568A (ko) * 2018-08-15 2021-04-21 지머젠 인코포레이티드 생물학적 서열 선택을 이용한 생물도달가능 예측 도구
EP3880835A1 (en) 2018-11-15 2021-09-22 DSM IP Assets B.V. Improved production of riboflavin
WO2020114893A1 (en) 2018-12-05 2020-06-11 Dsm Ip Assets B.V. Crispr guide-rna expression strategies for multiplex genome engineering
WO2020198212A1 (en) 2019-03-27 2020-10-01 Bunge Global Innovation, Llc Silica adsorbent treatment for removal of chlorophyll derivatives from triacylglycerol-based oils
TW202102529A (zh) * 2019-03-28 2021-01-16 美商英特利亞醫療公司 用於多肽表現之多核苷酸、組合物及方法
MX2021015193A (es) 2019-06-28 2022-01-18 Hoffmann La Roche Metodo para la produccion de un anticuerpo.
EP3766982A1 (en) 2019-07-18 2021-01-20 Delft Advanced Biofuels B.V. Integrated system for biocatalytically producing and recovering an organic substance
CN110491447B (zh) * 2019-08-05 2021-08-17 浙江省农业科学院 一种用于异源基因体外表达的密码子优化方法及应用
CN110873833B (zh) * 2019-12-10 2022-04-08 国网河南省电力公司洛阳供电公司 一种含分布式电源的配电网自适应故障区段定位方法
AU2021233128A1 (en) 2020-03-10 2022-09-15 Dsm Ip Assets B.V. Lactose reduced dairy powder
EP4015626A1 (en) 2020-12-18 2022-06-22 Isobionics B.V. Enzymes and methods for fermentative production of monoterpene esters
CA3216308A1 (en) 2021-04-21 2022-10-27 Zhejiang University Negative-strand rna viral vector and plant genome editing method without transformation
WO2022263504A1 (en) 2021-06-17 2022-12-22 Dsm Ip Assets B.V. Improved bacillus host cell
BR112024001952A2 (pt) 2021-08-02 2024-04-30 Basf Se Usos de alfa-ionilidenoetano, de uma alfa-ionilidenoetano sintase e de uma célula hospedeira, métodos para preparar um ou mais compostos aromáticos, para perfumar um produto, conferir e/ou intensificar um odor ou sabor e para produzir alfa-ionona, composto ou composição aromática e/ou composição de fragrância e/ou produto perfumado ou com fragrância, produto perfumado ou com fragrância, e, célula hospedeira para produzir alfa-ionona
CA3236294A1 (en) 2021-11-19 2023-05-25 Mirobio Limited Engineered pd-1 antibodies and uses thereof
US20230416361A1 (en) 2022-04-06 2023-12-28 Mirobio Limited Engineered cd200r antibodies and uses thereof
WO2023225459A2 (en) 2022-05-14 2023-11-23 Novozymes A/S Compositions and methods for preventing, treating, supressing and/or eliminating phytopathogenic infestations and infections
WO2023222614A1 (en) 2022-05-16 2023-11-23 Dsm Ip Assets B.V. Lipolytic enzyme variants
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus
CN117153253B (zh) * 2022-09-09 2024-05-07 南京金斯瑞生物科技有限公司 一种设计人源化抗体序列的方法
EP4365192A1 (en) 2022-11-04 2024-05-08 DSM IP Assets B.V. Microbial production of growth factors

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK122686D0 (da) 1986-03-17 1986-03-17 Novo Industri As Fremstilling af proteiner
EP0340878B1 (en) 1988-05-06 2001-05-16 Aventis Pharma S.A. Process for the biochemical oxidation of steroids and genetically engineered cells to be used therefor
CA1333777C (en) 1988-07-01 1995-01-03 Randy M. Berka Aspartic proteinase deficient filamentous fungi
US5082767A (en) * 1989-02-27 1992-01-21 Hatfield G Wesley Codon pair utilization
ATE238425T1 (de) 1993-07-23 2003-05-15 Dsm Nv Selektionmarker-genfreie rekombinante stämme: verfahren zur ihrer herstellung und die verwendung dieser stämme
US5795737A (en) 1994-09-19 1998-08-18 The General Hospital Corporation High level expression of proteins
CN1164868A (zh) 1994-11-08 1997-11-12 诺沃挪第克公司 三肽基氨肽酶
US5874304A (en) * 1996-01-18 1999-02-23 University Of Florida Research Foundation, Inc. Humanized green fluorescent protein genes and methods
JP4263241B2 (ja) 1996-03-27 2009-05-13 ノボザイムス アクティーゼルスカブ アルカリプロテアーゼを欠失した糸状真菌
CN1169961C (zh) 1997-04-11 2004-10-06 Dsm公司 基因转变作为工具用于构建重组的工业化丝状真菌
EP1002091B1 (en) 1997-07-09 2012-02-29 Coridon Pty Limited Nucleic acid sequence and method for selectively expressing a protein in a target cell or tissue
DE69838106T2 (de) 1997-12-22 2008-04-03 Dsm Ip Assets B.V. Expressionsklonierung in filamentösen pilzen
ES2317706T3 (es) 1998-12-23 2009-04-16 Novozymes A/S Metodo para produicir polipeptidos en celulas mutantes de aspergillus.
AU2658200A (en) 1999-02-22 2000-09-14 Novozymes A/S Oxaloacetate hydrolase deficient fungal host cells
DE60142226D1 (de) 2000-03-14 2010-07-08 Novozymes As Pilz transkriptionsaktivator zur verwendung in verfahren zur herstellung von polypeptiden
US20010034045A1 (en) 2000-03-24 2001-10-25 Genencor International, Inc. Increased production of secreted proteins by recombinant eukaryotic cells
IL156557A0 (en) 2000-12-22 2004-01-04 Janssen Pharmaceutica Nv Bax-responsive genes for drug target identification in yeast and fungi
AU2002242025A1 (en) 2001-01-29 2002-08-12 Olga Kachurina Advanced composite ormosil coatings
EP1231272A3 (en) 2001-02-08 2002-11-13 Laboratorios Ovejero S.A. Procedure for obtaining bovine chymosin (rennin), curd
AU2003206684A1 (en) 2002-02-20 2003-09-09 Novozymes A/S Plant polypeptide production
AU2003228440B2 (en) * 2002-04-01 2008-10-02 Walter Reed Army Institute Of Research Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell
JP2006516399A (ja) 2003-02-05 2006-07-06 デーエスエム アイピー アセッツ ベー. ヴェー. ポリペプチドを製造するためのシュウ酸欠損Aspergillusniger菌株の使用
ATE441664T1 (de) 2003-03-31 2009-09-15 Novozymes Inc Verfahren zur produktion biologischer substanzen in enzymmangelmutanten von aspergillus niger
JP2007530065A (ja) 2004-04-02 2007-11-01 ディーエスエム アイピー アセッツ ビー.ブイ. 改善された相同的組換え効率を有する糸状菌変異体
CN102286483B (zh) 2004-04-16 2014-06-04 中化帝斯曼制药有限公司荷兰公司 用于在真菌细胞中表达基因的真菌启动子
CA2568788A1 (en) 2004-06-16 2005-12-29 Dsm Ip Assets B.V. Production of polypeptides by improved secretion
CN101094919B (zh) 2004-10-12 2014-09-03 帝斯曼知识产权资产管理有限公司 在生产多肽的方法中有用的真菌转录活化因子
ATE541936T1 (de) 2004-10-15 2012-02-15 Dsm Ip Assets Bv Verfahren zur herstellung einer verbindung in einer eukaryotischen zelle
AU2006207463B2 (en) 2005-01-24 2011-03-17 Dsm Ip Assets B.V. Method for producing a compound of interest in a filamentous fungal cell

Also Published As

Publication number Publication date
JP5250850B2 (ja) 2013-07-31
ES2534282T3 (es) 2015-04-21
CN101490262A (zh) 2009-07-22
EA200900096A1 (ru) 2009-06-30
CN101490262B (zh) 2012-09-26
PL2423315T3 (pl) 2015-06-30
DK2423315T3 (en) 2015-04-13
EP2423315A1 (en) 2012-02-29
BRPI0713795B1 (pt) 2018-03-20
EP2035561A1 (en) 2009-03-18
EA015925B1 (ru) 2011-12-30
US8812247B2 (en) 2014-08-19
JP2009540845A (ja) 2009-11-26
WO2008000632A1 (en) 2008-01-03
US20090286280A1 (en) 2009-11-19
EP2423315B1 (en) 2015-01-07
CA2657975A1 (en) 2008-01-03
AU2007263880A1 (en) 2008-01-03
US20140377800A1 (en) 2014-12-25

Similar Documents

Publication Publication Date Title
BRPI0713795A2 (pt) método para atingir uma expressão de polipeptìdeo melhorada
CN110520520A (zh) 用于增加地衣芽孢杆菌中蛋白质产生的组合物和方法
US20080199908A1 (en) Production Of Cellulase
JP2008527985A (ja) 糸状菌細胞において目的の化合物を産生させるための方法
JP2006296268A (ja) 組換え微生物
CN112111471B (zh) 广谱识别PAM序列的FnCpf1突变体及其应用
CN110506048A (zh) 回收方法
JP2021521821A (ja) 粘性が低下した表現型を含む糸状菌株
Li et al. Engineering of isoamylase: improvement of protein stability and catalytic efficiency through semi-rational design
JP2009225711A (ja) 組換え微生物
CN115725632B (zh) 一种Aomsn2过表达米曲霉工程菌及其构建方法与应用
JP2022513649A (ja) 修飾された糸状菌宿主細胞
CN114107360B (zh) 一种通过干扰磷酸酶基因提高里氏木霉纤维素酶表达的方法
CN114807087B (zh) 一种提高植酸酶热稳定性的方法及突变体和应用
Class et al. Patent application title: Method for Achieving Improved Polypeptide Expression Inventors: Johannes Andries Roubos (Echt, NL) Johannes Andries Roubos (Echt, NL) Noël Nicolaas Maria Elisabeth Van Peij (Echt, NL)
CN114891826A (zh) 改良玉米果穗形态的方法
JP2006325586A (ja) 組換え微生物
CN113999826A (zh) 一种细菌漆酶变构体及其制备方法
CN110878293A (zh) 缺失yceD基因的地衣芽胞杆菌在异源蛋白生产中的应用
CN114292943B (zh) 番茄SlC3H39基因作为负调控因子在提高番茄耐低温能力中的应用
Kacem et al. Optimization of extracellular catalase production from Aspergillus phoenicis K30 by a linear regression method using date flour as single carbon source and purification of the enzyme
Galeano Vanegas et al. Modification and Expression of Beta-1, 4-Endoglucanase encoding sequences of fungal origin in Escherichia coli BL21
CN113957025A (zh) 一种过表达bshCBA基因的地衣芽孢杆菌及其应用
Hirsch Identification and characterization of genes regulating amylolysis and cellulolysis in the maize pathogen Fusarium verticillioides
JP2005278644A (ja) 改変プロモーター

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according art. 34 industrial property law
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B06A Notification to applicant to reply to the report for non-patentability or inadequacy of the application according art. 36 industrial patent law
B09A Decision: intention to grant
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 20/03/2018, OBSERVADAS AS CONDICOES LEGAIS.

B21F Lapse acc. art. 78, item iv - on non-payment of the annual fees in time

Free format text: REFERENTE A 13A ANUIDADE.

B24J Lapse because of non-payment of annual fees (definitively: art 78 iv lpi, resolution 113/2013 art. 12)

Free format text: EM VIRTUDE DA EXTINCAO PUBLICADA NA RPI 2594 DE 24-09-2020 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDA A EXTINCAO DA PATENTE E SEUS CERTIFICADOS, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.