POLINUCLEOTÍDEOS CODIFICANDO ENZIMAS À PARTIR DA VIA
BIOSSINTÉTICA DE LIGNINA DE JUTA
PEDIDOS RELACIONADOS
[001] Este pedido reivindica o benefício de prioridade pelo Pedido de Patente Provisório dos Estados Unidos, número de sério 61/480,668, depositado em 29 de Abril de
2011.
CAMPO DA INVENÇÃO
[002] A invenção diz respeito à identificação e caracterização de várias porções da via biossintética de lignina de juta. Mais especificamente, a invenção se refere a polinucleotídeos de plantas de juta que codificam enzimas responsáveis pela síntese de lignina e a métodos para usar esses polinucleotídeos e enzimas para regulação de gene e manipulação de produção de lignina para render fibras com conteúdo desejado de lignina e outras características.
FUNDAMENTOS DA INVENÇÃO
[003] Lignina é um nome coletivo para um complexo de heteropolímero aromático de monolignol (alcoóis hidroxicinamil), usualmente derivado de fenilalanina num processo com várias etapas. (Whetten, R. and Sederoff, R. (1995) Lignin Biosynthesis, Plant Cell, 7, pp. 1001-1013). Esses polímeros, depositados primeiramente nas paredes celulares, garantem a força mecânica necessária de caules e, o mais importante, a hidrofobicidade de tecidos vasculares da planta. (Vanholme, R. et al. (2010) Lignin biosynthesis and structure, Plant Physiol, 153, pp. 895- 905). Devido à sua natureza hidrofóbica, a lignina serve como um componente principal dos tecidos vasculares e desempenha um papel essencial no transporte de água.
Adicionalmente ao seu papel estrutural e orientado ao transporte, a lignina é um componente chave do sistema de defesa da planta. (Goujon, T. et al. (2003) Genes involved in the biosynthesis of lignin precursors in Arabidopsis thaliana, Plant Physiology and Biochemistry, 41, pp. 677- 687). Sem ser uma surpresa, condições ambientais influenciam a quantidade de lignina depositada. (Boerjan, W. et al. (2003) Lignin biosynthesis, Annu Rev Plant Biol, 54, pp. 519-546). Por exemplo, biossíntese de lignina é induzida em resposta a várias condições de estresse, tais como ferimento, estresse abiótico e infecção patógena. A lignina limita a invasão patógena e protege os polissacarídeos de parede celular contra degradação microbiana (Vanholme et al., 2010).
[004] Uma grande parte de nossa compreensão atual acerca da biossíntese de lignina vem do entendimento completo dessa via em A. thaliana e P. trichocarpa (Goujon, et al., 2003; Shi et al. (2010). Towards a systems approach for lignin biosynthesis in Populus trichocarpa: transcript abundance and specificity of the monolignol biosynthetic genes, Plant Cell Physiol, 51, pp. 144-163). Existem três monômeros básicos de monolignol: p-coumaril, coniferil e alcoóis sinapil. Esses monoglicóis são incorporados dentre de três unidades de lignina ou blocos de formação: p- hidroxifenil (H), guaiacil (G) e siringil (S). Vide Figura
1. Esses monoglicóis diferem no número de grupos metóxi. P- hidroxifenil (H) não possui grupo metóxi, guaiacil (G) não possui grupo metóxi e siringil (S) possui dois grupos metóxi. (Goujon et al., 2003). No entanto, em adição a esses três monoglicóis, fenilpropanóides um pouco diferentes, tais como aldeídos hidroxicinamil, ésteres hidroxicinamil e acetatos hidroxicinamil também podem ser incorporados. (Boerjan et al., 2003).
[005] Após a bissíntese desses blocos formadores de lignina básica, eles são transportados para zonas de lignificação. Nas zonas de lignificação ocorre a polimerização por meio de acoplagem oxidativa à base de radical livre por peroxidase ou lacase, e uma estrutura do tipo malha é formada por reticulação com celulose e hemicelulose. (Boerjan et al., 2003; Vanholme, R. et al. (2008) Lignin engineering, Curr Opin Plant Biol, 11, pp. 278-285). A lignificação ocorre em diferentes fases durante o espessamento secundário da parede celular quando a formação de matriz de polissacarídeo é completa. Deposição de lignina é influenciada pela natureza da matriz de polissacarídeo. Na parede celular primária são encontradas estruturas esféricas; considerando que na parede celular secundária, isso forma lamela (Boerjan et al., 2003).
[006] Não obstante o papel indispensável da lignina na vida de uma planta, ela é um fator limitante principal no uso eficiente e na eficiência de custo de material vegetal nas indústrias de polpa e de biocombustível. A lignina também limita o uso de biomassa para produção de fibras, produtos químicos e de energia. Remoção de lignina é um processo muito caro, e essas indústrias teriam benefício a partir do acesso à biomassa tendo menos lignina ou a uma lignina que seja fácil de degradar. Nas últimas décadas algum entendimento acerca da via biossintética de lignina foi alcançado, embora porções do processo não sejam completamente compreendidos.
[007] A despeito da importância da síntese de lignina para o bem-estar geral da planta de juta, assim como seu impacto em vários aspectos da qualidade da fibra, no momento não há informação disponível que detalhe a biossíntese de lignina em juta. Portanto, existe uma necessidade em identificar, isolar e utilizar genes e enzimas a partir da planta de juta, os quais estão envolvidos na biossíntese de lignina. A presente invenção atende essa necessidade.
RESUMO DA INVENÇÃO
[008] Um aspecto da invenção é uma molécula de ácido nucleico isolada tendo pelo menos 90% de identidade de sequência com uma sequência de ácido nucleico selecionado a partir do grupo consistindo na: SEQ ID No.: 1, 3, 5, 7, 9, 11, 13, 15, 16, 18, 20, 22, 24, 25, 26, 28, 29, 31, 33, 35, 37, 39, 40, 42, 44, 45, 47, 49 e 51.
[009] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 1, 3, 5, 7, 9, 11, 13 e 15.
[010] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No: 16, 18 e 20.
[011] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 22, 24, 25, 26, 28 e 29.
[012] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 31.
[013] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir de grupo consistindo na: SEQ ID No.: 33.
[014] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 35, 37 e 39.
[015] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 40 e 42.
[016] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 44, 45 e 47.
[017] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 49.
[018] Numa modalidade, uma molécula de ácido nucleico isolada é selecionada a partir do grupo consistindo na: SEQ ID No.: 51.
[019] Um aspecto da invenção é uma molécula de polipeptídeo isolada tendo pelo menos 90% de identidade de sequência a uma sequência de aminoácido selecionada a partir do grupo consistindo na SEQ ID NO: 2, 4, 6, 8, 10, 12, 14, 17, 19, 21, 23, 27, 30, 32, 34, 36, 38, 41, 43, 46, 48, 50 e 52.
[020] Numa modalidade, um par de iniciadores forward e reverse, úteis para a amplificação de cDNA, é selecionado a partir do grupo consistindo na SEQ ID No. 53 e SEQ ID No. 54; SEQ ID No. 55 e SEQ ID No. 56; SEQ ID No. 57 e SEQ ID No. 58; SEQ ID No. 59 e SEQ ID No. 60; e SEQ ID No. 61 e SEQ ID No. 62.
[021] Em certas modalidades, a presente invenção diz respeito a qualquer uma das sequências de polinucleotídeos mencionadas anteriormente ou a sequências de polipeptídeo, em que a referida sequência tem pelo menos 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou 100% de identidade de sequência a qualquer uma das sequências identificadas por uma SEQ ID No.
[022] Um aspecto da invenção é um vetor de expressão compreendendo uma molécula de ácido nucleico isolada da presente invenção.
[023] Um aspecto da invenção é um anticorpo isolado ou fragmento de ligação a antígeno daquele, o qual se liga especificamente a uma molécula de polipeptídeo da presente invenção.
[024] Um aspecto da invenção é uma célula vegetal transfectada, transfectada por um vetor da presente invenção.
[025] Um aspecto da invenção é um material derivado a partir de um vegetal transgênico da presente invenção.
[026] Um aspecto da invenção é uma semente de uma planta transfectada por um vetor da presente invenção.
[027] Um aspecto da invenção é um método para fazer um vegetal transgênico, compreendendo as etapas de transfecção de pelo menos uma célula vegetal com um vetor da presente invenção e o cultivo de pelo menos uma célula vegetal em um vegetal.
[028] Um aspecto da invenção é um método de aprimoramento do crescimento, rendimento da fibra, força da fibra, resistência a doença ou utilização da água em um vegetal de juta, compreendendo a incorporação em um vegetal de juta de uma sequência de ácido nucleico não nativa da presente invenção.
BREVE DESCRIÇÃO DAS FIGURAS
[029] Figura 1: via proposta de biossíntese de monolignol de juta.
[030] Figuras 2a e 2b: alinhamento de sequência de proteína de ColCAD1, ColCAD2, ColCAD3, ColCAD4, ColCAD5, ColCAD6 e ColCAD7, com sequências de proteína CAD vegetal.
[031] Figura 3: alinhamento de sequência de proteína de ColCCoAOMT1, ColCCoAOMT2 e ColCCoAOMT3 com sequências de proteína CCoAOMT vegetal.
[032] Figura 4: alinhamento de sequência de proteína de Col4CL1, Col4CL4 e Col4CL6 com sequências de proteína 4CL vegetal.
[033] Figura 5: alinhamento de sequência de proteína de Col6HCT1 com sequências de proteína 6HCT vegetal.
[034] Figura 6: alinhamento de sequência de proteína de ColC3H com sequências de proteína C3H vegetal.
[035] Figura 7: alinhamento de sequência de proteína de ColC4H1 e ColC4H2 com sequências de proteína C4H vegetal.
[036] Figura 8: alinhamento de sequência de proteína de ColPAL1 e ColPAL2 com sequências de proteína PAL vegetal.
[037] Figura 9: alinhamento de sequência de proteína de ColCCR2 com sequências de proteína CCR vegetal.
[038] Figura 10: alinhamento de sequência de proteína de ColCCR3 com sequências de proteína CCR vegetal.
[039] Figura 11: alinhamento de sequência de proteína de ColF5H com sequências de proteína F5H vegetal.
[040] Figura 12: alinhamento de sequência de proteína de ColCOMT com sequências de proteína COMT vegetal.
[041] Figura 13: DNA gel de ColCAD2.
[042] Figura 14: DNA gel de ColCCoAOMT1.
[043] Figura 15: DNA gel de Col4CL1.
[044] Figura 16: DNA gel de ColCCR3.
DESCRIÇÃO DETALHADA DA INVENÇÃO
[045] As famílias conhecidas de enzimas estão associadas com a biossíntese de monoglicol. (Goujon et. al., 2003). As famílias são (fenilalanina amonia-liase), C4H (cinamato-4-hidroxilase), 4CL (4-coumarato:CoA ligase), HCT (p-hidroxicinamoil-CoA:xiquimato/quinato p- hidroxicinamoil transferase), C3H (4-coumarato 3- hydroxilase), CCoAOMT (cafeoil-CoA O-metiltransferase), CCR (cinamoil-CoA redutase), F5H (ferulato 5-hidroxilase), COMT (ácido cafeico O-metiltransferase), e CAD (cinamil alcool dehidrogenase). Um esquema proposto da via de biossíntese de monolignol em Juta é mostrado na Figura 1.
[046] A via de biossíntese de lignina em juta deve sua complexidade, em parte, à presença de várias enzimas multifuncionais e de enzimas constituintes que abrangem várias famílias de diversos genes. A primeira enzima da via de fenilpropanoide é PAL (fenilalanina amonia-liase), a qual causa o desestímulo da fenilalanina, produzindo ácido cinâmico. A segunda enzima da via, C4H (cinamato 4- hidroxilase) converte ácido cinâmico em ácido 4- hidroxicinâmico, o que é seguido por etapas subsequentes de hidroxilação e metilação, visto que a via se torna ramificada. A enzima 4CL catalisa a licação CoA de ácidos hidróxicinâmicos, gerando precursores fenólicos ativados para biossíntese de lignina (Hu et al. (1999) Repression of lignin biosynthesis promotes cellulose accumulation and growth in transgenic trees, Nat Biotech, 17, pp. 808-812.).
[047] A próxima enzima na via de monoglicol (HCT) catalisa a produção de pcoumaroyl-xiquimato/ésteres quinato, os quais são os substratos para C3H. HCT foi mostrado para transferir o grupo acil de p-coumaroil-CoA para xiquimato ou quinato. (Hoffman et al. (2005) Plant Biosystems, v. 139, No. 1, pp. 50-53). As etapas de hidroxilação em C3 e C5 são realizadas por duas enzimas P450 de citocromos, 4-coumarato 3-hidroxilase (C3H) e ferulato 5-hidroxilase (F5H), respectivamente. As etapas de metilação são realizadas por CCoAOMT (cafeoil–coenzima A (CoA) O-metiltransferase) e COMT (caféica- Ometiltransferase). CCoAOMT é uma enzima bifuncional que converte cafeoil-CoA para feruloil-CoA e 5-hidroxiferuloil- CoA para sinapoil-CoA e desempenha um papel na síntese de polissacarídeos feruloilados. (Inoue et al., 1998). CCoAOMT mostrou estar envolvida na síntese de lignina nos diferentes elementos de traqueia Zinnia elegans. (Ye, Z. H. and Varner J. E. (1995) Differential expression of two O- methyltransferases in lignin biosynthesis in Zinnia elegans, Plant Physiol. 108, pp. 459-467). CCoAOMT está envolvida no reforço da parede celular vegetal e também está envolvida em respostas à ferimento ou alteração patógena pela formação melhorada dos polímeros de ácido ferúlico ligados à parede celular.
[048] Enzimas adicionais envolvidas na via de biossíntese de monolignol são a redutase A de coenzima cinamoil (CCR) e a dehidrogenase de álcool cinamil (CAD). CCR catalisa a redução dos ésteres CoA hidroxicinamoil para produzir cinamaldeídos, considerando que CAD catalisa sua redução para álcoois cinamil (Goujon et al., 2003).
[049] Uma das últimas enzimas envolvidas na via de monolignol é dehidrogenase de álcool cinamil (CAD), o qual catalisa o NADPH dependente de conversão de coniferaldeído, 5-hidroxi-coniferaldeído e sinapaldeído para os alcoóis correspondentes. (Kim, S. J. et al. (2004) Functional reclassification of the putative cinnamyl alcohol dehydrogenase multigene family in Arabidopsis, Proc. Natl. Acad. Sci. USA, 101, pp. 1455-60). Em Arabidopsis, mutantes individuais dos genes de CAD, AtCAD-C e AtCAD-D foram encontrados tendo atividades CAD menores, e o mutante duplo, obtido por reticulação de dois mutantes, tinha um decréscimo de 40% no conteúdo de lignina de pedúnculo, demonstrando, assim, que estes são os genes CAD principais envolvidos na síntese de lignina de pedúnculo. (Sibout, R. et al. (2005) Cinnamyl Alcohol Dehydrogenase-C and -D are the primary genes involved in lignin biosynthesis in the floral stem of Arabidopsis, Plant Cell, 17, pp. 2059-76).
[050] Duas enzimas são específicas para a via de biossíntese de monolignol. Elas são ácido caféico O- metiltransferase (COMT) e redutase A de coenzima cinamoil (CCR). COMT foi primeiramente identificado em angiospermas. COMT é capaz de converter ácido caféico em ácido refúlico, assim como converter ácido 5-hidrpoxiferúlico em ácido sinápico. Dixon, R. A., et al. (2001) The biosynthesis of monolignols: a "metabolic grid,” or independent pathways to guaiacyl and syringyl units? Phytochemistry, 57, pp. 1069- 1084). Baixa regulação do gene de COMT em milho (Zea mays) mostrou causar uma redução significativa da atividade de
COMT (uma queda de 70 a 85%), resultando na modificação do conteúdo de lignina e da composição, indicando que essa enzima é uma enzima chave para síntese de lignina.
[051] Ácido ferúlico gerado por COMT pode ser hidroxilado por ferulato 5 hidroxilase (F5H), o qual é um citocromo de monooxigenase dependente de P450, para formar ácido ferúlico 5-hidróxi. F5H também é capaz de hidroxilar coniferaldeído e coniferil álcool para formar 5-hidróxi- coniferaldeído e 5-hidróxi-coniferil álcool, respectivamente. (Meyer, K. et al. 1996) Ferulato 5- hidroxilase a partir de Arabidopsis thaliana define uma nova família de citocromo de monooxigenase dependente de P450, Proc. Natl. Acad. Sci. USA, 93, PP. 6869-74). Acredita-se que F5H é uma etapa limitante de taxa na biossíntese de lignina siringil, uma proposta amparada pela observação de que uma Arabidopsis mutante, deficiente na expressão de F5H, também é afetada no nível de acúmulo de ésteres sinapato em siliquas e sementes (Ruegger, M. et al. (1999) Regulation of ferulate-5-hydroxylase expression in Arabidopsis in the context of sinapate ester biosynthesis, Plant Physiol., 119, pp. 101-10).
[052] A segunda enzima especificamente envolvida na biossíntese de lignol, CCR, catalisa a conversão de feruloil CoA e 5-hidróxi-feruloil CoA em coniferaldeído e 5-hidróxi coniferaldeído, respectivamente. Essa etapa leva diretamente à biossínte de unidades G (coniferaldeído) e S (5-hidróxi-coniferaldeído) de lignina (Ma et al., 2005). Em tabaco, baixa de regulação do gene CCR usando construtos antisenso produziu plantas com desenvolvimento anormal e crescimento reduzido, assim como morfologia anormal de folha e vasos danificados. Também houve uma redução associada no nível de compostos de lignina G. (Ralph, J. et al. (1998) NMR characterization of altered lignins extracted from tobacco plants down-regulated for lignification enzymes cinnamylalcohol dehydrogenase and cinnamoyl-CoA reductase, Proc. Natl. Acad. Sci USA, 95, pp. 12803-8). Identificação computacional de genes e transcrições
[053] Notadamente, determinamos as sequências das enzimas de juta envolvidas na biossíntese de lignina. A via de biossíntese de lignina foi bem caracterizada e cada enzima é codificada por uma família de gene na maioria das espécies de planta. Um total de 106 sequências de genes de A. thaliana e P. trichocarpa foi recuperado a partir de NCBI e de base de dados de genoma de P. trichocarpa (http://genome.jgi-psfz.org/Poptr1_1/). (Goujon et al., 2003; Shi et al., 2010). Genes da biossíntese de monolignol de juta foram identificados a partir de modelos de genes da montagem de genoma do Corchorus olitorius e de dados de transcriptoma de C. olitorius e C. capsularis usando o programa BLASTN com o e-valor de corte a 1e-20. (Altschul, S.F., et al. (1990) Basic local alignment search tool, J Mol Biol, 215, pp. 403-410). Os contigs de gDNA resultante foram submetidos à previsão de modelo de gene usando o software AUGUSTUS. (Stanke, M. et al. (2004) AUGUSTUS: a web server for gene finding in eukaryotes, Nucleic Acids Research, 32, W309-W312). Os modelos de gene e os isotigs a partir dos dados de transcriptoma de C. olitorius e C. capsularis foram verificados contra a base de dados de NCBL nr (não redundante) para confirmação adicional. Para C.
olitorius, os isotigs foram mapeados nos modelos de gene previstos usando GMAP (com um valor de corte de 95%). (Wu, T.D. and Watanabe, C.K. (2005) GMAP: a genomic mapping and alignment program for mRNA and EST sequences, Bioinformatics, 21, pp. 1859-1875).
[054] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio dos genes ColCAD com outras proteínas CAD disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado nas Figuras 2a e 2b. O que vem a seguir é uma lista de proteínas alinhadas com as proteínas ColCAD putativas, com os Números de Acesso ao Banco de Genes em parênteses: PtcCADL4 (proteína tipo cinamil álcool dehidrogenase de Populus tricocarpa, CADL4, gi224138226); RcoCAD (álcool dehidrogenase de Ricinus communis, putativo, gi25558709); FraCAD (Fragaria x ananassa, dehidrogenase cinamil álcool, gi13507210) (Chandler et al. (2002) Cloning, expression and immunolocalization pattern of a cinnamyl alcohol dehydrogenase gene from strawberry (Fragaria x ananassa), J. Exp. Bot., 53 (375), pp.1723-1734); GhiCAD5 (Gossypium hirsatum, cinamil álcool dehidrogenase 5, gi268528129); PtcCAD (Populus tricocarpa, gi183585165) ((2010) Towards a systems approach for lignin biosynthesis in Populus trichocarpa: transcript abundance and specificity of the monolignol biosynthetic genes, Plant Cell Physiol., 51 (1), pp. 144-163); GhiCAD3 (Gossypium hirsatum, gi229368450) (Genes of phenylpropanoid pathway cloning and expression in developing cotton fibre); and GhiCAD (Gossypium hirsatum, gi166865124) ((2009) Molecular and biochemical evidence for phenylpropanoid synthesis and presence of wall-linked phenolics in cotton fibers, J Integr Plant Biol, 51 (7), pp. 626-637).
[055] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio dos genes ColCCoAOMT com outras proteínas CCoAOMT disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 3. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColCCoAOMT putativas, com os Números de Acesso ao Banco de Genes em parênteses: PtrCCoAOMT (Populus tremuloides, gi3023436); GhiCCoAOMT2 (Gossypium hirsatum, gi229368460); e GhiCCoAOMT1 (Gossypium hirsatum, gi253509567).
[056] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes Col4CL com outras proteínas 4CL disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 4. O que vem a seguir é uma lista de proteínas alinhadas com as proteínas Col4CL putativas, com os Números de Acesso ao Banco de Genes em parênteses: Ccap4CL1 (Corchorus capsularis, gi294514718); Rco4CL (Ricinus communis, gi255565415); e Ptc4CL (Populus tricocarpa, gi224074401).
[057] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes Col6HCT com outras proteínas Col6HCT disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 5. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas Col6HCT putativas, com os Números de Acesso ao Banco de Genes em parênteses: (Cynara cardunculus, gi:73671233) ((2007) Isolation and functional characterization of a cDNA coding a hydroxycinnamoyltransferase involved in phenylpropanoid biosynthesis in Cynara cardunculus, BMC Plant Biol. 7, 14); e PtcHCT (Poplus tricocarpa, gi183585181).
[058] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColC3H com outras proteínas C3H disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 6. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColC3H putativas, com os Números de Acesso ao Banco de Genes em parênteses: EglC3H (Eucalyptus globulus, gi:295413824); PtcC3H (Poplus tricocarpa, gi:224139664); e PalxPgrC3H (Poplus alba X Populus grandidentata, gi166209291).
[059] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColC4H com outras proteínas C4H disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 7. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColC4H putativas, com os Números de Acesso ao Banco de Genes em parênteses: GarC4H (Gossypium arborium, gi9965897) and GarC4H (Gossypium arborium, gi9965899).
[060] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColPAL com outras proteínas PAL na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 8. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColPAL, com os Números de Acesso ao Banco de Genes em parênteses: JcoPAL (Jatropha curcas, gi113203757) e PtrPAL (Populus trichocarpa, gi:183585195).
[061] Um alinhamento de sequência de aminoácido de proteínas putativas condificadas por meio de genes ColCCR2 com outras proteínas CCR disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 9. O que vem a seguir é uma lista de proteínas alinhadas com as proteínas ColCCR2 putativas, com os Números de Acesso ao Banco de Genes em parênteses: AthCCR (Arabidopsis thaliana, gi:15237678); CofCCR (Camellia oleifera gi228480464); e AlyCCR (Arabidopsis lyrata, gi:297793385).
[062] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColCCR3 com outras proteínas CCR disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 10. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColCCR3 putativas, com os Números de Acesso ao Banco de Genes em parênteses: RcoCCR (Ricinus communis, gi:255556687) e AthCCR (Arabidopsis thaliana, gi:15226955).
[063] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColF5H com outras proteínas F5H disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 11. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColF5H putativas, com os Números de Acesso ao Banco de Genes em parênteses: EngF5H (Eucalyptus globules, gi:255556687) e PtcF5H (Poplus tricocarpa, gi:6688937).
[064] Um alinhamento de sequência de aminoácido de proteínas putativas codificadas por meio de genes ColCOMT com outras proteínas COMT disponíveis na base de dados NCBI, usando o programa CLUSTAL W, é mostrado na Figura 12. O que vem a seguir é uma lista das proteínas alinhadas com as proteínas ColCOMT putativas, com os Números de Acesso ao Banco de Genes em parênteses: GhiCOMT (Gossypium hirsutum, gi:253509569) e EcaCOMT (Eucalyptus camaldulensis, gi:262474806). Análise de motivo das regiões promotoras
[065] Para cada um dos modelos de gene previstos, ambas as cadeias das regiões a montante de 2000 bp foram extraídas e pesquisadas para sequências de motivo cis contra a base de dados PlantCARE (http://bioinformatics.psb.ugent.be/webtools/plantcare/html /) (Lescot, M., et al. (2002) PlantCARE, a database of plant cis-acting regulatory elements and a portal to tools for in silico analysis of promoter sequences, Nucleic Acids Res, 30, pp. 325-327). Se qualquer porção das sequências selecionadas for encontrada como sendo sobreposta com um gene próximo, aquela parte da região a montante foi excluída da análise adicional. Uma lista de motivos importantes foi compilada, os quais são conhecidos por estarem envolvidos na resposta a vários processos de desenvolvimento e estresse (Tabela 1).
Tabela 1: Lista de motivos encontrados na região promotora de genes biossintéticos de monolignol de juta
[066] Polinucleotídeos da presente invenção foram isolados por meio de sequenciamento de alto rendimento de bibliotecas de cDNA compreendendo tecido vegetal de juta coletado a partir de Corchorus olitorius L. Alguns dos polinucleotídeos da presente invenção podem ser sequências parciais, nas quais elas não representa um gene de longo comprimento codificando um polipeptídeo de longo comprimento. Tais sequências parciais podem ser estendidas ao se analisar e sequenciar várias bibliotecas de DNA usando iniciadores e/ou amostras e técnicas bem conhecidas de hibridização e/ou PCR. Sequências parciais podem ser estendidas até que uma estrutura aberta de leitura codificando um polipeptídeo, um polinucleotídeo de longo comprimento, um gene capaz de expressar um polipeptídeo ou outra porção útil do genoma seja identificada.
[067] Identificação de DNA genômico e de DNA de espécies heterólogas pode ser realizada por meio de técnicas padrão de hibridização de DNA/DNA, mediante condições rigorosas, usando toda ou parte de uma sequência de polinucleotídeo como uma amostra para rastrear uma biblioteca adequada. Alternativamente, técnicas PCR usando iniciadores de oligonucleotídeo, os quais são projetados com base no DNA genômico conhecido, cDNA ou sequências de proteína, podem ser usadas para amplificar e identificar sequências genômicas e de cDNA.
[068] Polipeptídeos da presente invenção podem ser produzidos ao se inserir uma sequência de polinucleotídeo da presente invenção codificando o polipeptídeo desejado num vetor de expressão e expressando o polipeptídeo num hospedeiro apropriado. Qualquer um dentre a variedade de vetores de expressão conhecidos por pessoas versadas na técnica pode ser empregado. Expressão pode ser alcançada em qualquer célula hospedeira apropriada que tenha sido transformada ou transfectada com um vetor de expressão contendo uma molécula de polinucleotídeo que codifica um polipeptídeo recombinante. Células hospedeiras adequadas incluem procariontes, levedura e células altamente eucarióticas.
[069] Polipeptídeos que compreendem as vias biossintéticas de lignina purificadas a partir de juta ou produzidas por métodos recombinantes podem ser usados para gerar anticorpos monoclonais, fragmentos de anticorpo ou derivados conforme definidos aqui, de acordo com métodos conhecidos. Anticorpos que reconhecem e ligam fragmentos dos polipeptídeos que compreendem as vias biossintéticas de lignina da invenção também são contempladas, contanto que os anticorpos sejam específicos para polipeptídeos que compreendem a via biossintética de lignina.
[070] Os construtos genéticos da presente invenção também podem conter um marcador de seleção que é eficaz em células vegetais, a fim de permitir a detecção de células transformadas contendo o construto inventivo. Tais marcadores, os quais são bem conhecidos na técnica, normalmente conferem resistência a uma ou mais toxinas ou sinais ou criam sinais visuais para sua presença mediante microscópio fluorescente. Alternativamente, a presença do construto desejado em células transformadas pode ser determinada por meio de outras técnicas bem conhecidas na arte, tais como manchas Southern e Western. O construto genético da presente invenção pode ser unido a um vetor tendo pelo menos um sistema de replicação, por exemplo, E. coli ou levedura (Saccharomyces cerevisiae), considerando que após cada manipulação a construção resultante pode ser clonada e sequenciada.
[071] Os construtos genéticos da presente invenção podem ser usados para transformar uma variedade de plantas, tais como monocotiledôneas (por exemplo, arroz) e dicotiledôneas (por exemplo, juta, Arabidopsis). Numa modalidade preferencial, os construtos genéticos da invenção são empregados para transformar juta. Conforme discutido acima, transformação de uma planta com um construto genético da presente invenção pode ser usada para produzir conteúdo de lignina modificada na planta.
[072] Técnicas para incorporar estavelmente construtos genéticos no genoma de plantas alvo são bem conhecidas na técnica e incluem introdução mediada de Agrobacterium tumefaciens, eletroporação, injeção em tecido meristático ou órgãos reprodutivos, injeção em embriões imaturos e semelhantes. A escolha da técnica dependerá da planta alvo/tecido/hospedeiro a ser transformado.
[073] O termo “planta” inclui todas as plantas, órgãos vegetais de ramo/estruturas (por exemplo, folhas, pedúnculos e tubérculos), raízes, flores e órgãos florais/estruturas (por exemplo, brácteas, sépalas, pétalas, estames, carpelos, anteras e óvulos), semente (incluindo revestimento de embrião, endosperma e de semente) e fruto (o ovário maduro), tecido vegetal (por exemplo, tecido vascular, tecido de solo e semelhantes) e células (por exemplo, células guarda, células ovo, tricomas e semelhantes) e descendência dos mesmos. A classe de plantas que pode ser usada no método da invenção é, geralmente, tão amplo quanto a classe de plantas maiores e menores submissas às técnicas de transformação, incluindo angiospermas (plantas monocotiledôneas e dicotiledôneas), gimnospermas, samambaias, briófitas e alga multicelular. Isso inclui plantas de uma variedade de níveis de ploidia, incluindo aneuploidia, poliploidia, diploidia, haploidia e homozigotos.
[074] Géis DNA de reações PCR usando iniciadores forward e reverse para várias enzimas de juta são mostrados nas Figuras 13-17. Na Figura 13 o gel DNA é de CAD2 a partir de Corchorus olitorius. Pista 1 é o produto PCR de CAD2 usando cDNA como um modelo. O iniciador forward e reverse são SEQ ID No. 53 e 54, respectivamente. Pista 2 é o 1 Kb + progressão. Na Figura 14 o DNA gel é de CCoAOMT1 de Corchorus olitorius. Pista 1 é o 1 Kb + progressão e pista 2 é o produto PCR de CCoAOMT1 usando cDNA como um modelo. O iniciador forward e iniciador reverse são SEQ ID No. 55 e 56, respectivamente. Na Figura 15 o DNA gel de 4CL1 a partir de Corchorus olitorius. Pista 1 é o 1 Kb + progressão e pista 2 é o produto PCR de 4CL1 usando cDNA como um modelo. O iniciador forward e iniciador reverse são SEQ ID No. 57 e 58, respectivamente. Na Figura 16 o DNA gel é de CCR3 a partir de Corchorus olitorius. Pista 1 é o 1 Kb + progressão e pista 2 é o produto PCR de CCR3 usando cDNA como um modelo. O iniciador forward e iniciador reverse são SEQ ID No. 59 e 60, respectivamente. Na Figura 17, o gel DNA é de F5H a partir de Corchorus olitorius. Pista 1 é o 1 Kb + progressão e pista 2 é o produto PCR de F5H usando cDNA como um modelo. O iniciador forward e iniciador reverse são SEQ ID No. 61 e 62, respectivamente. Definições
[075] Uma célula foi “transformada” ou “transfectada” por DNA exógeno ou heterólogo quando tal DNA foi introduzido dentro da célula. O DNA transformante pode não pode ser integrado (ligado de modo covalente) no genoma da célula. Em células procariontes, de levedura e de mamíferos, por exemplo, o DNA transformante pode ser mantido num elemento episomal, tal como um plasmídeo. Com respeito às células eucarióticas, uma célula transformada de modo estável é uma na qual o DNA transformante se tornou integrado a um cromossomo, de modo que é herdado por células filhas através de replicação de cromossomo. A prática da presente invenção contempla uma ampla variedade de células vegetais transformadas de modo estável.
[076] Um “cassete de expressão” se refere a um construto de ácido nucleico, o qual, quando introduzido numa célula hospedeira, resulta em transcrição e/ou tradução de um RNA e/ou polipeptídeo, respectivamente. O cassete de expressão pode incluir um ácido nucleico compreende uma sequência promotora, com ou sem uma sequência contendo sinais de poliadenilação de mRNA, e um ou mais locais de enzima de restrição localizadas a jusante a partir do promotor permitindo inserção de sequências de genes heterólogos. O cassete de expressão é capaz de direcionar a expressão de uma proteína heteróloga quando o gene que codifica a proteína heteróloga é ligado de modo operável ao promotor por meio de inserção dentro de um dos locais de restrição. O cassete de expressão recombinante permite expressão da proteína heteróloga numa célula hospedeira quando o cassete de expressão contendo a proteína heteróloga é introduzido na célula hospedeira. Cassetes de expressão podem ser derivados a partir de uma variedade de fontes dependendo da célula hospedeira a ser usada para expressão. Por exemplo, um cassete de expressão pode conter componentes derivados a partir de uma fonte viral, bacteriana, de inseto, vegetal ou de mamífero. No caso de ambas as expressões de transgene e inibição de genes endógenos (por exemplo, por antisenso ou supressão de senso), a sequência de polinucleotídeo inserida não precisa ser idêntica e pode ser “substancialmente idêntica” a uma sequência do gene a partir do qual é derivada. Preferencialmente, o cassete de expressão recombinante permite expressão num estágio precoce de infecção e/ou permite expressão substancialmente em todas as células de um organismo, tal como uma planta. Exemplos de cassetes de expressão adequados para transformação de plantas podem ser encontrados nas Patentes dos EUA Nos. 5.880.333 e
6.002.072; International Patent Publications Nos. WO/1990/002189 and WO/2000/026388; Ainley and Key (1990) Plant Mol. Biol., 14, pp. 949-967; and Birch (1997) Annu. Rev. Plant Physiol. Plant Mol. Biol., 48, pp. 297-326, todas as quais são incorporadas aqui por meio de referência.
[077] O termo “célula hospedeira” se refere a uma célula a partir de qualquer organismo. Células hospedeiras preferenciais são derivadas a partir de plantas, bactérias, leveduras, fungos, insetos ou de outros animais. O termo “célula hospedeira recombinante” (ou, simplesmente “célula hospedeira”) se refere a uma célula dentro da qual vetor de expressão recombinante foi introduzido. Deve-se entender que o termo “célula hospedeira” se destina a referir-se não apenas à célula de indivíduo particular, mas à descendência de tal célula. Pelo fato de que certas modificações podem ocorrer em gerações subsequentes devido ou à mutação ou às influências ambientais, tal descendência não pode, de fato, ser idêntica à célula parente, mas ainda estão inclusas dentro do escopo do termo “célula hospedeira”, conforme usado aqui. Métodos para introduzir sequências de polinucleotídeo em vários tipos de células hospedeiras são bem conhecidos na técnica. São providas células hospedeiras ou descendência de células hospedeiras transformadas com os cassetes de expressão recombinante da presente invenção. As células hospedeiras podem ser células vegetais. Preferencialmente, as células vegetais são células de juta.
[078] O termo “ligada de modo operável” ou “inserida de modo operável” significa que as sequências regulatórias necessárias para expressão da sequência que codifica são colocadas numa molécula de ácido nucleico nas posições apropriadas relativas à sequência que codifica, de modo a permitir expressão da sequência que codifica. Essa mesma definição é, às vezes, aplicada ao arranjo de outros elementos de controle de transcrição (por exemplo, potencializadores) num cassete de expressão. Sequências de controle de transcrição e tradução são sequências reguladoras de DNA, tais como promotores, potencializadores, sinais de poliadenilação, terminadores e semelhantes, os quais provêm para a expressão de uma sequência que codifica numa célula hospedeira.
[079] Os termos “promotor”, “região de promotor” ou “sequência de promotor” geralmente se referem a regiões reguladoras de transcrição de um gene, as quais podem ser encontradas no lado 5’ ou 3’ da região que codifica, ou dentro da região que codifica, ou dentro de íntrons. Normalmente um promotor é uma região reguladora de DNA capaz de ligar polimerase de RNA numa célula e de iniciar transcrição de uma sequência que codifica a jusante (direção 3’). A típica sequência de promotor 5’ é ligada ao seu terminal 3’ por meio de local de iniciação de transcrição e estende a montante (direção 5’) para incluir o número mínimo de bases ou de elementos necessários para iniciar transcrição a níveis detectáveis acima do conhecido. Dentro da sequência promotora estão um local de iniciação de transcrição (convenientemente definido por mapeamento com nuclease S1), assim como domínios de ligação de proteína (sequências consenso) responsáveis pela ligação de polimerase RNA.
[080] O termo “construto ácido nucleico” ou “construto DNA” é, às vezes, usado para se referir a uma sequência que codifica ou sequências ligadas de modo operável a sequências reguladoras apropriadas e inseridas num cassete de expressão para transformar uma célula. Esse termo pode ser usado de modo intercambiável com o termo “DNA transformador” ou “transgene”. Tal construto de ácido nucleico pode conter uma sequência que codifica para um produto de gene de interesse, juntamente com um gene marcador selecionável e/ou um gene repórter. O termo “gene de marcador selecionável” se refere a um gene que codifica um produto que, quando expresso, confere um fenótipo selecionável, tal como resistência antibiótica numa célula transformada. O termo “gene repórter” se refere a um gene que codifica um produto que é facilmente detectável por métodos padrão, direta ou indiretamente.
[081] Uma região “heteróloga” de um construto de ácido nucleico é um segmento identificável (ou segmentos) da molécula de ácido nucleico dentro de uma molécula mais larga que não é encontrada em associação com a molécula mais larga na natureza. Quando a região heteróloga codifica um gene vegetal, o gene será, normalmente, ladeado por DNA que não ladeia o DNA genômico vegetal no genoma do organismo fonte. Noutro exemplo, uma região heteróloga é um construto onde a própria sequência que codifica não é encontrada na natureza (por exemplo, um cDNA onde a sequência genômica que codifica contém íntrons, ou sequências sintéticas tendo códons diferentes do gene nativo). Variações alélicas ou eventos mutacionais que ocorrem naturalmente não dão origem a uma região heteróloga de DNA, conforme definido no presente documento. O termo “construto de DNA” também é usado para se referir a uma região heteróloga, particularmente uma construída para uso na transformação de uma célula.
[082] O termo “vetor” se destina a referir-se a uma molécula de ácido nucleico capaz de transportar outro ácido nucleico ao qual ele se ligou. Um tipo de vetor é um “plasmídeo”, o qual se refere a um arco de DNA duplamente ramificado e circular, ao qual segmentos adicionais de DNA podem ser ligados. Outro tipo de vetor é um vetor viral, onde segmentos adicionais de DNA podem ser ligados ao genoma viral. Certos vetores são capazes de replicar autonomamente numa célula hospedeira, dentro da qual são introduzidos (por exemplo, vetores bacterianos com uma origem bacteriana de replicação e vetores de mamíferos episomais). Outros vetores podem ser integrados ao genoma de uma célula hospedeira mediante introdução na célula hospedeira e, assim, são replicadas juntamente com o genoma hospedeiro. Além disso, certos vetores são capazes de direcionar a expressão de genes aos quais eles são ligados operativamente. Tais vetores são referidos no presente documento como “vetores de expressão recombinantes” (ou simplesmente “vetores de expressão”). No geral, vetores de expressão de utilidade em técnicas de DNA recombinante são frequentemente na forma de plasmídeos. Na presente especificação, “plasmídeo” e “vetor” podem ser usados de maneira intercambiável, visto que o plasmídeo é a forma mais comumente usada de vetor. No entanto, a invenção é destinada a incluir as referidas outras formas de vetores de expressão, tais como vetores virais (por exemplo, retrovírus defectivo de replicação, adenovírus e adenovírus associados), os quais servem funções equivalentes.
[083] “Percentagem de identidade de sequência” é determinada por comparação de duas sequências alinhadas de modo ideal sobre uma janela de comparação, onde a porção da sequência de polinucleotídeo na janela de comparação pode compreender adições e deleções (isto é, lacunas) quando comparada à sequência de referência (a qual não compreende adições ou deleções) para alinhamento ideal das duas sequências. A percentagem é calculada por determinação do número de posições nas quais a base idêntica de ácido nucleico ou resíduos de aminoácido ocorre em ambas as sequências para render o número de posições correspondentes, dividindo o número de posições correspondentes pelo número total de posições na janela de comparação e multiplicando o resultado por 100 para render a percentagem de identidade de sequência.
[084] O termo “identidade substancial” de sequências de polinucleotídeo significa que um polinucleotídeo compreende uma sequência que tem pelo menos 25% de identidade de sequência à sequência de referência, conforme determinado usando os programas descritos no presente documento: preferencialmente BLAST, usando parâmetros padrão, conforme descrito. Alternativamente identidade percentual pode ser qualquer número inteiro a partir de 25% a 100%. Modalidades mais preferenciais incluem sequências de polinucleotídeo que têm, pelo menos: 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% de identidade de sequência comparados a uma sequência de referência. Esses valores podem ser apropriadamente ajustados para determinar identidade correspondente de proteínas codificadas por duas sequências de nucleotídeo ao levar em conta degeneração de códon, similaridade de aminoácido, posicionamento de estrutura de leitura e semelhantes.
[085] O termo “identidade substancial” de sequências de aminoácido (e de polipeptídeos tendo essas sequências de aminoácido) normalmente significa identidade de pelo menos 40%, comparada a uma sequência de referência como determinada usada os programas descritos no presente documento; preferencialmente BLAST usando parâmetros padrão, conforme descrito. Identidade percentual preferencial de aminoácidos pode ser qualquer número inteiro a partir de 40% a 100%. Modalidades mais preferenciais incluem sequências de aminoácidos que têm pelo menos 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% de identidade de sequência comparada a uma sequência de referência. Polipeptídeos que são “substancialmente idênticos” compartilham sequências de aminoácido conforme notado acima, exceto aquelas posições de resíduo que não são idênticas podem diferenciar por meio de alterações conservativas de aminoácido. Substituições conservativas de aminoácido se referem à intercambialidade de resíduos tendo cadeias laterais similares. Por exemplo, um grupo de aminoácidos tendo cadeias laterais alifáticas é glicina, alanina, valina, leucina e isoleucina; um grupo de aminoácidos tendo cadeias laterais alifáticas hidroxil é serina e treonina; um grupo de aminoácidos tendo cadeias laterais contendo amido é asparagina e glutamina; um grupo de aminoácidos tendo cadeias laterais aromáticas é fenilalanina, tirosina e triptofan; um grupo de aminoácidos tendo cadeias laterais básicas é lisina, arginina e histidina; e um grupo de aminoácidos tendo cadeias laterais contendo sulfura é cisteína e metionina. Grupos preferenciais de substituição conservativa de aminoácidos são: valina-leucina-isoleucina, fenilalanina-tirosina, lisina-arginina, alanina-valina, ácido aspártico-ácido glutâmico e asparagina-glutamina.
INCORPORAÇÃO POR REFERÊNCIA
[086] Todas as patentes dos EUAS, pedidos de patentes dos EUA publicados e pedidos PCT publicados que designam a patente dos EUA citada no presente documento são incorporadas ao relatório por meio de referência.
EQUIVALENTES
[087] Enquanto várias modalidades da presente invenção foram descritas e ilustradas no presente relatório, aquelas pessoas versadas na técnica visualizarão rapidamente uma variedade de outros meios e/ou estruturas para realizar as funções e/ou obter os resultados e/ou uma ou mais vantagens descritas aqui, e cada uma dentre tais variações e/ou modificações é considerada como estando dentro do escopo da presente invenção. Pessoas versadas na técnica reconhecerão ou serão hábeis a determinar usando não mais do que experimento de rotina, vários equivalentes em relação às modalidades específicas da invenção descrita aqui. Portanto, deve-se entender que as modalidades mencionadas acima são apresentadas apenas a título de exemplo e que, dentro do escopo das reivindicações anexas e dos seus equivalentes; a invenção pode ser praticada diferentemente daquilo descrito especificamente e reivindicado.