BR102014027466B1 - Molécula de ácido nucleico recombinante, método para produzir uma célula vegetal transgênica e usos de uma planta de soja, parte de planta de soja ou célula de planta de soja transgênica - Google Patents

Molécula de ácido nucleico recombinante, método para produzir uma célula vegetal transgênica e usos de uma planta de soja, parte de planta de soja ou célula de planta de soja transgênica Download PDF

Info

Publication number
BR102014027466B1
BR102014027466B1 BR102014027466-9A BR102014027466A BR102014027466B1 BR 102014027466 B1 BR102014027466 B1 BR 102014027466B1 BR 102014027466 A BR102014027466 A BR 102014027466A BR 102014027466 B1 BR102014027466 B1 BR 102014027466B1
Authority
BR
Brazil
Prior art keywords
seq
soy
ogl
soybean
sequence
Prior art date
Application number
BR102014027466-9A
Other languages
English (en)
Other versions
BR102014027466A8 (pt
BR102014027466A2 (pt
Inventor
Lakshmi Sastry-Dent
Zehui Cao
Shreedharan Sriram
Steven R. Webb
Debra L. Camper
W. Michael AINLEY
Original Assignee
Dow Agrosciences Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dow Agrosciences Llc filed Critical Dow Agrosciences Llc
Publication of BR102014027466A2 publication Critical patent/BR102014027466A2/pt
Publication of BR102014027466A8 publication Critical patent/BR102014027466A8/pt
Publication of BR102014027466B1 publication Critical patent/BR102014027466B1/pt

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H5/00Angiosperms, i.e. flowering plants, characterised by their plant parts; Angiosperms characterised otherwise than by their botanic taxonomy
    • A01H5/10Seeds
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8201Methods for introducing genetic material into plant cells, e.g. DNA, RNA, stable or transient incorporation, tissue culture methods adapted for transformation
    • C12N15/8213Targeted insertion of genes into the plant genome by homologous recombination
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H6/00Angiosperms, i.e. flowering plants, characterised by their botanic taxonomy
    • A01H6/54Leguminosae or Fabaceae, e.g. soybean, alfalfa or peanut
    • A01H6/542Glycine max [soybean]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8242Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits
    • C12N15/8243Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits involving biosynthetic or metabolic pathways, i.e. metabolic engineering, e.g. nicotine, caffeine
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8271Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance
    • C12N15/8273Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance for drought, cold, salt resistance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8271Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance
    • C12N15/8274Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance for herbicide resistance
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • C12N15/8271Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance
    • C12N15/8279Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance for biotic stress resistance, pathogen resistance, disease resistance
    • C12N15/8286Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance for biotic stress resistance, pathogen resistance, disease resistance for insect resistance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/146Genetically Modified [GMO] plants, e.g. transgenic plants

Abstract

SEQUÊNCIA RECOMBINANTE E MÉTODO DE FABRICAÇÃO DE UMA CÉLULA DE PLANTA TRANSGÊNICA COMPREENDENDO UM DNA DE INTERESSE. A presente invenção refere-se a loci genômicos nativos ideias de plantas de soja identificados que representam os melhores locais para inserção direcionada de sequências exógenas.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[001] O presente pedido reivindica o benefício, sob 35 U.S.C. § 119(e), para o Pedido de Patente Provisório U.S. No. 61/899.602, depositado em 4 de novembro de 2013, cujos conteúdos são incorporados a título de referência em sua totalidade ao presente pedido.
REFERÊNCIA À LISTAGEM DE SEQUÊNCIA ELETRONICAMENTE APRESENTADA
[002] A cópia oficial da listagem de sequência é eletronicamente apresentada através de EFS-Web como uma listagem de sequência formatada ASCII com um nome de depósito “232324seqlist.txt”, criada em 31 de outubro de 2014 e tendo um tamanho de 13,8 megabytes e é depositada concomitantemente com o relatório. A listagem de sequência contida neste documento formatado ASCII é parte do relatório e é aqui incorporada a título de referência em sua totalidade.
REFERÊNCIA À LISTAGEM DE TABELA ELETRONICAMENTE APRESENTADA
[003] A cópia oficinal da listagem de tabela é apresentada eletronicamente através de EFS-Web como uma listagem de tabela formatada em PDF com um arquivo nomeado “Tabela 3” criado em 04 de novembro de 2013, e tendo um tamanho de 12 megabytes e é depositado concomitantemente com o relatório. A listagem de tabela contida neste documento formatado em. PDF é parte do relatório e é aqui incorporada a título de referência em sua totalidade.
ANTECEDENTES
[004] O genoma de vários tipos de plantas dicotiledôneas, por exemplo, plantas de soja, foi transformado com sucesso com transgene no início dos anos 90. Durante os últimos vinte anos, várias metodologias foram desenvolvidas para transformação do genoma de plantas dicotiledôneas, tal como soja, onde um transgene é estavelmente integrado no genoma de plantas dicotiledôneas. Esta evolução de metodologias de transformação de dicotiledônea resultou na capacidade de introduzir com sucesso um transgene compreendendo uma característica agronômica no genoma de plantas dicotiledôneas, tal como soja. A introdução de características de resistência a inseto e tolerantes a herbicida em plantas dicotiledôneas no fim dos anos 90 proveu os produtores com uma inovação tecnológica e conveniente para controle de insetos e um amplo espectro de ervas daninhas, que era incomparável em métodos de cultivo agrícola. Atualmente, plantas dicotiledôneas transgênicas estão comercialmente disponíveis em todo o mundo, e novos produtos transgênicos tal como Enlist® Soybean oferecem soluções aperfeiçoadas para desafios de erva daninha sempre em crescimento. A utilização de plantas dicotiledôneas transgênicas em práticas agronômicas modernas não seria possível, exceto com desenvolvimento e aperfeiçoamento de metodologias de transformação.
[005] No entanto, metodologias de transformação atuais se baseiam na inserção aleatória de transgenes no genoma de plantas dicotiledôneas, tal como soja. Dependência em inserção aleatória de genes em um genoma tem várias desvantagens. Os eventos transgênicos podem integrar aleatoriamente dentro das sequências transcricionais do genoma, desta maneira interrompendo a expressão de características endógenas e alterando o crescimento e desenvolvimento da planta. Ainda, os eventos transgênicos podem integrar indiscriminadamente em locais do genoma que são suscetíveis a silenciamento de gene, culminando na inibição reduzida ou completa de expressão de transgene na primeira ou subsequentes gerações de plantas transgênicas. Finalmente, a integração aleatória de transgenes dentro do genoma da planta requer esforço e custo consideráveis na identificação da localização do evento transgênico e seleção de eventos transgênicos que têm desempenho conforme projetado sem impacto genômico para a planta. Novos ensaios devem ser continuamente desenvolvidos para determinar a localização precisa do transgene integrado para cada evento transgênico, tal como um evento transgênico de soja. A natureza aleatória de metodologias de transformação de planta resulta em um “efeito de posição” do transgene integrado, que impede a eficácia e a eficiência de metodologias de transformação.
[006] Modificação de genoma direcionada de plantas tem sido um objetivo de longa data e elusivo de pesquisas aplicada e básica. Genesalvo e pilhas de gene para locais específicos no genoma de plantas dicotiledôneas, tais como plantas de soja, aperfeiçoarão a qualidade de eventos transgênicos, reduzirão custos associados com produção de eventos transgênicos e proverão novos métodos para fabricação de produtos transgênicos tal como empilhamento de gene essencial. No geral, direcionamento de transgenes para sítios genômicos específicos é provável ser comercialmente benéfico. Avanços significantes foram feitos nos últimos anos com relação ao desenvolvimento de métodos e composições para se direcionar a clivar DNA genômico através de nucleases específicas de sítio (por exemplo, Nuclease Dedo de Zinco (ZFNs) (Zinc Finger Nucleases), Meganucleases, Nucleases Efetoras Tipo Ativador de Transcrição (TALENS) (Transcription Activator-Like Effector Nucleases) e nuclease associada a Repetições Palindrômicas Curtas Regularmente Interespaçadas Agrupadas/CRISP (CRISP/Cas) (Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR- associated nuclease) com um crRNA/tracr RNA engenheirado), para induzir mutagênese-alvo, induzir deleções-alvo de sequências de DNA celular e facilitar recombinação-alvo de um polinucleotídeo de DNA doador exógeno dentro de um locus genômico predeterminado. Vide, por exemplo, Publicações de Patente U.S. Nos.
[007] 20030232410; 20050208489; 20050026157; 20050064474; e 20060188987 e Publicação de Patente Internacional No. WO 2007/014275, cujas descrições são aqui incorporadas a título de referência em suas totalidades para todos os propósitos. A Publicação de Patente U.S. No. 20080182332 descreve uso de nucleases dedo de zinco não canônicas (ZFNs) para modificação direcionada de genomas de planta e a Publicação U.S. 20090205083 descreve modificação direcionada mediada por ZFN de um locus genômico de EPSPs de planta. Métodos atuais para inserção direcionada de DNA exógeno envolvem tipicamente cotransformação de tecido de planta com um polinucleotídeo de DNA doador contendo pelo menos um transgene e uma nuclease específica de sítio (por exemplo, ZFN) que é projetada para se ligar e clivar um locus genômico específico de uma sequência de codificação ativamente transcrita. Isso faz com que o polinucleotídeo de DNA doador se insira estavelmente no locus genômico clivado resultando em adição de gene direcionada em um locus genômico específico compreendendo uma sequência de codificação ativamente transcrita.
[008] Uma abordagem alternativa é direcionar o transgene para loci não gênicos-alvo pré-selecionados dentro do genoma de plantas dicotiledôneas tal como soja. Nos últimos anos, várias tecnologias foram desenvolvidas e aplicadas a células de planta para a administração direcionada de um transgene dentro do genoma de plantas dicotiledôneas tal como soja. No entanto, muito menos é conhecido sobre os atributos de sítios genômicos que são adequados para direcionamento. Historicamente, genes não essenciais e sítios de integração de patógeno (viral) em genomas têm sido usados como loci para direcionamento. O número de tais sítios em genomas é bastante limitante e há então a necessidade de identificação e caracterização de loci genômicos ideais alvo que podem ser usados para direcionamento de sequências de polinucleotídeo doadoras. Em adição a ser condescendente a direcionamento, loci genômicos ideais são esperados ser sítios neutros que podem apoiar expressão de transgene e aplicações de reprodução. Existe uma necessidade de composições e métodos que definam critérios para identificar loci não gênicos ideais dentro do genoma de plantas dicotiledôneas, por exemplo, plantas de soja, para integração de transgene direcionada.
SUMÁRIO
[009] Em uma modalidade, a presente invenção refere-se a uma sequência recombinante compreendendo: uma sequência de ácido nucleico de pelo menos 1 Kb e tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_4625 (SEQ ID NO:76), soja_OGL_6362 (SEQ ID NO:440), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade, a inserção do DNA de interesse modifica a sequência original dos loci não gênicos através de alterações da sequência de loci não gênicos próximo do sítio de inserção incluindo, por exemplo, deleções, inversões, inserções e duplicações da sequência de loci não gênicos. Em um aspecto adicional, uma modalidade se refere a um DNA de interesse, onde o DNA de interesse é inserido na dita sequência não gênica. Em outro aspecto, uma modalidade compreende a sequência recombinante, onde um DNA de interesse é inserido próximo a um sítio-alvo de dedo de zinco. Em outro aspecto, uma modalidade compreende a sequência recombinante, onde um DNA de interesse é inserido em um sítio-alvo de dedo de zinco. Em outra modalidade, a sequência recombinante compreende um DNA de interesse inserido, o qual compreende ainda um domínio analítico. Em outra modalidade, a sequência recombinante compreende um DNA de interesse inserido que não codifica um peptídeo. Em uma modalidade adicional, a sequência recombinante compreende um DNA de interesse que codifica um peptídeo. Em ainda outra modalidade, a sequência recombinante compreende um DNA de interesse inserido que compreende ainda um cassete de expressão de gene. Em uma modalidade, o cassete de expressão de gene contém um gene compreendendo um gene de resistência a inseticida, gene de resistência a herbicida, gene de eficiência de uso de nitrogênio, gene de eficiência de uso de água, gene de qualidade nutricional, gene de ligação a DNA e gene marcador selecionável. Em uma modalidade adicional, a sequência recombinante compreende dois ou mais cassetes de expressão de gene. Em outra modalidade, a sequência recombinante compreende duas ou mais das ditas sequências não gênicas que estão localizadas no mesmo cromossomo. Em uma modalidade adicional, a sequência recombinante compreende o DNA de interesse e/ou a sequência não gênica que são modificados durante inserção do dito DNA de interesse na sequência genômica. Em outra modalidade, a presente invenção refere-se a uma planta de soja, parte de planta de soja ou célula de planta de soja compreendendo uma sequência recombinante.
[0010] Em uma modalidade adicional, a invenção refere-se a um método de fabricação de uma célula de planta transgênica compreendendo um DNA de interesse. Em outro aspecto da invenção, o método compreende seleção de um locus genômico de soja não gênico-alvo tendo pelo menos 90%, 95% ou 99% de identidade de sequência com um locus genômico de soja não gênico-alvo selecionado do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_4625 (SEQ ID NO:76), soja_OGL_6362 (SEQ ID NO:440), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48); seleção de uma nuclease específica de sítio que se liga especificamente ao e cliva o dito locus genômico de soja não gênico-alvo; introdução da dita nuclease específica de sítio em uma célula de planta de soja; introdução do DNA de interesse na célula de planta; inserção do DNA de interesse nos ditos loci genômicos de soja não gênicos-alvo; e seleção de células de planta transgênicas compreendendo o DNA de interesse direcionado ao dito locus não gênico. Em um aspecto adicional, uma modalidade se refere a um método de fabricação de uma célula de planta transgênica. Em outra modalidade, o DNA de interesse compreende um domínio analítico. Em uma modalidade, o DNA de interesse não codifica um peptídeo. Em ainda outra modalidade, o DNA de interesse codifica um peptídeo. Em uma modalidade adicional, o DNA de interesse compreende um cassete de expressão de gene compreendendo um transgene. Em outra modalidade, o DNA de interesse compreende dois ou mais cassetes de expressão de gene. Em uma modalidade subsequente, a nuclease específica de sítio é selecionada do grupo consistindo em uma nuclease dedo de zinco, uma nuclease CRISPR, uma TALEN, uma endonuclease de homing ou uma meganuclease. Em uma modalidade, o dito DNA de interesse é integrado ao dito locus não gênico através de um método de integração de reparo direcionado por homologia. Em outra modalidade, o dito DNA de interesse é integrado ao dito locus não gênico através de um método de integração de união de extremidade não homólogo. Em uma modalidade adicional, o método de produção de uma célula de planta transgênica provê dois ou mais do dito DNA de interesse que são inseridos em dois ou mais dos ditos loci genômicos de soja não gênicos- alvo. Em outra modalidade, o método de fabricação de uma célula de planta transgênica compreende dois ou mais dos ditos loci genômicos de soja não gênicos-alvo que estão localizados em um mesmo cromossomo. Em uma modalidade adicional, o método de fabricação de uma célula de planta transgênica compreende o DNA de interesse e/ou a sequência genômica que são modificados durante inserção do dito DNA de interesse na dita sequência não gênica.
[0011] De acordo com uma modalidade, um loci de polinucleotídeo de soja purificado é revelado aqui, onde a sequência purificada compreende uma sequência não gênica de pelo menos 1 Kb. Em uma modalidade a sequência não gênica é hipometilada, exemplifica evidência de recombinação e está localizada em localização próxima de uma região gênica de expressão no genoma de soja. Em uma modalidade, a sequência não gênica tem um comprimento variando de a partir de cerca de 1 Kb a cerca de 8,4 Kb. Em uma modalidade, o DNA de interesse compreende sequências de DNA exógenas, incluindo, por exemplo, sequências reguladoras, sítios de clivagem de restrição, regiões de codificação de RNA ou regiões de codificação de proteína. Em uma modalidade, o DNA de interesse compreende um cassete de expressão de gene compreendendo um ou mais transgenes. Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_4625 (SEQ ID NO:76), soja_OGL_6362 (SEQ ID NO:440), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade adicional, os loci genômicos de soja não gênicos purificados compreendem um DNA de interesse, onde o dito DNA de interesse é inserido na dita sequência não gênica. Em outro aspecto, uma modalidade compreende os loci genômicos de não gênicos purificados, onde o dito DNA de interesse é inserido próximo a um sítio- alvo de dedo de zinco. Em um aspecto diferente, uma modalidade compreende os loci genômicos de soja não gênicos purificados, onde o dito DNA de interesse é inserido entre um par de sítios-alvo de dedo de zinco. Em ainda outro aspecto, uma modalidade compreende os loci genômicos de soja não gênicos purificados, onde o dito DNA de interesse compreende um domínio analítico. Em outro aspecto, uma modalidade compreende os loci genômicos de soja não gênicos purificados, onde o dito DNA de interesse não codifica um peptídeo. Em um aspecto subsequente, uma modalidade compreende os loci genômicos de soja não gênicos purificados, onde o dito DNA de interesse codifica um peptídeo. Em uma modalidade, o cassete de expressão de gene contém um gene compreendendo um gene de resistência a inseticida, um gene de tolerância a herbicida, gene de eficiência de uso de nitrogênio, gene de eficiência de uso de água, gene de qualidade nutricional, gene de ligação de DNA e gene marcador selecionável. Em uma modalidade subsequente, a nuclease específica de sítio é selecionada do grupo consistindo em uma nuclease dedo de zinco, uma nuclease CRISPR, uma TALEN, uma endonuclease homing ou meganuclease. Em uma modalidade, o dito DNA de interesse é integrado à dita sequência não gênica através de um método de integração de reparo direcionado por homologia. Em outra modalidade, o dito DNA de interesse é integrado à dita sequência não gênica através de um método de integração de união de extremidade não homólogo. Em uma modalidade adicional, o DNA de interesse compreende dois ou mais cassetes de expressão de gene. Em uma modalidade adicional, loci genômicos de soja não gênicos purificados proveem dois ou mais do dito DNA de interesse que são inseridos em dois ou mais loci genômicos de soja não gênicos-alvo. Em outra modalidade, os loci genômicos de soja não gênicos purificados proveem dois ou mais dos ditos loci genômicos de soja não gênicos-alvo que estão localizados em um mesmo cromossomo. Em uma modalidade adicional, os loci genômicos de soja não gênicos purificados compreendem o DNA de interesse e/ou a sequência não gênica que são modificados durante inserção do dito DNA de interesse na sequência não gênica. Em outra modalidade, o DNA de interesse é inserido através de um reparo direcionado por homologia ou um mecanismo de reparo de união de extremidade não homólogo.
[0012] Em outra modalidade, a presente invenção provê uma planta compreendendo uma sequência recombinante, a dita sequência recombinante compreendendo: uma sequência de ácido nucleico tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica; e um DNA de interesse, onde o DNA de interesse é inserido na dita sequência não gênica. Em outra modalidade, a sequência não gênica é selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_4625 (SEQ ID NO:76), soja_OGL_6362 (SEQ ID NO:440), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade adicional, a planta compreende duas ou mais das ditas sequências recombinantes. Em um aspecto adicional, uma modalidade compreende a planta, onde as ditas sequências recombinantes estão localizadas no mesmo cromossomo. Em outro aspecto, uma modalidade compreende uma planta, onde o dito DNA de interesse é inserido próximo a um sítio-alvo de dedo de zinco. Em um aspecto subsequente, uma modalidade compreende a planta, onde o dito DNA de interesse é inserido entre um par de sítio-alvo de dedo de zinco. Em uma modalidade, o dito DNA de interesse compreende um domínio analítico. Em uma modalidade adicional, o dito DNA de interesse não codifica um peptídeo. Em ainda outra modalidade, o dito DNA de interesse codifica um peptídeo. Em uma modalidade subsequente, o dito DNA de interesse compreende um cassete de expressão de gene compreendendo um gene de resistência a inseticida, gene de tolerância a herbicida, gene de eficiência de uso de nitrogênio, gene de eficiência de uso de água, gene de qualidade nutricional, gene de ligação de DNA e gene marcador selecionável. Em outro aspecto, uma modalidade compreende a planta, onde o dito DNA de interesse e/ou dita sequência não gênica são modificados durante inserção do dito DNA de interesse na dita sequência não gênica.
[0013] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48).
[0014] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639) e soja_OGL_1434 (SEQ ID NO:137).
[0015] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566) e soja_OGL_310 (SEQ ID NO:4236).
[0016] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48).
[0017] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_1423 (SEQ ID NO:639), soja_OGL_1434 (SEQ ID NO:137), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566) e soja_OGL_310 (SEQ ID NO:4236).
[0018] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48).
[0019] Em outra modalidade, a sequência purificada compreende uma sequência não gênica tendo pelo menos 90%, 95% ou 99% de identidade de sequência com uma sequência não gênica selecionada do grupo consistindo em soja_OGL_4625 (SEQ ID NO:76), soja_OGL_6362 (SEQ ID NO:440) e soja_OGL_308 (SEQ ID NO:43). BREVE DESCRIÇÃO DOS DESENHOS
[0020] Fig. 1. Representa um gráfico tridimensional dos 7.018 loci genômicos selecionados agrupados em 32 grupos. Os grupos podem ser desenhados tridimensionalmente e distinguidos por cor ou outros indicadores. Cada grupo recebeu um identificador único para facilidade de visualização, onde todos os loci genômicos selecionados com o mesmo identificador pertencem ao mesmo grupo. Após o processo de agrupamento, um locus genômico de seleção representativo foi escolhido de cada grupo. Isso foi realizado escolhendo um locus genômico de seleção, dentro de cada grupo, que estava mais próximo do centroide deste grupo.
[0021] Fig. 2. Provê um desenho esquemático indicando a distribuição cromossômica dos loci genômicos ideais, selecionados por estarem mais próximos do centroide de cada um dos 32 respectivos grupos.
[0022] Fig. 3. Provê um desenho esquemático indicando a localização cromossômica da soja dos loci genômicos ideais selecionados para validação de direcionamento.
[0023] Fig. 4. Representação da sequência de polinucleotídeo doadora universal para integração através de união de extremidade não homóloga (NHEJ) (Non-homologous End Joining). Dois vetores propostos são providos onde um DNA de interesse (DNA X) compreende um ou mais sítios de ligação de dedo de zinco (isto é, “1- N”) (ZFN BS) em qualquer extremidade do DNA de interesse. Setas verticais mostram sítios de restrição únicos e setas horizontais representam sítios de primer de PCR potenciais.
[0024] Fig. 5. Representação da sequência de polinucleotídeo doadora universal para integração através de reparo direcionado homólogo (DHR) (Homologous-Directed Repair). Um DNA de interesse (DNA X) compreende duas regiões de sequências homólogas (HA) (Homologous Sequences) flanqueando o DNA de interesse com sítios de ligação de nuclease dedo de zinco (ZFN) compreendendo as sequências de DNAX e HA. Setas verticais mostram sítios de restrição únicos e setas horizontais representam sítios de primer de PCR potenciais.
[0025] Fig. 6. Validação de alvos de loci genômicos selecionados de soja usando método de Análise de Direcionamento Rápida (RTA) (Rapid Targeting Analysis) baseado em NHEJ.
[0026] Fig. 7. Mapa de plasmídeo de pDAB124280 (SEQ ID NO:7561). Os elementos numerados (isto é, GmPPL01ZF391R e GMPPL01ZF391L) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0027] Fig. 8. Mapa de plasmídeo de pDAB124281 (SEQ ID NO:7562). Os elementos numerados (isto é, GmPPL02ZF411R e GMPPL02ZF411L) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universal dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0028] Fig. 9. Mapa de plasmídeo de pDAB121278 (SEQ ID NO:7563). Os elementos numerados (isto é, GmPPL18_4 e GMPPL18_3) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 25 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “Sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída no desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0029] Fig. 10. Mapa de plasmídeo de pDAB123812 (SEQ ID NO:7564). Os elementos numerados (isto é, ZF538R e ZF538L) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “Sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0030] Fig. 11. Mapa de plasmídeo de pDAB121937 (SEQ ID NO:7565). Os elementos numerados (isto é, GmPPL34ZF598L, GmPPL34ZF598R, GmPPL36ZF599L, GmPPL36ZF599R, GmPPL36ZF600L e GmPPL36ZF600R) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador e sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo de montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0031] Fig. 12. Mapa de plasmídeo de pDAB123811 (SEQ ID NO:7566). Os elementos numerados (isto é, ZF 560L e ZF 560R) correspondem às sequências de ligação de nuclease de dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas por proteínas de nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “Sequência UZI” (que é a região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através da montagem Gibson).
[0032] Fig. 13. Mapa de plasmídeo de pDAB124864 (SEQ ID NO: 7567). Os elementos numerados (isto é, ZF631L e ZF631R) correspondem a sequências de ligação de nuclease dedo de zinco de cerca de 20 a 35 pares de base de comprimento que são reconhecidas e clivadas pelas proteínas nuclease dedo de zinco correspondentes. Essas sequências de ligação de dedo de zinco e a “Sequência UZI” anotada (que é uma região molde de 100-150 pb contendo sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação) compreendem o cassete doador universal. Ainda incluída neste desenho de plasmídeo está a “Sobreposição 104113” que são sequências que compartilham homologia com o vetor de plasmídeo para montagem de alto rendimento dos cassetes doadores universais dentro de um vetor de plasmídeo (isto é, através de montagem Gibson).
[0033] Fig. 14. Mapa de plasmídeo de pDAB7221 (SEQ ID NO: 7569). Este plasmídeo contém o Promotor do Vírus do Mosaico da Nervura da Mandioca (CsVMV) (Cassava Vein Mosaic Virus Promoter) direcionando a proteína GFP e flanqueado pela Agrobacterium tumefaciens (AtuORF 24 3’UTR).
[0034] Figs. 15A-15C. Histograma de características (comprimento, expressão de região de codificação dentro de 40 Kb de loci e frequência de recombinação) para loci de soja não gênico ideais identificados. A Fig. 15A ilustra uma distribuição dos comprimentos de sequência de polinucleotídeo dos loci genômicos ideais (OGL) (Optimal Genomic Loci). A Fig. 15B ilustra a distribuição dos loci de soja não gênicos ideais com relação à sua frequência de recombinação. A Fig. 15C ilustra a distribuição de sequências de ácido nucleico expressas com relação à sua proximidade (escala log) com os loci genômicos ideais (OGL) (Optimal Genomic Loci).
DESCRIÇÃO DETALHADA DEFINIÇÕES
[0035] Na descrição e reivindicação da invenção, a terminologia que segue será usada de acordo com as definições mostradas abaixo.
[0036] O termo “cerca de” conforme aqui usado significa maior ou menor do que o valor ou faixa de valores declarados em 10 por cento, mas não pretende designar nenhum valor ou faixa de valores para apenas esta definição mais ampla. Cada valor ou faixa de valores precedido pelo termo “cerca de” também pretende compreender a modalidade do valor absoluto ou faixa de valores declarado.
[0037] Conforme aqui usado, o termo “planta” inclui uma planta inteira ou qualquer descendente, célula, tecido ou parte de uma planta. O termo “parte de plantas” inclui qualquer parte(s) de uma planta incluindo, por exemplo e sem limitação: semente (incluindo semente madura e semente imatura); um corte de planta; uma célula de planta; uma cultura de célula de planta; um órgão de planta (por exemplo, pólen, embriões, flores, frutas, brotos, folhas, raízes caules e explantes). Um tecido ou órgão de planta pode ser uma semente, calo ou qualquer outro grupo de células de planta que esteja organizado em uma unidade estrutural ou funcional. Uma cultura de célula ou tecido de planta pode ser capaz de regenerar uma planta tendo as características fisiológica e morfológica da planta da qual a célula ou tecido foi obtido, e de regeneração de uma planta tendo substancialmente o mesmo genótipo que a planta. Em contraste, algumas células de planta não são capazes de ser regeneradas para produzir plantas. Células regeneráveis em uma cultura de célula ou tecido de planta podem ser embriões, protoplastos, células meristemáticas, calo, pólen, folhas, anteras, raízes, pontas de raiz, seda, flores, núcleos, espigas, sabugos, cascas ou talos.
[0038] Partes de planta incluem partes que podem ser colhidas e partes úteis para propagação de plantas progênies. Partes de planta úteis para propagação incluem, por exemplo e sem limitação: semente; fruta; um corte; uma muda; um tubérculo; e um porta-enxerto. Uma parte coletável de uma planta pode ser qualquer parte útil de uma planta, incluindo, por exemplo e sem limitação: flor; pólen; muda; tampão; folha; caule; fruta; semente e raiz.
[0039] Uma célula de planta é a unidade estrutural e fisiológica da planta. Células de planta, conforme aqui usado, incluem protoplastos e protoplastos com uma parede celular. Uma célula de planta pode estar na forma de uma célula única isolada ou um agregado de células (por exemplo, um calo friável e uma célula culturada) e pode ser uma parte de uma unidade organizada superior (por exemplo, um tecido de planta, um órgão de planta e planta). Desta maneira, uma célula de planta pode ser um protoplasto, uma célula de produção de gameta ou uma célula ou coleção de células que podem se regenerar em uma planta inteira. Desta maneira, uma semente, que compreende células de planta múltiplas e é capaz de se regenerar em uma planta inteira, é considerada uma “parte de planta” em modalidades aqui.
[0040] O termo “protoplasto”, conforme aqui usado, se refere a uma célula de planta que teve sua parede celular completamente ou parcialmente removida, com a sua membrana de bicamada de lipídeo desprovida. Tipicamente, um protoplasto é uma célula de planta isolada sem paredes celulares que tem o poder de regeneração em cultura de célula ou uma planta integral.
[0041] Conforme aqui usado, os termos “nativo” e “natural” definem uma condição encontrada na natureza. Uma “sequência de DNA nativa” é uma sequência de DNA presente na natureza que foi produzida através de meios naturais ou técnicas de reprodução tradicionais, mas não geradas por engenharia genética (por exemplo, usando técnicas de biologia/transformação molecular).
[0042] Conforme aqui usado, “sequência endógena” define a forma nativa de um polinucleotídeo, gene ou polipeptídeo em sua localização natural no organismo ou no genoma de um organismo.
[0043] O termo “isolado” conforme aqui usado significa ter sido removido de seu ambiente natural.
[0044] O termo “purificado” conforme aqui usado se refere ao isolamento de uma molécula ou composto em uma forma que é substancialmente livre de contaminantes normalmente associados com a molécula ou composto em um ambiente nativo ou natural ou significa ter sido aumentada em pureza como um resultado de ser separado de outros componentes da composição original. O termo “ácido nucleico purificado” é usado aqui para descrever uma sequência de ácido nucleico que foi separada de outros compostos incluindo, mas não limitado a, polipeptídeos, lipídeos e carboidratos.
[0045] Os termos “polipeptídeo”, “peptídeo” e “proteína” são usados intercomutavelmente para se referir a um polímero de resíduos de aminoácido. O termo também se aplica a polímeros de aminoácido onde um ou mais aminoácidos são análogos químicos ou derivados modificados de um aminoácido de ocorrência natural correspondente.
[0046] Conforme aqui usado, “loci genômicos dicotiledôneos ideais”, “loci dicotiledôneos não gênicos ideais”, “loci não gênicos ideais” ou “loci genômicos ideais (OGL)” é uma sequência de DNA nativa encontrada no genoma nuclear de uma planta dicotiledônea que tem as propriedades que seguem: não gênico, hipermetilado, direcionável e em localização próxima com uma região gênica, onde a região genômica ao redor dos loci genômicos dicotiledôneos ideais exemplifica evidência de recombinação.
[0047] Conforme aqui usado, “loci genômicos de soja ideais”, “loci de soja não gênicos ideais”, “loci não gênicos ideais” ou “loci genômicos ideais (OGL)” são uma sequência de DNA nativa encontrada no genoma nuclear de uma planta dicotiledônea que tem as propriedades que seguem: não gênicos, hipometilados, direcionáveis e em localização próxima com uma região gênica, onde a região genômica ao redor dos loci genômicos dicotiledôneos ideais exemplifica evidência de recombinação.
[0048] Conforme aqui usado, uma “sequência dicotiledônea não gênica” ou “sequência genômica dicotiledônea não gênica” é uma sequência de DNA nativa encontrada no genoma nuclear de uma planta dicotiledônea, tendo um comprimento de pelo menos 1 Kb, e destituída de quaisquer estruturas de leitura aberta, sequências de gene ou sequências reguladoras de gene. Ainda, a sequência dicotiledônea não gênica não compreende nenhuma sequência de íntron (isto é, íntrons são excluídos da definição de não gênico). A sequência não gênica não pode ser transcrita ou traduzida em proteína. Muitos genomas de planta contêm regiões não gênicas. Tanto quanto 95% do genoma podem ser não gênicos e essas regiões podem ser compreendidas principalmente de DNA repetitivo.
[0049] Conforme aqui usado, uma “sequência de soja não gênica” ou “sequência genômica de soja não gênica” é uma sequência de DNA nativa encontrada no genoma nuclear de uma planta de soja, tendo um comprimento de pelo menos 1 Kb e destituída de quaisquer estruturas de leitura aberta, sequências de gene ou sequências reguladoras de gene. Ainda, a sequência de soja não gênica não compreende nenhuma sequência de íntron (isto é, íntrons são excluídos da definição de não gênico). A sequência não gênica não pode ser transcrita ou traduzida em proteína. Muitos genomas de planta contêm regiões não gênicas. Tanto quanto 95% do genoma podem ser não gênicos e essas regiões podem ser compreendidas principalmente de DNA repetitivo.
[0050] Conforme aqui usado, uma “região gênica” é definida como uma sequência de polinucleotídeo que compreende uma estrutura de leitura aberta codificando um DNA e/ou polipeptídeo. A região gênica pode também compreender quaisquer sequências de nucleotídeo de não codificação 5’ e 3’ adjacentes identificáveis envolvidas na regulagem de expressão da estrutura de leitura aberta até cerca de 2 Kb a montante da região de codificação e 1 Kb a jusante da região de codificação, mas possivelmente mais a jusante ou a montante. Uma região gênica inclui ainda quaisquer íntrons que possam estar presentes na região gênica. Ainda, a região gênica pode compreender uma sequência de gene única ou sequências de gene múltiplas interespaçadas com extensões curtas (menos de 1 Kb) de sequências não gênicas.
[0051] Conforme aqui usado um “ácido nucleico de interesse”, “DNA de interesse” ou “doador” é definido como uma sequência de ácido nucleico/DNA que foi selecionada para inserção direcionada, direcionada a sítio, no genoma dicotiledôneo, tal como um genoma de soja. Um ácido nucleico de interesse pode ser de qualquer comprimento, por exemplo, entre 2 e 50.000 nucleotídeos de comprimento (ou qualquer valor inteiro entre ele ou acima), preferivelmente entre cerca de 1.000 e 5.000 nucleotídeos de comprimento (ou qualquer valor inteiro entre ele). Um ácido nucleico de interesse pode compreender um ou mais cassetes de expressão de gene que compreendem ainda sequências de gene ativamente transcritas e/ou traduzidas. Por outro lado, o ácido nucleico de interesse pode compreender uma sequência de polinucleotídeo que não compreende um cassete de expressão de gene funcional ou um gene inteiro (por exemplo, pode compreender simplesmente sequências reguladoras tal como um promotor) ou pode não conter quaisquer elementos de expressão de gene identificáveis ou qualquer sequência de gene ativamente transcrita. O ácido nucleico de interesse pode conter opcionalmente um domínio analítico. Quando da inserção do ácido nucleico de interesse no genoma dicotiledôneo de soja, por exemplo, as sequências inseridas são referidas como o “DNA inserido de interesse”. Ainda, o ácido nucleico de interesse pode ser DNA ou RNA, pode ser linear ou circular e pode ser de fita simples ou fita dupla. Ele pode ser administrado à célula como ácido nucleico puro, como um complexo com um ou mais agentes de administração (por exemplo, lipossomas, poloxâmero, fita T encapsulado com proteínas, etc) ou contido em um veículo de administração bacteriano ou viral tal como, por exemplo, Agrobacterium tumefaciens ou um adenovírus ou Vírus adenoassociado (AAV), respectivamente.
[0052] Conforme aqui usado, o termo “domínio analítico” define uma sequência de ácido nucleico que contém elementos funcionais que auxiliam na inserção direcionada de sequências de ácido nucleico. Por exemplo, um domínio analítico pode conter sítios de enzima de restrição especificamente projetados, sítios de ligação de dedo de zinco, landing pads engenheirados ou plataformas de integração de transgene engenheiradas e podem ou não compreender elementos reguladores de gene ou uma estrutura de leitura aberta. Vide, por exemplo, Publicação de Patente U.S. No. 20110191899, incorporada aqui a título de referência em sua totalidade.
[0053] Conforme aqui usado, o termo “sequência dicotiledônea selecionada” define uma sequência de DNA genômica nativa de uma planta dicotiledônea que foi escolhida para análise para determinar se a sequência se qualifica como loci genômicos dicotiledôneos não gênicos ideais.
[0054] Conforme aqui usado, o termo “sequência de soja selecionada” define uma sequência de DNA genômica nativa de uma planta de soja que foi escolhida para análise para determinar se a sequência qualifica loci genômicos de soja não gênicos ideais.
[0055] Conforme aqui usado, o termo “hipometilação” ou “hipometilado”, em referência a uma sequência de DNA, define um estado reduzido de resíduos de nucleotídeo de DNA metilado em uma dada sequência de DNA. Tipicamente, a metilação reduzida se refere ao número de resíduos adenina ou citosina metilada, com relação ao nível médio de metilação encontrado em sequências não gênicas presentes no genoma de uma planta dicotiledônea tal como uma planta de soja.
[0056] Conforme aqui usado, uma “sequência direcionável” é uma sequência de polinucleotídeo que é suficientemente única em um genoma nuclear que permite inserção direcionada, específica de sítio, de um ácido nucleico de interesse em uma sequência específica.
[0057] Conforme aqui usado, o termo sequência de “não repetição” é definido com uma sequência de pelo menos 1 Kb de comprimento que compartilha menos de 40% de identidade com outra sequência dentro do genoma de uma planta dicotiledônea, tal como soja. Cálculos de identidade de sequência podem ser determinados usado qualquer técnica padrão conhecida daqueles versados na técnica incluindo, por exemplo, varredura de uma sequência genômica selecionada contra o genoma dicotiledôneo, por exemplo, genoma de c.v. Williams83 de soja, usando uma pesquisa de homologia baseada em BLAST® usando o software NCBI BALST®+ (versão 2.2.25) operado usando os ajustes de parâmetro default (Stephen F. Altschul e outros (1997), “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs”, Nucleic Acid Res. 25:3389-3402). Por exemplo, como as sequências de soja selecionadas (do genoma de Glycine max cv. Williams82) que foram analisadas, o primeiro hit de BLAST® identificado a partir de tal pesquisa representa a sequência dicotiledônea, por exemplo, sequência de soja c.v. Williams82, em si. O segundo hit de BLAST® para cada sequência de soja selecionada foi identificado e a cobertura do alinhamento (representada como a porcentagem da sequência de soja selecionada coberta pelo hit BLAST®) do hit foi usada como uma medida de singularidade da sequência de soja selecionada dentro do genoma de uma planta dicotiledônea, tal como soja. Esses valores de cobertura de alinhamento para o segundo hit de BLAST® variou de um mínimo de 0% a um máximo de 39,97% de identidade de sequência. Quaisquer sequências que alinharam em níveis mais altos de identidade de sequência não foram consideradas.
[0058] O termo “em localização proximal a uma região gênica” quando usado em referência a uma sequência não gênica define a localização relativa da sequência não gênica para uma região gênica. Especificamente, o número de regiões gênicas dentro de uma vizinhança de 40 Kb (isto é, dentro de 40 Kb em qualquer extremidade da sequência de loci genômicos de soja ideais selecionados) é analisado. Esta análise foi completada através do ensaio de informação de anotação de gene e as localizações de genes conhecidos no genoma de uma dicotiledônea conhecida, tal como soja, que foram extraídas de um banco de dados de genoma monocotiledôneo, por exemplo, o Banco de Dados de Genoma de Soja. Para cada um dos loci genômicos de soja não gênicos ideais, por exemplo, 7.081 loci genômicos de soja não gênicos ideais, uma janela de 40 Kb em torno da sequência de loci genômicos ideais foi definida e o número de genes anotados com localizações sobrepondo esta janela foi contado. O número de regiões gênicas variou de um mínimo de 1 gene a um máximo de 18 genes dentro da vizinhança de 40 Kb.
[0059] O termo “sequência de codificação de soja conhecida” conforme aqui usado se refere a qualquer sequência de polinucleotídeo identificada de qualquer banco de dados genômico dicotiledôneo, incluindo o Banco de Dados Genômico de Soja (www.soybase.org, Shoemaker, R.C. et al. SoyBase, the USDA-ARS soybean genetics and genomics database. Nucleic Acids Res. 2010 Jan;38(Database issue):D843-6.), que compreende uma estrutura de leitura aberta, ou antes ou após processamento de sequências de íntron, e é transcrita em mRNA e opcionalmente traduzida em uma sequência de proteína quando posta sob o controle dos elementos reguladores genéticos apropriados. A sequência de codificação de soja conhecida pode ser uma sequência de cDNA ou uma sequência genômica. Em alguns casos, a sequência de codificação de soja conhecida pode ser anotada como uma proteína funcional. Em outros casos, a sequência de codificação de soja conhecida pode não ser anotada.
[0060] O termo “sequência de codificação dicotiledônea prevista” conforme aqui usado se refere a quaisquer sequências de polinucleotídeo Marcadoras de Sequência Expressas (EST) (Expressed Sequence Tag) descritas em um banco de dados genômico dicotiledôneo, por exemplo, o Banco de Dados Genômico de Soja. ESTs são identificadas de bibliotecas de cDNA construídas usando primers oligo(dT) para direcionar síntese de primeira fita através de transcriptase reversa. As ESTs são leituras de sequenciamento de passe único de menos do que 500 pb obtidas da extremidade 5’ ou 3’ do inserto de cDNA. ESTs múltiplas podem ser alinhadas em um contíguo único. As sequências de EST identificadas são uploaded no banco de dados genômico dicotiledôneo, por exemplo, Banco de Dado Genômico de Soja e podem ser pesquisadas através de métodos de bioinformática para prever sequências de polinucleotídeo genômicas correspondentes que compreendem uma sequência de codificação que é transcrita em mRA e opcionalmente traduzida em uma sequência de proteína quando posta sob o controle dos elementos reguladores genéticos apropriados.
[0061] O termo “sequência de codificação de soja prevista” conforme aqui usado se refere a quaisquer sequências de polinucleotídeo Marcadoras de Sequência Expressas (EST) descritas em um banco de dados genômico de soja, por exemplo, o Banco de Dados Genômico de Soja. ESTs são identificadas de bibliotecas de cDNA construídas usando primers oligo(dT) para direcionar síntese de primeira fita através de transcriptase reversa. As ESTs resultantes são leituras de sequenciamento de passo único de menos de 500 pb obtidas da extremidade 5’ ou 3’ do inserto de DNA. ESTs múltiplas podem ser alinhadas em um contíguo único. As sequências de EST identificadas são uploaded no banco de dados genômico de soja, por exemplo, Banco de Dados Genômico de Soja e podem ser pesquisadas através de métodos de bioinformática para prever sequências de polinucleotídeo genômico correspondentes que compreendem uma sequência de codificação que é transcrita em mRNA e opcionalmente traduzida em uma sequência de proteína quando posta sob o controle dos elementos reguladores genéticos apropriados.
[0062] O termo “evidência de recombinação” conforme aqui usado se refere às frequências de recombinação meiótica entre qualquer par de marcadores genômicos dicotiledôneos, por exemplo, marcadores genômicos de soja, através de uma região de cromossomo compreendendo a sequência de soja selecionada. As frequências de recombinação foram calculadas com base na razão da distância genética entre marcadores (em centimorgan (cM)) para a distância física entre os marcadores (em megabases (Mb)). Para uma sequência de soja selecionada ter evidência de recombinação, a sequência de soja selecionada deve conter pelo menos um evento de recombinação entre dois marcadores flanqueando a sequência de soja selecionada conforme detectado usando um conjunto de dados de marcador de alta resolução gerado a partir de populações de mapeamento múltiplas.
[0063] Conforme aqui usado, o termo “valor de localização relativo” é um valor calculado definindo a distância de um locus genômico de seu centrômero cromossômico correspondente. Para cada sequência de soja selecionada, a distância genômica da localização nativa da sequência de soja selecionada para o centrômero do cromossomo onde ela está localizado é medida (em Pb). A localização relativa de sequência de soja selecionada dentro do cromossomo é representada como a razão de sua distância genômica para o centrômero com relação ao comprimento do braço cromossômico específico (medido em Pb) onde ela se encontra. Esses valores de localização relativos para os loci genômicos de soja não gênicos ideais podem ser gerados para plantas dicotiledôneas diferentes, os valores de localização relativos para o conjunto de dados de soja variaram de um mínimo de 0 a um máximo de 0,99682 de distância genômica.
[0064] O termo “sequência de DNA exógena” conforme aqui usado é uma sequência de ácido nucleico que foi removida de sua localização nativa e inserida em uma nova localização alterando as sequências que flanqueiam a sequência de ácido nucleico que foi movida. Por exemplo, uma sequência de DNA exógena pode compreender uma sequência de outra espécie.
[0065] “Ligação” se refere a uma interação específica de sequência entre as macromoléculas (por exemplo, entre uma proteína e um ácido nucleico). Nem todos os componentes de uma interação de ligação precisam ser específicos de sequência (por exemplo, contatos com resíduos de fosfato em uma estrutura principal e DNA), contanto que a interação como um todo seja específica de sequência. Tais interações são geralmente caracterizadas por uma constante de dissociação (Kd). “Afinidade” se refere à força de ligação: afinidade de ligação aumentada sendo relacionada com uma constante de ligação menor (Kd).
[0066] Uma “proteína de ligação” é uma proteína que é capaz de se ligar a outra molécula. Uma proteína de ligação pode se ligar a, por exemplo, uma molécula de DNA (uma proteína de ligação de DNA), uma molécula de RNA (uma proteína de ligação de RNA) e/ou uma molécula de proteína (uma proteína de ligação de proteína). No caso de uma proteína de ligação de proteína, ela pode se ligar a sim mesma (para formar homodímeros, homotrímeros, etc) e/ou ela pode se ligar a uma ou mais moléculas de uma proteína ou proteínas diferentes. Uma proteína de ligação pode ter mais de um tipo de atividade de ligação. Por exemplo, proteínas dedo de zinco têm atividade de ligação de DNA, ligação de RNA e ligação de proteína.
[0067] Conforme aqui usado, o termo “dedos de zinco” define regiões de sequência de aminoácido dentro de um domínio de ligação de proteína de ligação de DNA cuja estrutura é estabilizada através de coordenação de um íon de zinco.
[0068] Uma “proteína de ligação de DNA de dedo de zinco” (ou domínio de ligação) é uma proteína, ou um domínio dentro de uma proteína maior, que liga DNA de uma maneira específica de sequência através de um ou mais dedos de zinco, que são regiões de sequência de aminoácido dentro do domínio de ligação cuja estrutura é estabilizada através de coordenação de um íon de zinco. O termo proteína de ligação de DNA de dedo de zinco é frequentemente abreviado como proteína dedo de zinco ou ZFP. Domínios de ligação de dedo de zinco podem ser “engenheirados” para se ligar a uma sequência de nucleotídeo predeterminada. Exemplos não limitantes de métodos para engenharia de proteínas dedo de zinco são desenho e seleção. Uma proteína dedo de zinco projetada é uma proteína que não ocorre na natureza cujo desenho/composição resulta principalmente de critérios racionais. Critérios racionais para desenho incluem aplicação de regras de substituição e algoritmos computadorizados para processamento de informação em uma informação de armazenamento de banco de dados de dados de desenhos e ligação de ZFP existentes. Vide, por exemplo, Patentes U.S. Nos. 6.140.081; 6.453.242; 6.534.261 e 6.794.136; vide também WO 98/53058; WO 98/53059; WO 98/53060; WO 02/016536 e WO 03/016496.
[0069] Um “domínio de ligação de DNA de TALE” ou “TALE” é um polipeptídeo compreendendo um ou mais domínios/unidades de repetição de TALE. Os domínios de repetição estão envolvidos em ligação do TALE à sua sequência de DNA alvo cognata. Uma “unidade de repetição” única (também referida como uma “repetição”) é tipicamente de 33-35 aminoácidos de comprimento e exibe pelo menos alguma homologia de sequência com outras sequências de repetição de TALE dentro de uma proteína de TALE de ocorrência natural. Vide, por exemplo, Publicação de Patente U.S. No. 20110301073, incorporada aqui a título de referência em sua totalidade.
[0070] O sistema de nuclease CRISPR (Repetições Palindrômicas Curtas Regularmente Interespaçadas Agrupadas/Cas (Associados a CRISPR). Em suma, um “domínio de ligação de DNA de CRISPR” é uma molécula de RNA de fita curta que agindo em conjunto com a enzima CAS pode reconhecer seletivamente, se ligar e clivar DNA genômico. O sistema CRISPR/Cas pode ser engenheirado para criar uma quebra de fita dupla (DSB) (Double-Stranded Break) em um alvo desejado em um genoma e reparo da DSB pode ser influenciado pelo uso de inibidores de reparo para causar um aumento em reparo propenso a erro. Vide, por exemplo, Jinek e outros (2012) Science 337, p. 816-821, Jinek e outros, (2013), eLife 2:e00471 e David Segal, (2013) eLife 2:e00563).
[0071] Domínios de ligação dedo de zinco, CRISPR e TALE podem ser “engenheirados” para se ligar a uma sequência de nucleotídeo predeterminada, por exemplo, através de engenharia (alterando um ou mais aminoácidos) da região de hélice de reconhecimento de um dedo de zinco de ocorrência natural. Similarmente, TALEs podem ser “engenheirados” para se ligar a uma sequência de nucleotídeo predeterminada, por exemplo, através de engenharia dos aminoácidos envolvidos em ligação de DNA (o birresíduo variável de repetição ou região de RVD). Desta maneira, proteínas de ligação de DNA engenheiradas (dedos de zinco ou TALEs) são proteínas que são de ocorrência não natural. Exemplos não limitantes de métodos para engenharia de proteínas de ligação de DNA são desenho e seleção. Uma proteína de ligação de DNA projetada é uma proteína que não ocorre na natureza cujo desenho/complexo resulta principalmente de critérios racionais. Critérios racionais para desenho incluem aplicação de regras de substituição e algoritmos computadorizados para processamento de informação em informação de armazenamento de banco de ados de dados de desenho e ligação ZFP e/ou TALE existentes. Vide, por exemplo, Patentes U.S. 6.140.081; 6.453.242; e 6.534.261; vide também WO 98/53058; WO 98/53059; WO 98/53060; WO 02/016536 e WO 03/016496 e Publicações U.S. Nos. 20110301073, 20110239315 e 20119145940.
[0072] Uma proteína dedo de zinco “selecionada”, CRISPR ou TALE é uma proteína não encontrada na natureza cuja produção resulta principalmente de um processo empírico tal como exibição de fago, armadilha de interação ou seleção de híbrido. Vide, por exemplo, Patentes U.S. Nos. 5.789.538; US 5.925.523; US 6.007.988; US 6.013.453; US 6.200.759; WO 95/19431; WO 96/06166; WO 98/53057; WO 98/54311; WO 00/27878; WO 01/60970 WO 01/88197 e WO 02/099084 e Publicações U.S. Nos. 20110301073, 20110239315 e 20119145940.
[0073] “Recombinação” se refere a um processo de troca de informação genética entre dois polinucleotídeos, incluindo, mas não limitado a, captura de doador por união de extremidade não homóloga (NHEJ) e recombinação homóloga. Para os propósitos da presente invenção, “recombinação homóloga (HR)” se refere à forma especializada de tal troca que acontece, por exemplo, durante reparo de quebras de fita dupla em células através de mecanismos de reparo direcionado por homologia. Este processo requer homologia de sequência de nucleotídeo, usa uma molécula “doadora” para reparo molde de uma molécula “alvo” (isto é, a sequência de nucleotídeo que sofreu a quebra de fita dupla) e é variavelmente conhecido como “conversão de gene sem cruzamento” ou “conversão de gene de trato curto”, porque ele leva à transferência de informação genética do doador para o alvo. Sem desejar ser limitado por nenhuma teoria particular, tal transferência pode envolver correção de incompatibilidade de DNA heterodúplex que se forma entre o alvo rompido e o doador, e/ou “anelamento de fita dependente de síntese”, onde o doador é usado para sintetizar novamente informação genética que se tornará parte do alvo, e/ou processos relacionados. Tal HR especializada frequentemente resulta em uma alteração da sequência da molécula alvo de maneira que parte ou toda a sequência do polinucleotídeo doador é incorporada ao polinucleotídeo-alvo. Para integração direcionada por HR, a molécula doadora contém pelo menos 2 regiões de homologia com o genoma (“braços de homologia”) de pelo menos 50-100 pares de base de comprimento. Vide, por exemplo, Publicação de Patente U.S. No. 20110281361.
[0074] Nos métodos da presente invenção, uma ou mais nucleases alvo conforme aqui descrito criam uma quebra de fita dupla na sequência-alvo (por exemplo, cromatina celular) em um sítio predeterminado, e um polinucleotídeo “doador”, tendo homologia com a sequência de nucleotídeo na região de quebra para integração mediada por HR ou não tendo nenhuma homologia com a sequência de nucleotídeo na região do quebra para integração mediada por NHEJ, pode ser introduzido na célula. A presença de quebra de fita dupla foi mostrada facilitar integração da sequência doadora. A sequência doadora pode ser fisicamente integrada ou, alternativamente, o polinucleotídeo doador é usado como um molde para reparo da quebra através de recombinação homóloga, resultando na introdução de toda ou parte da sequência de nucleotídeo como no doador na cromatina celular. Desta maneira, uma primeira sequência em cromatina celular pode ser alterada e, em certas modalidades, pode ser convertida em uma sequência presente em um polinucleotídeo doador. Desta maneira, o uso do termo “substituir” ou “substituição” pode ser compreendido representar substituição de uma sequência de nucleotídeo por outra (isto é, substituição de uma sequência no sentido informacional) e não requer necessariamente substituição física ou química de um polinucleotídeo por outro.
[0075] Em qualquer um dos métodos descritos aqui, pares adicionais de proteínas dedo de zinco, CRISPRS ou TALEN podem ser usados para clivagem de fita dupla adicional de sítios-alvo adicionais dentro da célula.
[0076] Qualquer um dos métodos descritos aqui pode ser usado para inserção de um doador de qualquer tamanho e/ou inativação parcial ou completa de uma ou mais sequências-alvo em uma célula através de integração direcionada de sequência doadora que rompe expressão do(s) gene(s) de interesse. Linhagens de célula com genes parcialmente ou completamente inativos são também providas.
[0077] Ainda, os métodos de integração direcionada conforme aqui descrito podem também ser usados para integrar uma ou mais sequências exógenas. A sequência de ácido nucleico exógena pode compreender, por exemplo, um ou mais genes ou moléculas de cDNA, ou qualquer tipo de sequência de codificação ou não codificação, bem como um ou mais elementos controle (por exemplo, promotores). Ainda, a sequência de ácido exógena (transgene) pode produzir uma ou mais moléculas de RNA (por exemplo, RNAs grampo-de-cabelo pequenos (shRNAs), RNAs inibidores (RNAis), microRNA (miRNAs), etc) ou proteína.
[0078] “Clivagem” conforme aqui usado define a quebra da estrutura principal de fosfato-açúcar de uma molécula de DNA. Clivagem pode ser iniciada por uma variedade de métodos incluindo, mas não limitado a, hidrólise enzimática ou química de uma ligação fosfodiéster. Clivagem de fita simples e clivagem de fita dupla são possíveis, e clivagem de fita dupla pode ocorrer como um resultado de dois eventos de clivagem de fita simples distintas. Clivagem de DNA pode resultar na produção de extremidades cegas ou extremidades escalonadas. Em certas modalidades, polipeptídeos de fusão são usados para clivagem de DNA de fita dupla direcionada. Um “domínio de clivagem” compreende uma ou mais sequências de polipeptídeo que possuem atividade catalítica para clivagem de DNA. Um domínio de clivagem pode estar contido em uma cadeia de polipeptídeo única ou atividade de clivagem pode resultar da associação de dois (ou mais) polipeptídeos.
[0079] Um “domínio parcial de clivagem” é uma sequência de polipeptídeo que, em conjunto com um segundo polipeptídeo (ou idêntico ou diferente), forma um complexo tendo atividade de clivagem (preferivelmente atividade de clivagem de fita dupla). Os termos “primeiro e segundo domínios parciais de clivagem”; “domínios parciais de clivagem + e -” e “domínios parciais de clivagem direito e esquerdo” são usados intercomutavelmente para se referir a pares de domínios parciais de clivagem que dimerizam.
[0080] Um “domínio parcial de clivagem engenheirado” é um domínio parcial de clivagem que foi modificado de maneira a formar heterodímeros obrigatórios com outro domínio parcial de clivagem (por exemplo, outro domínio parcial de clivagem engenheirado). Vide também Publicações de Patente U.S. Nos. 2005/0064474, 20070218528, 2008/0131962 e 2011/0201055, incorporadas aqui a título de referência em sua totalidade.
[0081] Um “sítio-alvo” ou “sequência-alvo” se refere a uma porção de um ácido nucleico à qual uma molécula de ligação se ligará, contanto que condições suficientes para ligação existam.
[0082] Ácidos nucleicos incluem DNA e RNA, podem ser de fita simples ou dupla; podem ser lineares, ramificados ou circulares; e podem ser de qualquer comprimento. Ácidos nucleicos incluem aqueles capazes de formar dúplexes, bem como ácidos nucleicos de formação de tríplex. Vide, por exemplo, Patentes U.S. Nos. 5.176.996 e 5.422.251. Proteínas incluem, mas não estão limitadas a, proteínas de ligação de DNA, fatores de transcrição, fatores de remodelagem de cromatina, proteínas de ligação de DNA metiladas, polimerases, metilases, desmetilases, acetilases, desacetilase, cinases, fosfatases, integrases, recombinases, ligases, topoisomerase, girases e helicases.
[0083] Um “produto de um ácido nucleico exógeno” inclui ambos os produtos de polinucleotídeo e polipeptídeo, por exemplo, produtos de transcrição (polinucleotídeos tal como RNA) e produtos de tradução (polipeptídeos).
[0084] Uma molécula de “fusão” é uma molécula onde duas ou mais moléculas de subunidade são ligadas, por exemplo, covalentemente. As moléculas de subunidade podem ser do mesmo tipo químico de molécula ou podem ser tipos químicos diferentes de moléculas. Exemplos do primeiro tipo de molécula de fusão incluem, mas não estão limitados a, proteínas de fusão (por exemplo, uma fusão entre um domínio de ligação de DNA de ZFP e um domínio de clivagem) e ácidos nucleicos de fusão (por exemplo, um ácido nucleico codificando a proteína de fusão descrita supra). Exemplos do segundo tipo de molécula de fusão incluem, mas não estão limitados a, uma fusão entre um ácido nucleico de formação de triplex e um polipeptídeo e uma fusão entre um ligante de ranhura pequena e um ácido nucleico. Expressão de uma proteína de fusão em uma célula pode resultar da administração da proteína de fusão à célula ou através de administração de um polinucleotídeo codificando a proteína de fusão a uma célula, onde o polinucleotídeo é transcrito, e o transcrito é traduzido, para gerar a proteína de fusão. Transunião, clivagem de polipeptídeo e ligação de polipeptídeo podem também estar envolvidas em expressão de uma proteína em uma célula. Métodos para administração de polinucleotídeo e polipeptídeo às células são apresentados em outro ponto da presente invenção.
[0085] Para os propósitos da presente invenção, um “gene” inclui uma região de DNA codificando um produto de gene (vide infra), bem como todas as regiões de DNA que regulam a produção do produto de gene, sejam ou não tais sequências reguladoras adjacentes ou operavelmente ligadas a sequências de codificação e/ou transcritas. Desta maneira, um gene inclui, mas não é necessariamente limitado a, sequências promotoras, terminadoras, sequências reguladoras traducionais tais como sítios de ligação de ribossomo e sítios de entrada de ribossomo internos, potencializadores, silenciadores, isolantes, elementos de limite, origens de replicação, sítios e ligação de matriz e regiões de controle de locus.
[0086] “Expressão de gene” se refere à conversão da informação, contida em um gene, em um produto de gene. Um produto de gene pode ser o produto transcricional direto de um gene (por exemplo, mRNA, tRNA, rRNA, RNA de antissenso, RNA de interferência, ribozimas, RNA estrutural ou qualquer outro tipo de RNA) ou uma proteína produzida através de tradução de um mRNA. Produtos de gene também incluem RNAs que são modificados por processos tais como capeamento, poliadenilação, metilação e edição e proteínas modificadas por, por exemplo, metilação, acetilação, fosforilação, ubiquitinação, ADP- ribosilação, miristilação e glicosilação.
[0087] Identidade de sequência: o termo “identidade de sequência” ou “identidade” conforme usado aqui no contexto de duas sequências de ácido nucleico ou polipeptídeo, se refere aos resíduos nas duas sequências que são iguais quando alinhados para correspondência máxima em uma janela de comparação especificada.
[0088] Conforme aqui usado, o termo “porcentagem de identidade de sequência” se refere ao valor determinado através de comparação de duas sequências otimamente alinhadas (por exemplo, sequências de ácido nucleico e sequências de aminoácido) em uma janela de comparação, onde a porção da sequência na janela de comparação pode compreender adições ou deleções (isto é, lacunas) comparado com a sequência de referência (que não compreende adições ou deleções) para alinhamento ótimo das duas sequências. A porcentagem é calculada através da determinação do número de posições nas quais o resíduo de nucleotídeo ou aminoácido idêntico ocorre em ambas as sequências para fornecer o número de posições compatíveis, dividindo o número de posições compatíveis pelo número total de posições na janela de comparação e multiplicando o resultado por 100 para fornecer a porcentagem de identidade de sequência.
[0089] Métodos para alinhamento de sequências para comparação são bem conhecidos na técnica. Vários programas e algoritmos de alinhamento são descritos em, por exemplo: Smith e Waterman (1981) Adv. Appl. Math. 2:482; Needleman e Wunsch (1970) J. Mol. Biol. 48:443; Pearson e Lipman (1988) Proc. Natl. Acad. Sci. U.S.A. 85:2444; Higgins e Sharp (1988) Gene 73:237-44; Higgins e Sharp (1989) CABIOS 5:151-3; Corpet e outros (1988) Nucleic Acids Res. 16:1088190; Huang e outros (1992) Comp. Appl. Biosci. 8:155-65; Pearson e outros (1994) Methods Mol. Biol. 24:307-31; Tatiana e outros (1999) FEMS Microbiol. Lett. 174:247-50. Uma consideração detalhada de métodos de alinhamento de sequência e cálculos de homologia pode ser encontrada em, por exemplo, Altschul e outros (1990) J. Mol. Biol. 215:403-10. A National Center for Biotechnology Information (NCBI) Basic Local Alignment Search Tool (BLAST®; Altschul e outros (1990)) está disponível de várias fontes, incluindo o National Center for Biotechnology Information (Bethesda, MD), e na internet para uso em conexão com vários programas de análise de sequência. Uma descrição de como determinar identidade de sequência usando este programa está disponível na internet sob a seção “ajuda” para BLAST®. Para comparações de sequências de ácido nucleico, a função “sequências Blast 2” do programa BLAST® (Blastn) pode ser empregada usando os parâmetros default. Sequências de ácido nucleico com similaridade ainda maior com as sequências de referência mostrarão identidade percentual alta quando avaliadas através deste método.
[0090] Especificamente hibridizável/Especificamente complementar: Conforme aqui usado, os termos “especificamente hibridizável” e “especificamente complementar” são termos que indicam um grau de complementaridade suficiente, de maneira que ligação estável e específica ocorre entre a molécula de ácido nucleico e uma molécula de ácido nucleico alvo. Hibridização entre duas moléculas de ácido nucleico envolve a formação de um alinhamento antiparalelo entre as sequências de ácido nucleico das duas moléculas de ácido nucleico. As duas moléculas são então capazes de formar ligações hidrogênio com bases correspondentes na fita oposta para formar uma molécula dúplex que, se for suficientemente estável, é detectável usando métodos bem conhecidos na técnica. Uma molécula de ácido nucleico não precisa ser 100% complementar para a sua sequência-alvo para ser especificamente hibridizável. No entanto, a quantidade de complementaridade de sequência que deve existir para hibridização ser específica é uma função das condições de hibridização usadas.
[0091] Condições de hibridização resultando em graus particulares de adstringência variarão dependendo da natureza do método de hibridização de escolha e da composição e comprimento das sequências de ácido nucleico de hibridização. Em geral, a temperatura de hibridização e a resistência iônica (especialmente a concentração de Na+ e/ou Mg++) do tampão de hibridização determinarão a adstringência de hibridização, embora tempos de lavagem também influenciem a adstringência. Cálculos com relação a condições de hibridização requeridas para atingir graus particulares de adstringência são conhecidos daqueles de habilidade na técnica e são discutidos, por exemplo, em Sambrook e outros (ed.) Molecular Cloning: A Laboratory Manual, 2a ed., vol. 1-3, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, 1989, capítulos 9 e 11; e Hames e Higgins (eds.) Nucleic Acid Hybridization, IRL Press, Oxford, 1985. Instrução e orientação detalhadas adicionais com relação à hibridização de ácidos nucleicos podem ser encontradas, por exemplo, em Tijssen, “Overview of principles of hybridization and the strategy of nucleic acid probe assays,” em Laboratory Techniques in Biochemistry and Molecular Biology- Hybridization with Nucleic Acid Probes, Parte I, Capítulo 2, Elsevier, NY, 1993; e Ausubel e outros, Eds., Current Protocols in Molecular Biology, Capítulo 2, Greene Publishing and Wiley- Interscience, NY, 1995.
[0092] Conforme aqui usado, “condições adstringentes” compreendem condições sob as quais hibridização ocorrerá apenas se houver menos de 20% de incompatibilidade entre a molécula de hibridização e uma sequência dentro da molécula de ácido nucleico alvo. “Condições adstringentes” incluem níveis de adstringência particulares adicionais. Desta maneira, conforme aqui usado, condições de “adstringência moderada” são aquelas sob as quais moléculas com mais de 20% de incompatibilidade de sequência não hibridização; condições de “alta adstringência” são aquelas sob as quais sequências com mais de 10% de incompatibilidade não hibridizarão; e condições de “adstringência muito alta” são aquelas sob as quais sequências com mais de 5% de incompatibilidade não hibridizarão. O que segue são condições de hibridização não limitantes, representativas.
[0093] Condições de alta adstringência (sequências detectadas que compartilham pelo menos 90% de identidade de sequência): Hibridização em tampão SSC 5x (onde o tampão SSC contém um detergente tal como SDS e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) a 65°C por 16 horas; lavagem duas vezes em tampão SSC 2x (onde o tampão SSC contém um detergente tal como SDS e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) em temperatura ambiente por 15 minutos cada; e lavagem duas vezes em tampão SSC 0,5x (onde o tamanho de SCC contém um detergente tal como SDS e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) a 65°C por 20 minutos cada.
[0094] Condição de adstringência moderada (detecta sequências que compartilham pelo menos 80% de identidade de sequência): Hibridização em tampão SSC 5x-6x (onde o tampão de SCC contém um detergente tal como SDS, e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) a 65-70°C por 16-20 horas; lavagem duas vezes em tampão SSC 2x (onde o tampão de SSC contém um detergente tal como SDS, e reagentes adicionais tais como DNA de esperma de salmão, EDTA, etc) em temperatura ambiente por 5-20 minutos cada; e lavagem duas vezes em tampão de SSC 1x (onde o tampão de SSC contém um detergente tal como SDS, e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) a 55-70°C por 30 minutos cada um.
[0095] Condições controle não adstringentes (sequências que compartilham pelo menos 50% de identidade de sequência hibridização): Hibridização em tampão de SSC 6x (onde o tampão de SSC contém um detergente tal como SDS e reagentes adicionais tais como DNA de esperma de salmão, EDTA, etc) em temperatura ambiente a 55°C por 16-20 horas; lavagem pelo menos duas vezes em tampão de SSC 2x-3x (onde o tampão de SSC contém um detergente tal como SDS e reagentes adicionais tal como DNA de esperma de salmão, EDTA, etc) em temperatura ambiente para 55°C por 20-30 minutos cada.
[0096] Conforme aqui usado, o termo “substancialmente homólogo” ou “homologia substancial”, com relação a uma sequência de ácido nucleico contígua, se refere a sequências de nucleotídeo contíguas que hibridizam sob condições adstringentes para uma sequência de ácido nucleico de referência. Por exemplo, sequências de ácido nucleico que são substancialmente homólogas a uma sequência de ácido nucleico de referência são aquelas sequências de ácido nucleico que hibridizam sob condições adstringentes (por exemplo, as condições de Adstringência Moderada mostradas supra) para a sequência de ácido nucleico de referência. Sequências substancialmente homólogas podem ter pelo menos 80% de identidade de sequência. Por exemplo, sequências substancialmente homólogas podem ter de a partir de cerca de 80% a 100% de identidade de sequência, tal como cerca de 81%; cerca de 82%; cerca de 83%; cerca de 84%; cerca de 85%; cerca de 86%; cerca de 87%; cerca de 88%; cerca de 89%; cerca de 90%; cerca de 91%; cerca de 92%; cerca de 93%; cerca de 94% cerca de 95%; cerca de 96%; cerca de 97%; cerca de 98%; cerca de 98,5%; cerca de 99%; cerca de 99,5%; e cerca de 100%. A propriedade de homologia substancial está intimamente relacionada com hibridização específica. Por exemplo, uma molécula de ácido nucleico é especificamente hibridizável quando há um grau de complementaridade suficiente para evitar ligação não específica do ácido nucleico às sequências não alvo sob condições onde ligação específica é desejada, por exemplo, sob condições de hibridização adstringentes.
[0097] Em alguns casos, “homólogo” pode ser usado para se referir à relação de um primeiro gene com um segundo gene por descendência de uma sequência de DNA ancestral comum. Em tais casos, o termo homólogo indica uma relação entre genes separados pelo evento de especiação (vide ortólogo) ou a relação entre genes separados pelo evento de duplicação genética (vide parálogo). Em outros casos “homólogo” pode ser usado para se referir ao nível de identidade de sequência entre uma ou mais sequências de polinucleotídeo, em tais casos as uma ou mais sequências de polinucleotídeo não descendem necessariamente de uma sequência de DNA ancestral comum. Aqueles versados na técnica têm conhecimento da capacidade de permuta do termo “homólogo” e compreendem a aplicação apropriada do termo.
[0098] Conforme aqui usado, o termo “ortólogo” se refere a um gene em duas ou mais espécies que se desenvolveu a partir de uma sequência de nucleotídeo ancestral comum e pode reter a mesma função em duas ou mais espécies.
[0099] Conforme aqui usado, o termo “parálogo” se refere a genes relacionados pela duplicação dentro de um genoma. Ortólogos retêm a mesma função no curso de evolução, enquanto parálogos desenvolvem novas funções, mesmo se essas novas funções não estão relacionadas com a função do gene original.
[00100] Conforme aqui usado, duas moléculas de sequência de ácido nucleico são ditas exibir “complementaridade completa” quando cada nucleotídeo de uma sequência lida na direção 5’ a 3’ é complementar a cada nucleotídeo da outra sequência quando lida na direção 3’ para 5’. Uma sequência de nucleotídeo que é complementar a uma sequência de nucleotídeo de referência exibirá uma sequência idêntica à sequência de complemento reversa da sequência de nucleotídeo de referência. Esses termos e descrições são bem definidos na técnica e são facilmente compreendidos por aqueles de habilidade comum na técnica.
[00101] Quando determinando a porcentagem de identidade de sequência entre sequências de aminoácido, é bem conhecido daqueles versados na técnica que a identidade do aminoácido em uma dada posição provida por um alinhamento pode diferir sem afetar as propriedades desejadas dos polipeptídeos compreendendo as sequências alinhadas. Nesses casos, a identidade percentual pode ser ajustada para explicar similaridade entre aminoácidos conservativamente substituídos. Esses ajustes são bem conhecidos e geralmente usados por aqueles de habilidade na técnica. Vide, por exemplo, Myers e Miller (1988) Computer Applications in Biosciences 4:11-7. Métodos estatísticos são conhecidos na técnica e podem ser usados na análise dos 7.018 loci genômicos ideais identificados.
[00102] Como uma modalidade, os loci genômicos ideais identificados compreendendo 7.018 sequências de loci genômicos ideais individuais podem ser analisados através de um teste de distribuição F. Na teoria da probabilidade e estatística, a distribuição F é uma distribuição de probabilidade contínua. O teste de distribuição F é um teste de significância estatística que tem uma distribuição F, e é usado quando comparando modelos estatísticos que foram ajustados a um conjunto de dados, para identificar o modelo de melhor ajuste. Uma distribuição F é uma distribuição de probabilidade contínua e é também conhecida como distribuição F de Snedecor ou a distribuição Fisher- Snedecor. A distribuição F surge frequentemente como a distribuição nula de uma estatística de teste, mais notadamente na análise de variância. A distribuição F é uma distribuição desviada para a direita. A distribuição F é uma distribuição assimétrica que tem um valor mínimo de 0, mas nenhum valor máximo. A curva atinge um pico não muito distante de 0 e então gradualmente se aproxima do eixo horizontal quanto maior é o valor F. A distribuição F se aproxima, mas nunca toca completamente o eixo horizontal. Será compreendido que em outras modalidades variações nesta equação, ou na verdade equações diferentes, podem ser derivadas e usadas pelo versado na técnica e são aplicáveis para a análise de 7.018 sequências de loci genômicos ideais individuais.
[00103] Operavelmente ligado: Uma primeira sequência de nucleotídeo é “operavelmente ligada” com uma segunda sequência de nucleotídeo quando a primeira sequência de nucleotídeo está em uma relação funcional com a segunda sequência de nucleotídeo. Por exemplo, um promotor é operavelmente ligado a uma sequência de codificação se o promotor afeta a transcrição ou expressão da sequência de codificação. Quando recombinantemente produzidas, sequências de nucleotídeo operavelmente ligadas são geralmente contíguas e, onde necessário unir duas regiões de codificação de proteína, na mesma estrutura de leitura. No entanto, sequências de nucleotídeo não precisam ser contíguas para serem operavelmente ligadas.
[00104] O termo “operavelmente ligado”, quando usado com referência a uma sequência reguladora e uma sequência de codificação, significa que a sequência reguladora afeta a expressão da sequência de codificação ligada. “Sequências reguladoras”, “elementos reguladores” ou “elementos controle” se referem a sequências de nucleotídeo que influenciam o momento e nível/quantidade de transcrição, processamento ou estabilidade de RNA ou tradução da sequência de codificação associada. Sequências reguladoras podem incluir promotores; sequências líder de tradução; íntrons; potencializadores; estruturas tronco-alça; sequências de ligação de repressor; sequências de terminação; sequências de reconhecimento de poliadenilação; etc. Sequências reguladoras particulares podem estar localizadas a montante e/ou a jusante de uma sequência de codificação operavelmente ligada às mesmas. Também, sequências reguladoras particulares operavelmente ligadas a uma sequência de codificação podem estar localizadas na fita complementar associada de uma molécula de ácido nucleico de fita dupla.
[00105] Quando usado em referência a duas ou mais sequências de aminoácido, o termo “operavelmente ligado” significa que a primeira sequência de aminoácido está em uma relação funcional com pelo menos uma das sequências de aminoácido adicionais.
[00106] Os métodos e as composições revelados incluem proteínas de fusão compreendendo um domínio de clivagem operavelmente ligado a um domínio de ligação de DNA (por exemplo, uma ZFP) onde o domínio de ligação de DNA através de ligação a uma sequência no locus genômico ideal de soja direciona a atividade do domínio de clivagem para a vizinhança da sequência e, então, induz uma quebra de fita dupla no locus genômico ideal. Conforme mostrado em outro ponto na presente invenção, um domínio dedo de zinco pode ser engenheirado para se ligar a virtualmente qualquer sequência desejada. Desta maneira, um ou mais domínios de ligação de DNA podem ser engenheirados para se ligar a uma ou mais sequências no locus genômico ideal. Expressão de uma proteína de fusão compreendendo um domínio de ligação de DNA e um domínio de clivagem em uma célula afeta a clivagem no ou próximo do sítio-alvo.
MODALIDADES
[00107] Direcionamento de transgenes e pilhas de transgene para locais específicos no genoma de plantas dicotiledôneas, tal como uma planta de soja, aperfeiçoará a qualidade de eventos transgênicos, reduzirá custos associados com produção de eventos transgênicos e proverá novos métodos para fabricação de produtos de planta transgênicos tal como empilhamento de gene sequencial. No geral, direcionamento de transgenes para sítios genômicos específicos é provável ser comercialmente benéfico. Avanços significantes foram feitos nos últimos anos com relação ao desenvolvimento de nucleases específicas de sítio tais como ZFNs, CRISPRs e TALENs que podem facilitar adição de polinucleotídeos doadores a sítios pré-selecionados em planta e outros genomas. No entanto, muito menos é conhecido sobre os atributos de sítios genômicos que são adequados para direcionamento. Historicamente, sítios de integração de genes e patógeno (viral) não essenciais em genomas têm sido usados como loci para direcionamento. O número de tais sítios em genomas é bastante limitante e há então uma necessidade de identificação e caracterização de loci genômicos ideais que possam ser usados para direcionamento de sequências de polinucleotídeo doadoras. Em adição a ser condescendentes a direcionamento, loci genômicos ideais são esperados ser sítios neutros que possam apoiar aplicações de expressão e reprodução de transgene.
[00108] A requerente reconheceu que critérios adicionais são desejáveis para sítios de inserção e combinaram esses critérios para identificar e selecionar sítios ideais no genoma dicotiledôneo, tal como o genoma de soja, para inserção de sequências exógenas. Para propósitos de direcionamento, o sítio de inserção selecionado precisa ser único e em uma região não repetitiva do genoma de uma planta dicotiledônea, tal como uma planta de soja. Da mesma maneira, o sítio genômico ideal para inserção deve possuir efeitos fenotípicos indesejáveis mínimos e ser suscetível a eventos de recombinação para facilitar introgressão em linhagens agronomicamente de elite usando técnicas de reprodução tradicionais. A fim de identificar os loci genômicos que satisfazem os critérios listados, o genoma de uma planta de soja foi varrido usando uma abordagem de bioinformática customizada e conjuntos de dados de escala de genoma para identificar novos loci genômicos possuindo características que são benéficas para a integração de sequência doadora de polinucleotídeo e subsequente expressão de uma sequência de codificação inseridos.
I. Identificação de Loci Genômicos de Soja Não gênicos
[00109] De acordo com uma modalidade é provido um método para identificação de sequência genômica de soja não gênica ideal para inserção de sequências exógenas. O método compreende as etapas de primeiro identificar sequências genômicas de soja de pelo menos 1 Kb de comprimento que são hipometiladas. Em uma modalidade, a sequência genômica hipometilada é de 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 10, 11, 12, 13, 14, 15, 16 ou 17 Kb de comprimento. Em uma modalidade, a sequência genômica hipometilada é de cerca de 1 a cerca de 5,7 Kg de comprimento e em uma modalidade adicional é cerca de 2 Kb de comprimento. Uma sequência é considerada hipometilada se ela tiver menos de 1% de metilação de DNA dentro da sequência. Em uma modalidade o estado de metilação é medido com base na presença de 5-metilcitosina em um ou mais dinucleotídeos de CpG, trinucleotídeos de CHG ou CHH dentro de uma sequência de soja selecionada, com relação à quantidade de citosinas totais encontradas em dinucleotídeos de CpG, trinucleotídeos de CHG ou CHH correspondentes, dentro de uma amostra de DNA controle normal. Mais particularmente, em uma modalidade a sequência de soja selecionada tem menos de 1, 2 ou 3 nucleotídeos metilados por 500 nucleotídeos da sequência de soja selecionada. Em uma modalidade, a sequência de soja selecionada tem menos de uma, duas ou três 5- metilcitosinas em dinucleotídeos de CpG por 500 nucleotídeos da sequência de soja selecionada. Em uma modalidade a sequência de soja selecionada é 1 a 4 Kb de comprimento e compreende uma sequência de 1 Kb destituída de 5-metilcitosinas. Em uma modalidade a sequência de soja selecionada é de 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5 ou 6, Kb de comprimento e contém 1 ou 0 nucleotídeo metilado em seu comprimento total. Em uma modalidade a sequência de soja selecionada é de 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5 ou 6, Kb de comprimento e não contém quaisquer 5-metilcitosinas em dinucleotídeos de CpG dentro de seu comprimento integral. De acordo com uma modalidade a metilação de uma sequência de soja selecionada pode variar com base no tecido fonte. Em tais modalidades os níveis de metilação usados para determinar se uma sequência é hipometilada representam a quantidade média de metilação nas sequências isoladas de dois ou mais tecidos (por exemplo, da raiz e parte aérea).
[00110] Em adição à necessidade que um sítio genômico ideal seja hipometilado, a sequência de soja selecionada deve ser também não gênica. Desta maneira, todas as sequências genômicas hipometiladas são avaliadas adicionalmente para eliminar sequências hipometilada que contêm uma região gênica. Isso inclui quaisquer estruturas de leitura aberta sem importar se o transcrito codifica uma proteína. Sequências genômicas hipometiladas que incluem regiões gênicas, incluindo quaisquer sequências de nucleotídeo de não codificação 5’ e 3’ adjacentes identificáveis envolvidas na regulagem de expressão de uma estrutura de leitura aberta e quaisquer íntrons que possam estar presentes na região gênica, são excluídas do locus genômico de soja não gênico ideal da presente invenção.
[00111] Os loci genômicos de soja não gênicos ideais devem também ser sequências que demonstraram evidência de recombinação. Em uma modalidade, a sequência de soja selecionada deve conter pelo menos um evento de recombinação entre dois marcadores que flanqueiam a sequência de soja selecionada conforme detectado usando um conjunto de dados de marcador de alta resolução gerado a partir de populações de mapeamento múltiplas. Em uma modalidade, o par de marcadores que flanqueiam uma sequência genômica dicotiledônea de 0,5; 1; 1,5 Mb, tal como uma sequência genômica de soja, que compreende a sequência de soja selecionada, é usado para calcular a frequência recombinante para a sequência de soja selecionada. As frequências de recombinação entre cada um dos pares de marcadores (medidas em centimorgan (cM)) para distância física genômica entre os marcadores (em Mb)) deve ser maior do que 0,0157 cM/Mb. Em uma modalidade, a frequência de recombinação para uma sequência genômica de soja de 1 Mb que compreende a sequência de soja selecionada varia de cerca de 0,01574 cM/Mb a cerca de 83,52 cM/Mb. Em uma modalidade, os loci genômicos ideais são aqueles onde os eventos de recombinação foram detectados dentro da sequência de soja selecionada.
[00112] Os loci genômicos de soja não gênicos ideais serão também uma sequência direcionável, isto é, uma sequência que é relativamente singular no genoma da soja de tal modo que um gene direcionado para a sequência de soja selecionada se inserirá em um local do genoma da soja. Em uma modalidade, o comprimento total da sequência genômica ideal compartilha menos do que 30%, 35% ou 40% de identidade de sequência com outra sequência de comprimento similar contida no genoma da soja. Consequentemente, em uma modalidade a sequência de soja selecionada não pode compreender uma sequência de 1 Kb que compartilhe mais do que 25%, 30%, 35% ou 40% de identidade de sequência com outra sequência de 1 Kb contida no genoma da soja. Em uma modalidade adicional, a sequência de soja selecionada não pode compreender uma sequência de 500 pb que compartilhe mais do que 30%, 35% ou 40% de identidade de sequência com outra sequência de 500 pb contida no genoma da soja. Em uma modalidade, a sequência de soja selecionada não pode compreender uma sequência de 1 Kb que compartilhe mais do que 40% de identidade de sequência com outra sequência de 1 Kb contida no genoma de uma planta dicotiledônea, tal como uma planta de soja.
[00113] Os loci genômicos de soja não gênicos ideais também estarão próximos a uma região gênica. Mais particularmente, uma sequência selecionada de soja deve estar localizada na vizinhança de uma região gênica (por exemplo, uma região gênica deve estar localizada dentro de 40 Kb de sequência genômica que flanqueia e está contígua a qualquer extremidade da soja selecionada como encontrado no genoma nativo). Em uma modalidade, uma região gênica é localizada dentro de 10, 20, 30 ou 40 Kb de sequência genômica contígua localizada em uma ou outra extremidade da sequência de soja selecionada como encontrado no genoma de soja nativo. Em uma modalidade, duas ou mais regiões gênicas estão localizadas dentro de 10, 20, 30 ou 40 Kb de sequência genômica contígua que flanqueia as duas extremidades da sequência de soja selecionada. Em uma modalidade, 1-18 regiões gênicas estão localizadas dentro de 10, 20, 30 ou 40 Kb de sequência genômica contígua que flanqueia as duas extremidades da sequência de soja selecionada. Em uma modalidade, duas ou mais regiões gênicas são localizadas dentro de 20, 30 ou 40 Kb de sequência genômica que compreende a sequência de soja selecionada. Em uma modalidade, 1-18 regiões gênicas estão localizadas dentro de uma sequência genômica de 40 Kb que compreende a sequência de soja selecionada. Em uma modalidade, a região gênica localizada dentro de 10, 20, 30 ou 40 Kb de uma sequência genômica contígua de que flanqueia a sequência de soja selecionada compreende um gene conhecido no genoma de uma planta dicotiledônea, tal como uma planta de soja.
[00114] De acordo com uma modalidade, loci genômico de soja não gênico modificado é provido onde o loci é de pelo menos 1 Kb em comprimento, é não gênico, não compreende resíduos de citosina metilada, tem a frequência de recombinação maior do que 0,01574 cM/Mb em uma região genômica de 1Mb que abrange o loci genômico da soja e uma sequência de 1 Kb do loci genômico de soja compartilha menos do que 40% de identidade de sequência com qualquer outra sequência de 1 Kb contida no genoma dicotiledôneo, em que os loci genômicos de soja não gênicos são modificado pela inserção de um DNA de interesse no loci genômicos de soja não gênicos.
[00115] Um método para identificar loci genômicos de soja não gênicos ideais é provido. Em algumas modalidades, o método compreende primeiro varredura do genoma dicotiledôneo para criar um primeiro grupo genético de sequências de soja selecionadas que têm um comprimento mínimo de 1 Kb e são hipometiladas, opcionalmente onde a sequência genômica tem menos de 1% de metilação, opcionalmente onde a sequência genômica é desprovida de quaisquer resíduos de citosina metilada. Este primeiro grupo genético de sequências de soja selecionadas pode ainda ser avaliado para eliminar os loci que não satisfazem as condições para loci genômicos de soja não gênicos ideais. Sequências genômicas dicotiledôneas, tais como aquelas obtidas a partir da soja, que codificam transcritos dicotiledôneos, compartilham mais de 40% ou mais de identidade de sequência com outra sequência de comprimento similar, não exibem evidência de recombinação, e não têm uma estrutura de leitura aberta conhecida dentro de 40 Kb da sequência de soja selecionada, são eliminadas do primeiro grupo genético de sequências, deixando um segundo grupo de sequências que se qualificam como loci de soja não gênicos ideais. Em uma modalidade, quaisquer sequências de soja selecionadas que não têm um gene dicotiledôneo conhecido (isto é, um gene de soja), ou uma sequência que compreende uma região 2 Kb a montante e/ou 1 Kb a jusante de um gene dicotiledôneo conhecido, dentro de 40 Kb de uma extremidade de dita sequência não gênica são eliminadas do primeiro grupo genético de sequências. Em uma modalidade, quaisquer sequências de soja selecionadas que não tenham um gene conhecido que expressa uma proteína dentro de 40 Kb da sequência de soja selecionada são eliminadas. Em uma modalidade, quaisquer sequências de soja selecionada que não tenham um frequência de recombinação de mais do que 0,01574 cM/Mb são eliminadas.
[00116] Ao usar esses critérios de seleção, os requerentes identificaram loci genômicos ideais de dicotiledônea, tal como soja, que servem como loci genômicos de soja não gênicos ideais, cujas sequências que são reveladas como SEQ ID NO: 1-SEQ ID NO: 7.018. A presente descrição também abrange variantes naturais ou derivados modificados dos loci genômicos de soja não gênicos ideais identificados em que os loci variantes ou derivativos compreendem uma sequência que difere de qualquer sequência da SEQ ID NO: 1-SEQ ID NO: 7.018 por 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleotídeos. Em uma modalidade, os loci genômicos de soja não gênicos ideais para uso de acordo com a presente descrição compreendem sequências selecionadas da SEQ ID NO: 1-SEQ ID NO: 7.018 ou sequências que compartilham 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% da identidade da sequência com uma sequência selecionada a partir da SEQ ID NO: 1- SEQ ID NO: 7.018.
[00117] Em outra modalidade, as plantas dicotiledôneas para uso de acordo com a presente descrição compreendem qualquer planta selecionada a partir do grupo que consiste de uma planta de soja, uma planta de canola, uma planta de colza, uma planta Brassica, uma planta de algodão e uma planta de girassol. Exemplos de plantas dicotiledôneas que podem ser usadas incluem, mas não estão limitadas a, canola, algodão, batata, quinoa, amaranto, sarraceno, açafrão, soja, beterraba açucareira, girassol, canola, colza, tabaco, Arabidopsis, Brassica e algodão.
[00118] Em outra modalidade, os loci genômicos de soja não gênicos ideais para uso de acordo com a presente descrição compreendem sequências selecionadas de plantas de soja. Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais para uso de acordo com a presente invenção compreendem sequências selecionadas a partir de cruzamentos entre a mesma espécie de Glycine max. Consequentemente, o cruzamento entre a mesma espécie de Glycine max inclui variedades agronomicamente de elite da mesma. Em uma modalidade subsequente, os loci genômicos de soja não gênicos ideais para uso de acordo com a presente invenção compreendem as sequências selecionadas a partir de linhagens de soja transformáveis. Em uma modalidade, as linhagens de soja transformáveis representativas incluem; Maverick, Williams82, Merrill JackPeking, Suzuyutaka, Fayette, Enrei, Mikawashima, WaseMidori, Jack, Leculus, Morocco, Serena, Maple prest, Thorne, Bert, Jungery, A3237, Williams, Williams79, AC Colibri, Hefeng 25, Dongnong 42, Hienong 37, Jilin 39, Jiyu 58, A3237, Kentucky Wonder, Minidoka e derivados das mesmas. Um versado na técnica compreenderá que como um resultado de divergência filogenética, vários tipos de linhagens de soja não contêm sequências de DNA genômicas idênticas, e que polimorfismos ou variação alélica podem estar presentes dentro das sequências genômicas. Em uma modalidade, a presente invenção compreende tais polimorfismo ou variações alélicas dos loci genômicos de soja não gênicos ideais identificados em que os polimorfismos ou variação alélica compreendem uma sequência que difere de qualquer sequência com SEQ ID NO: 1-SEQ ID NO: 7.018 por 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 nucleotídeos. Em uma modalidade adicional, a presente invenção compreende ditos polimorfismos ou variações alélicas dos loci genômicos de soja não gênicos ideais identificados em que as sequências que compreendem os polimorfismos ou variações alélicas compartilham 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% ou 99% da identidade da sequência com qualquer sequência de SEQ ID NO: 1-SEQ ID NO: 7.018.
[00119] Os loci genômicos ideais identificados que compreendem 7.018 sequências individuais podem ser categorizados em vários subgrupos através de análise adicional usando um método de análise multivariado. A aplicação de programas estatísticos de análise multivariados é usado para revelar a estrutura latente (dimensões) de um conjunto de variáveis. Uma série de tipos diferentes de algoritmos multivariados pode ser usada, por exemplo, o grupo de dados pode ser analisado usando análise de regressão múltipla, análise de regressão logística, análise discriminante, análise multivariada de variância (MANOVA), análise de fator (que incluem ambas a análise de fator comum e a análise de componente principal), análise de agrupamentos, escalonamento multidimensional, análise de correspondência, análise conjugada, análise canônica, correlação canônica e modelagem de equação estrutural.
[00120] De acordo com uma modalidade, os loci genômicos de soja não gênicos ideais são analisados adicionalmente usando análise de dados multivariada tais como Análise de Componente Principal (PCA) (Principal Component Analysis). Somente uma breve descrição será dada aqui, mais informação pode ser encontrada em H. Martens, T. Naes, Multivariate Calibration, Wiley, N.Y., 1989. PCA avalia a dimensionalidade de base (variáveis latentes) dos dados, e dá uma ideia dos padrões dominantes e principais tendências nos dados. Em uma modalidade, os loci genômicos de soja não gênicos ideais podem ser classificados em agrupamentos através de um método estatístico de análise de componente principal (PCA). O PCA é um procedimento matemático que usa uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas em um conjunto de variáveis linearmente não correlacionadas chamadas de componentes principais. O número de componentes principais é menor do que ou igual ao número de variáveis originais. Esta transformação é definida de tal modo que o primeiro componente principal tem a maior variância possível (isto é, se responsabiliza pela maior parte da variabilidade nos dados possível), e cada componente seguinte tem a maior variância possível sob a limitação de ser ortogonal a (isto é, não correlacionado com) os componentes antecedentes. Os componentes principais são assegurados ser independentes caso o conjunto de dados seja distribuído normalmente em conjunto. O PCA é sensível ao escalonamento relativo das variáveis originais. Exemplos do uso de PCA para aglomerar um conjunto de entidades com base em características das entidades incluem; Ciampitti, I. e outros, (2012) Crop Science, 52(6); 2728-2742, Chemometrics: A Practical Guide, Kenneth R. Beebe, Randy J. Pell e Mary Beth Seasholtz, Wiley-Interscience, 1 edição, 1998, Patente Norte-Americana No. 8.385.662 e Patente Europeia No. 2.340.975.
[00121] De acordo com uma modalidade, uma análise de componente principal (PCA) foi conduzida nos 7.018 loci genômicos de soja ideais usando as 10 características a seguir para cada um dos loci genômicos de soja ideais: 1. Comprimento da região hipometilada em torno dos loci genômicos de soja ideais (OGL) a. Perfis de metilação de DNA de tecidos de raiz e parte aérea isolados de uma planta dicotiledônea, por exemplo, Glycine max cultivar Williams82, foram montados usando uma abordagem de sequenciamento de genoma total de alto rendimento. O DNA retirado foi submetido ao tratamento com bissulfeto que converte citosinas não metiladas em uracilas, mas não afeta as citosinas metiladas, e depois sequenciado usando a tecnologia Illumina HiSeq (Krueger, F. e outros, “DNA methylome analysis using short bisulfite sequencing data”. Nature Methods 9, 145-151 (2012)). As leituras de sequenciamento brutas foram mapeadas para a sequência de referência da dicotiledônea, por exemplo, a sequência de referência de Glycine max, usando o software de mapeamento Bismark® (como descrito em Krueger, F., Andrews, S.R. (2011) “Bismark: a flexible aligner and methylation caller for Bisulfite-Seq applications”. (Bioinformatics 27: 1571-1572)). O comprimento da região hipometilada em torno de cada um dos OGLs foi calculado usando os perfis de metilação descritos. 2. Taxa de Recombinação em uma região de 1MB em torno de OGL a. Para cada OGL, um par de marcadores em cada lado do OGL, dentro de uma janela de 1Mb, foi identificado. As frequências de recombinação entre cada um dos pares de marcadores ao longo do cromossomo foram calculadas com base na relação da distância genética entre os marcadores (em centimorgan (cM)) para a distância física genômica entre os marcadores (em Mb). 3. Nível de singularidade da sequência de OGL a. Para cada OGL, a sequência de nucleotídeo do OGL foi varrida em oposição ao genoma de uma planta dicotiledônea, por exemplo, genoma de soja c.v. Williams82, usando uma pesquisa por homologia com base em BLAST. À medida que essas sequências de OGL são identificadas a partir do genoma de uma planta dicotiledônea, por exemplo, genoma de soja c.v. Williams82, o primeiro hit de BLAST identificado através dessa busca representa a própria sequência de OGL. O segundo hit de BLAST para cada OGL foi identificado e a cobertura do alinhamento do hit foi usada como uma medida da singularidade da sequência de OGL dentro do genoma da dicotiledônea, por exemplo, genoma da soja. 4. Distância do OGL para o gene mais próximo em sua vizinhança a. A informação de anotação de gene e a localização de genes conhecidos no genoma dicotiledôneo, por exemplo, genoma de soja c.v. Williams82, foram extraídas de um banco de dados de genoma dicotiledôneo conhecido, por exemplo, Banco de Dados de Genoma de Soja (www.soybase.org). Para cada OGL, o gene anotado mais próximo na vizinhança a jusante e a montante foi identificado e a distância entre a sequência de OGL e o gene foi medida (em pb). 5. %CG na vizinhança de OGL a. Para cada OGL, a sequência de nucleotídeo foi analisada para estimar o número de bases de Guanina e Citosina presente. Esta contagem foi representada como uma porcentagem do comprimento da sequência de cada OGL e prove a medida para % de GC. b. Número de genes em uma vizinhança de 40 Kb em torno de OGL a. A informação da anotação de gene e a localização de genes conhecidos no genoma de dicotiledônea, por exemplo, genoma de soja c.v. Williams82, foram extraídas de um banco de dados genômico de dicotiledônea conhecido, por exemplo, Banco de Dados de Genoma de Soja (www.soybase.org). Para cada OGL, uma janela de 40 Kb em torno de OGL foi definida e o número de genes anotados com as localizações sobrepostas a esta janela foi contado. 7. Expressão de gene média em uma vizinhança de 40 Kb em torno do OGL. a. Expressão do nível de transcrito de genes dicotiledôneos, por exemplo, genes de soja, foi medida ao analisar dados de perfil de transcriptoma gerados a partir de tecidos de planta dicotiledônea, por exemplo, tecidos de raiz e parte aérea da soja c.v. Williams82, usando a tecnologia RNAseq. Para cada OGL, os genes anotados dentro do genoma da dicotiledônea, genoma da soja c.v. Williams82, que estavam presentes em uma vizinhança de 40 Kb em torno do OGL foram identificados. Os níveis de expressão para cada um dos genes na janela foram extraídos de perfis de transcriptoma e um nível de expressão de genes médio foi calculado. 8. Nível da ocupação do nucleossoma em torno do OGL a. Enxergar o nível de ocupação do nucleossoma para uma sequência de nucleotídeo em particular provê a informação sobre as funções dos cromossomos e o contexto genômico da sequência. O pacote estatístico NuPoP® provê uma ferramenta de software de fácil utilização para predizer a ocupação do nucleossoma e o mapa de posicionamento mais provável do nucleossoma para sequências genômicas de qualquer tamanho (Xi, L., Fondufe-Mittendor, Y., Xia, L., Flatow, J., Widom, J. e Wang, J.P., “Predicting nucleosome positioning using a duration Hidden Markov Model”, BMC Bioinformatics, 2010, doi:10.1186/1471-2105-11-346). Para cada OGL, a sequência de nucleotídeo foi submetida ao software NuPoP® e uma contagem de ocupação de nucleossoma foi calculada. 9. Localização Relativa dentro do cromossomo (proximidade ao centrômero) a. A informação sobre a posição do centrômero em cada um dos cromossomos dicotiledôneos, por exemplo, cromossomos de soja, e os comprimentos dos braços do cromossomo foram extraídos de um banco de dados genômico dicotiledôneo, por exemplo, Banco de Dados de Genoma de Soja (www.soybase.org). Para cada OGL, a distância genômica da sequência de OGL para o centrômero do cromossomo no qual está localizado é medida (em pb). A localização relativa de um OGL dentro do cromossomo é representada como a razão de sua distância genômica para o centrômero com relação ao comprimento do braço do cromossomo específico no qual está situado. 10. Número de OGLs em uma região de 1 Mb em torno do OGL a. Para cada OGL, uma janela genômica de 1 Mb em torno da localização de OGL é definida e o número de OGLs, no conjunto de dados da OGL da dicotiledônea de 1 Kb, cujas localizações genômicas se sobrepõem a esta janela é calculado.
[00122] Os resultados ou valores para a classificação das características e atributos de cada um dos loci genômicos de soja não gênicos ideais são ainda descritos na Tabela 3 do Exemplo 2. O conjunto de dados resultante foi usado no método estatístico de PCA para agrupar os 7.018 loci genômicos de soja não gênicos ideais identificados em agrupamentos. Durante o processo de agrupamento, após estimar os componentes de princípio “p” dos loci genômicos ideais, a alocação dos loci genômicos ideais a um dos 32 agrupamentos prosseguiu no espaço euclidiano dimensional “p”. Cada um dos eixos “p” foi dividido em intervalos “k”. Os loci genômicos ideais alocados no mesmo intervalos foram agrupados juntos para formar os agrupamentos. Ao usar esta análise, cada eixo de PCA foi dividido em dois intervalos, os quais foram escolhidos com base em uma informação prévia com relação ao número de agrupamentos necessário para a validação experimental. Todas a análise e a visualização dos agrupamentos resultantes foram realizadas com o software Molecular Operating Environment® (MOE) da Chemical Computing Group Inc. (Montreal, Quebec, Canadá). A abordagem por PCA foi usada para agrupar o conjunto de 7.018 loci genômicos de soja ideais nos 32 agrupamentos distintos baseado nos seus valores de característica, descritos acima.
[00123] Durante o processo de PCA, cinco componentes principais (PC) (Principal Components) foram gerados, com os três PCs melhores contendo cerca de 90% da variação total no conjunto de dados (Tabela 4). Esses três PCs foram usados para representar graficamente os 32 agrupamentos em um gráfico tridimensional (Vide Fig. 1). Após o processo de agrupamento ser completado, um dos loci genômicos ideais representativos foi escolhido de cada agrupamento. Isso foi realizado escolhendo um locus genômico ideal, dentro de cada agrupamento, que estava mais próximo do centroide daquele agrupamento através de métodos computacionais (Tabela 4). As localizações do cromossomo dos 32 loci genômicos ideais representativos são distribuídas uniformemente ao longo do cromossomo da soja como mostrado na Fig. 2.
[00124] De acordo com uma modalidade, um dos loci genômicos de soja não gênicos ideais modificados é provido, onde os loci genômicos de soja não gênicos ideais foram modificados e compreendem uma ou mais substituições, deleções ou inserções de nucleotídeo. Em uma modalidade, os loci genômicos de soja não gênicos ideais são modificados pela inserção de um DNA de interesse.
[00125] Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de qualquer sequência descrita nas Tabelas 7 e 8 do Exemplo 7. Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _1423 (SEQ ID NO:639), soja_ OGL _1434 (SEQ ID NO:137), soja_ OGL _4625 (SEQ ID NO:76), soja_ OGL _6362 (SEQ ID NO:440), soja_OGL_308 (SEQ ID NO:43), soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _1423 (SEQ ID NO:639). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _1434 (SEQ ID NO:137). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _4625 (SEQ ID NO:76). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _6362 (SEQ ID NO:440). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_308 (SEQ ID NO:43). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_307 (SEQ ID NO:566). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_310 (SEQ ID NO:4236). Em uma modalidade os loci genômicos de soja não gênicos ideais serem modificados são uma sequência genômica selecionada de soja_OGL_684 (SEQ ID NO:47). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_682 (SEQ ID NO:2101). Em uma modalidade, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_685 (SEQ ID NO:48).
[00126] Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_ OGL _1423 (SEQ ID NO:639), soja_ OGL _1434 (SEQ ID NO:137) e soja_ OGL _4625 (SEQ ID NO:76). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci_ soja_ OGL _6362 (SEQ ID NO:440) e soja_OGL_308 (SEQ ID NO:43). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47) e soja_OGL_682 (SEQ ID NO:2101). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236), e soja_OGL_684 (SEQ ID NO:47). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_307 (SEQ ID NO:566) e soja_OGL_310 (SEQ ID NO:4236). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_310 (SEQ ID NO:4236), soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_684 (SEQ ID NO:47), soja_OGL_682 (SEQ ID NO:2101) e soja_OGL_685 (SEQ ID NO:48). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_682 (SEQ ID NO:2101), e soja_OGL_685 (SEQ ID NO:48).
[00127] Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_307 (SEQ ID NO:566), soja_OGL_310 (SEQ ID NO:4236) e soja_OGL_308 (SEQ ID NO:566). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_6362 (SEQ ID NO:440), soja_OGL_4625 (SEQ ID NO:76) e soja_OGL_308 (SEQ ID NO:566). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_1423 (SEQ ID NO:639) e soja_OGL_1434 (SEQ ID NO:137). Em uma modalidade adicional, os loci genômicos de soja não gênicos ideais a serem modificados são uma sequência genômica selecionada de loci soja_OGL_682 (SEQ ID NO:47), soja_OGL_684 (SEQ ID NO:2101) e soja_OGL_85 (SEQ ID NO:48).
[00128] Em uma modalidade, os loci genômicos de soja não gênicos ideais são selecionados de sequências genômicas de soja_ogl_2474 (SEQ ID NO: 1), soja_ogl_768 (SEQ ID NO: 506), soja_ogl_2063 (SEQ ID NO: 2063), soja_ogl_1906 (SEQ ID NO: 1029), soja_ogl_1112 (SEQ ID NO: 1112), soja_ogl_3574 (SEQ ID NO: 1452), soja_ogl_2581 (SEQ ID NO: 1662), soja_ogl_3481 (SEQ ID NO: 1869), soja_ogl_1016 (SEQ ID NO: 2071), soja_ogl_937 (SEQ ID NO: 2481), soja_ogl_6684 (SEQ ID NO: 2614), soja_ogl_6801 (SEQ ID NO: 2874), soja_ogl_6636 (SEQ ID NO: 2970), soja_ogl_4665 (SEQ ID NO: 3508), soja_ogl_3399 (SEQ ID NO: 3676), soja_ogl_4222 (SEQ ID NO: 3993), soja_ogl_2543 (SEQ ID NO: 4050), soja_ogl_275 (SEQ ID NO: 4106), soja_ogl_598 (SEQ ID NO: 4496), soja_ogl_1894 (SEQ ID NO: 4622), soja_ogl_5454 (SEQ ID NO: 4875), soja_ogl_6838 (SEQ ID NO: 4888), soja_ogl_4779 (SEQ ID NO: 5063), soja_ogl_3333 (SEQ ID NO: 5122), soja_ogl_2546 (SEQ ID NO: 5520), soja_ogl_796 (SEQ ID NO: 5687), soja_ogl_873 (SEQ ID NO: 6087), soja_ogl_5475 (SEQ ID NO: 6321), soja_ogl_2115 (SEQ ID NO: 6520), soja_ogl_2518 (SEQ ID NO: 6574), soja_ogl_5551 (SEQ ID NO: 6775) e soja_ogl_4563 (SEQ ID NO: 6859).
[00129] Em uma modalidade, os loci genômicos de soja não gênicos ideais são selecionados das sequências genômicas de soja_ogl_308 (SEQ ID NO: 43), soja_ogl_307 (SEQ ID NO: 566), soja_ogl_2063 (SEQ ID NO: 748), soja_ogl_1906 (SEQ ID NO: 1029), soja_ogl_262 (SEQ ID NO: 1376), soja_ogl_5227 (SEQ ID NO: 1461), soja_ogl_4074 (SEQ ID NO: 1867), soja_ogl_3481 (SEQ ID NO: 1869), soja_ogl_1016 (SEQ ID NO: 2071), soja_ogl_937 (SEQ ID NO: 2481), soja_ogl_5109 (SEQ ID NO: 2639), soja_ogl_6801 (SEQ ID NO: 2874), soja_ogl_6636 (SEQ ID NO: 2970), soja_ogl_4665 (SEQ ID NO: 3508), soja_ogl_6189 (SEQ ID NO: 3682), soja_ogl_4222 (SEQ ID NO: 3993), soja_ogl_2543 (SEQ ID NO: 4050), soja_ogl_310 (SEQ ID NO: 4326), soja_ogl_2353 (SEQ ID NO: 4593), soja_ogl_1894 (SEQ ID NO: 4622), soja_ogl_3669 (SEQ ID NO: 4879), soja_ogl_3218 (SEQ ID NO: 4932), soja_ogl_5689 (SEQ ID NO: 5102), soja_ogl_3333 (SEQ ID NO: 5122), soja_ogl_2546 (SEQ ID NO: 5520), soja_ogl_1208 (SEQ ID NO: 5698), soja_ogl_873 (SEQ ID NO: 6087), soja_ogl_5957 (SEQ ID NO: 6515), soja_ogl_4846 (SEQ ID NO: 6571), soja_ogl_3818 (SEQ ID NO: 6586), soja_ogl_5551 (SEQ ID NO: 6775), soja_ogl_7 (SEQ ID NO: 6935), soja_OGL_684 (SEQ ID NO: 47), soja_OGL_682 (SEQ ID NO: 2101), soja_OGL_685 (SEQ ID NO: 48), soja_ OGL _1423 (SEQ ID NO: 639), soja_ OGL _1434 (SEQ ID NO: 137), soja_ OGL _4625 (SEQ ID NO: 76) e soja_ OGL _6362 (SEQ ID NO: 440).
[00130] Em uma modalidade, os loci genômicos de soja não gênicos ideais são direcionados com um DNA de interesse, no qual o DNA de interesse se integra dentro ou próximo aos sítios-alvo de nuclease dedo de zinco. De acordo com uma modalidade, os sítios-alvo de dedo de zinco exemplares de loci genômicos de soja selecionados ideais são providos na Tabela 8. De acordo com uma modalidade, a integração de um DNA de interesse ocorre dentro ou próximo dos sítios-alvo exemplares de: SEQ ID NO: 7363 e SEQ ID NO: 7364, SEQ ID NO: 7365 e SEQ ID NO: 7366, SEQ ID NO: 7367 e SEQ ID NO: 7368, SEQ ID NO: 7369 e SEQ ID NO: 7370, SEQ ID NO: 7371 e SEQ ID NO: 7372, SEQ ID NO: 7373 e SEQ ID NO: 7374, SEQ ID NO: 7375 e SEQ ID NO: 7376, SEQ ID NO: 7377 e SEQ ID NO: 7378, SEQ ID NO: 7379 e SEQ ID NO: 7380, SEQ ID NO: 7381 e SEQ ID NO: 7382, SEQ ID NO: 7383 e SEQ ID NO: 7384, SEQ ID NO: 7385 e SEQ ID NO: 7386, SEQ ID NO: 7387 e SEQ ID NO: 7388, SEQ ID NO: 7389 e SEQ ID NO: 7390, SEQ ID NO: 7391 e SEQ ID NO: 7392, SEQ ID NO: 7393 e SEQ ID NO: 7394, SEQ ID NO: 7395 e SEQ ID NO: 7396, SEQ ID NO: 7397 e SEQ ID NO: 7398, SEQ ID NO: 7399 e SEQ ID NO: 7400, SEQ ID NO: 7401 e SEQ ID NO: 7402, SEQ ID NO: 7403 e SEQ ID NO: 7404, SEQ ID NO: 7405 e SEQ ID NO: 7406, SEQ ID NO: 7407 e SEQ ID NO: 7408, SEQ ID NO: 7409 e SEQ ID NO: 7410, SEQ ID NO: 7411 e SEQ ID NO: 7412, SEQ ID NO: 7413 e SEQ ID NO: 7414, SEQ ID NO: 7415 e SEQ ID NO: 7416, SEQ ID NO: 7417 e SEQ ID NO: 7418, SEQ ID NO: 7419 e SEQ ID NO: 7420, SEQ ID NO: 7421 e SEQ ID NO: 7422, SEQ ID NO: 7423 e SEQ ID NO: 7424, SEQ ID NO: 7425 e SEQ ID NO: 7426.
[00131] Em uma modalidade, os loci genômicos de soja não gênicos ideais são direcionados com um DNA de interesse, no qual o DNA de interesse se integra dentro ou próximo aos sítios-alvo de nuclease dedo de zinco. De acordo com uma modalidade, a nuclease dedo de zinco se liga ao sítio-alvo dedo de zinco e cliva os sítios-alvo de polinucleotídeo genômicos da soja singulares, de maneira que o DNA de interesse se integra dentro ou próximo dos sítios-alvo de polinucleotídeo genômico de soja. Em uma modalidade, a integração do DNA de interesse que ocorre dentro do sítio-alvo de dedo de zinco pode resultar com reorganizações. De acordo com uma modalidade, as reorganizações podem compreender deleções, inserções, inversões e repetições. Em uma modalidade, a integração do DNA de interesse próxima ao sítio- alvo dedo de zinco. De acordo com um aspecto da modalidade, a integração do DNA é próxima ao sítio-alvo dedo de zinco, e pode se integrar dentro de 1,5 Kb, 1,25 Kb, 1,0 Kb, 0,75 Kb, 0,5 Kb ou 0,25 Kb para o sítio-alvo de dedo de zinco. A inserção dentro de uma região genômica proximal ao sítio-alvo dedo de zinco é conhecida na técnica, vide Publicação da Patente Norte-Americana No. 2010/0257638 A1 (aqui incorporada a título de referência em sua totalidade).
[00132] De acordo com uma modalidade, a sequência não gênica selecionada compreende as características a seguir: a) a sequência não gênica não contém mais do que 1% de metilação de DNA dentro da sequência; b) a sequência não gênica tem um valor de localização relativo de razão de 0,211 para 0,976 de distância genômica de um centrômero de cromossomo de soja; c) a sequência não gênica tem uma faixa de teor percentual de guanina/citosina de 25,62 a 43,76%; e, d) a sequência não gênica é de cerca de 1 Kb a cerca de 4,4 Kb de comprimento. II. Derivados Recombinantes de loci Genômicos de Soja não Gênicos Ideais Identificados
[00133] De acordo com uma modalidade, após ter identificado loci genômicos de uma planta dicotiledônea, tal como uma planta de soja, como uma localização altamente desejável para inserir sequência doadoras de polinucleotídeo, um ou mais ácidos nucleicos de interesse podem ser inseridos no locus genômico identificado. Em uma modalidade, o ácido nucleico de interesse compreende sequências de gene exógenas ou outras sequências doadoras de polinucleotídeo desejáveis. Em outra modalidade, após ter identificado loci genômicos de uma planta dicotiledônea, tal como uma planta de soja, como uma localização altamente desejável para inserir sequência doadoras de polinucleotídeo, um ou mais ácidos de interesse ou os loci genômicos de soja não gênicos ideais podem ser opcionalmente deletados, extirpados ou removidos com a integração subsequente do DNA de interesse dentro do locus genômico identificado. Em uma modalidade, a inserção de um ácido nucleico de interesse nos loci genômicos de soja não gênicos ideais compreende a remoção, deleção ou extirpação das sequências de gene exógenas ou outras sequências doadoras de polinucleotídeos desejáveis.
[00134] A presente invenção refere-se ainda a métodos e composições para a integração direcionada no locus genômico de soja selecionado usando ZFNs e uma construção doadora de polinucleotídeo. Os métodos para inserir uma sequência de ácido nucleico de interesse nos loci genômicos de soja não gênicos ideais, a menos que de outra forma indicado, usam técnicas convencionais em biologia molecular, bioquímica, estrutura e análise de cromatina, cultura celular, DNA recombinante e campos relacionados como os que estão dentro da técnica. Essas técnicas são explicadas na íntegra na literatura. Vide, por exemplo, Sambrook e outros MOLECULAR CLONING: A LABORATORY MANUAL, Segunda Edição, Cold Spring Harbor Laboratory Press, 1989 e Terceira edição, 2001; Ausubel e outros, CURRENT PROTOCOLS IN MOLECULAR BIOLOGY, John Wiley & Sons, New York, 1987 e atualizações periódicas; a série METHODS IN ENZYMOLOGY, Academic Press, San Diego; Wolfe, CHROMATIN STRUCTURE AND FUNCTION, Terceira edição, Academic Press, San Diego, 1998; METHODS IN ENZYMOLOGY, Vol. 304, "Chromatin" (P. M. Wassarman and A. P. Wolffe, eds.), Academic Press, San Diego, 1999; e METHODS IN MOLECULAR BIOLOGY, Vol. 119, "Chromatin Protocols" (P. B. Becker, ed.) Humana Press, Totowa, 1999. Métodos para Inserção de Ácido Nucleico em Genoma de Soja
[00135] Qualquer um dos procedimentos bem conhecidos para introduzir as sequências doadoras de polinucleotídeo e sequências de nuclease como uma construção de DNA em células hospedeiro pode ser usada de acordo com a presente invenção. Estes incluem o uso de transfecção com fosfato de cálcio, polibreno, fusão de protoplasto, PEG, eletroporação, métodos ultrassônicos (por exemplo, sonoporação), lipossomos, microinjeção, DNA nu, vetores de plasmídeo, vetores virais, ambos epissomais e de integração, e qualquer um dos outros métodos bem conhecidos para introduzir DNA genômico clonado, cDNA, DNA sintético ou outro material genético estranho dentro de uma célula hospedeiro (vide, por exemplo, Sambrook e outros, supra). Somente é necessário que o procedimento de inserção de ácido nucleico particular seja capaz de introduzir com sucesso pelo menos um gene na célula hospedeiro capaz de expressar a proteína de escolha.
[00136] Como mencionado acima, as construções de DNA podem ser introduzidas no genoma de uma espécie de planta desejável através de uma variedade de técnicas convencionais conhecidas. Para a revisão de ditas técnicas vide, por exemplo, Weissbach & Weissbach Methods for Plant Molecular Biology (1988, Academic Press, N.Y.) Seção VIII, pp. 421-463; e Grierson & Corey, Plant Molecular Biology (1988, 2a Ed.), Blackie, Londres, Cap. 7-9. Uma construção de DNA pode ser introduzida diretamente no DNA genômico da célula da planta usando técnicas como eletroporação e microinjeção de protoplastos de célula de planta, por agitação com fibras de carbida de silício (vide, por exemplo, Patentes Norte-Americanas 5.302.523 e 5.464.765), ou as construções de DNA podem ser introduzidas diretamente no tecido da planta usando métodos biolíticos, tais como bombardeamento de partícula de DNA (vide, por exemplo, Klein e outros (1987) Nature 327:70-73). De forma alternativa, a construção de DNA pode ser introduzida na célula da planta através de transformação de nanopartícula (vide, por exemplo, Publicação de Patente Norte- Americana No. 20090104700, a qual é incorporada no presente documento a título de referência em sua totalidade). De forma alternativa, as construções de DNA podem ser combinadas com regiões adequadas de borda/flanqueamento de T-DNA e introduzidos em um vetor hospedeiro convencional de Agrobacterium tumefaciens. As técnicas de transformação mediadas por Agrobacterium tumefaciens, incluindo o desarme e uso de vetores binários, são bem descritas na literatura científica. Vide, por exemplo Horsch e outros (1984) Science 233:496-498 e Fraley e outros (1983) Proc. Nat'l. Acad. Sci. USA 80:4803.
[00137] Além disso, a transferência de gene pode ser alcançada usando bactérias não Agrobacterium ou vírus tais como Rhizobium sp. NGR234, Sinorhizoboium meliloti, Mesorhizobium loti, vírus da batata X, vírus do mosaico da couve-flor e vírus do mosaico da nervura da mandioca e/ou vírus do mosaico do Tabaco, vide, por exemplo, Chung e outros (2006) Trends Plant Sci. 11(1):1-4. As funções da virulência do hospedeiro Agrobacterium tumefaciens direcionarão a inserção de um fita T que contém a construção e marcador adjacente dentro do DNA da célula da planta quando a célula for infectada por bactérias que usam o vetor do DNA T binário (Bevan (1984) Nuc. Acid Res. 12:8711-8721) ou o procedimento de cocultivo (Horsch e outros (1985) Science 227:12291231). Geralmente, o sistema de transformação do Agrobacterium é usado para engenheirar as plantas dicotiledôneas (Bevan e outros (1982) Ann. Rev. Genet. 16:357-384; Rogers e outros (1986) Methods Enzymol. 118:627-641). O sistema de transformação do Agrobacterium também pode ser usado para transformar, assim como transferir, DNA para plantas monocotiledôneas e células de planta. Vide Patente Norte- Americana No. 5.591.616; Hernalsteen e outros (1984) EMBO J. 3:3039-3041; Hooykass-Van Slogteren e outros (1984) Nature 311:763764; Grimsley e outros (1987) Nature 325:1677-179; Boulton e outros (1989) Plant Mol. Biol. 12:31-40; e Gould e outros (1991) Plant Physiol. 95:426-434.
[00138] Métodos de transformação e transferência de gene alternativos incluem, mas não estão limitados a, transformação de protoplasto através de absorção mediada por cálcio, polietilenoglicol (PEG)- ou eletroporação de DNA nu (Vide Paszkowski e outros (1984) EMBO J. 3:2717-2722, Potrykus e outros (1985) Molec. Gen. Genet. 199:169-177; Fromm e outros (1985) Proc. Nat. Acad. Sci. USA 82:5824-5828; e Shimamoto (1989) Nature 338:274-276) e eletroporação de tecidos de planta (D'Halluin e outros (1992) Plant Cell 4:1495-1505). Métodos adicionais para transformação de célula de planta incluem microinjeção, absorção de DNA mediada por carbida de silício (Kaeppler e outros (1990) Plant Cell Reporter 9:415-418) e bombardeamento com microprojéteis (Vide Klein e outros (1988) Proc. Nat. Acad. Sci. USA 85:4305-4309; e Gordon-Kamm e outros (1990) Plant Cell 2:603-618).
[00139] Em uma modalidade, um ácido nucleico de interesse introduzido em uma célula hospedeiro para a inserção direcionada no genoma compreende sequências de flanqueamento homólogas em uma ou ambas as extremidades do ácido nucleico alvo de interesse. Em tal modalidade, as sequências de flanqueamento homólogas contêm níveis suficientes de identidade de sequência com uma sequência dicotiledônea genômica, tal como uma sequência genômica da soja, para apoiar a recombinação homóloga entre ela e a sequência genômica a qual é homóloga. Aproximadamente 25, 50, 100, 200, 500, 750, 1000, 1500 ou 2000 nucleotídeos ou mais de identidade de sequência, que variam de 70% a 100%, entre um doador e uma sequência genômica (ou qualquer valor integral entre 10 e 200 nucleotídeos, ou mais) apoiarão aa recombinação homóloga entre elas.
[00140] Em outra modalidade, o ácido nucleico direcionado de interesse carece de sequências de flanqueamento homólogas, e o ácido nucleico direcionado de interesse compartilha níveis baixos a muito baixos de identidade de sequência com uma sequência genômica.
[00141] Em outras modalidades de recombinação direcionada e/ou substituição e/ou alteração de uma sequência em uma região de interesse em cromatina celular, uma sequência de cromossomos é alterada por recombinação homóloga com uma sequência de nucleotídeo “doadora” exógena. A dita recombinação homóloga é estimulada pela presença de uma quebra de fita dupla em cromatina celular, caso as sequências homólogas à região de quebra estiverem presentes. Quebras de fita dupla em cromatina celular podem também estimular mecanismos celulares de união de extremidade não homóloga. Em qualquer um dos métodos descritos no presente documento, a primeira sequência de nucleotídeos (a "sequência doadora") pode conter sequências que são homólogas, mas não idênticas, a sequências genômicas na região de interesse, desse modo estimulando a recombinação homóloga para inserir uma sequência não idêntica na região de interesse. Assim, em certas modalidades, as porções da sequência doadora que são homólogas a sequências na região de interesse exibem entre cerca de 80, 85, 90, 95, 97,5 a 99% (ou qualquer inteiro entre esses) de identidade de sequência com a sequência genômica que é substituída. Em outra modalidade, a homologia entre o doador e a sequência genômica é maior do que 99%, Por exemplo, caso somente 1 nucleotídeo diferir entre doador e a sequência genômica de mais de 100 pares de base contíguos.
[00142] Em certos casos, uma porção não homóloga da sequência doadora pode conter sequências não presentes na região de interesse, de tal modo que as novas sequências são introduzidas na região de interesse. Nestes exemplos, a sequência não homóloga é geralmente flanqueada por sequências de 50 a 2.000 pares de base (ou qualquer valor integral entre esses) ou qualquer número de pares de base maiores do que 2.000, que são homólogos ou idênticos a sequências na região de interesse. Em outras modalidades, a sequência doadora é não homóloga à primeira sequência, e é inserida no genoma por mecanismos de recombinação não homólogos.
[00143] De acordo com uma modalidade, uma nuclease dedo de zinco (ZFN) é usada para introduzir uma quebra de fita dupla em um locus genômico direcionado para facilitar a inserção de um ácido nucleico de interesse. A seleção de um sítio-alvo dentro do locus genômico selecionado para ligação por um domínio de dedo de zinco pode ser realizada, por exemplo, de acordo com os métodos revelados na Patente Norte-Americana 6.453.242, que é incorporado no presente documento, que também revela métodos para projetar proteínas dedo de zinco (ZFPs) para se ligarem a uma sequência selecionada. Ficará claro para aqueles versados na técnica que a inspeção visual simples de uma sequência de nucleotídeos pode também ser usada para seleção de um sítio-alvo. Consequentemente, quaisquer meios para a seleção de sítio-alvo podem ser usados nos métodos descritos no presente documento.
[00144] Para os domínios de ligação de DNA de ZFP, os sítios-alvo são geralmente compostos de uma variedade de subsítios-alvo adjacentes. Um subsítio-alvo se refere à sequência, geralmente ou um tripleto de nucleotídeo ou um quadrupleto de nucleotídeo, que pode ser sobreposta por um nucleotídeo com um quadrupleto adjacente que está ligado por um dedo de zinco individual. Vide, por exemplo, WO 02/077227, a qual é incorporada ao presente documento. Um sítio-alvo geralmente tem um comprimento de pelo menos 9 nucleotídeos e, consequentemente, é ligado por um domínio de ligação de dedo de zinco que compreende pelo menos três dedos de zinco. No entanto a ligação de, por exemplo, um domínio de ligação de 4 dedos a um sítio- alvo de 12 nucleotídeos, um domínio de ligação de 5 dedos a um sítio- alvo de 15 nucleotídeos ou um domínio de ligação de 6 dedos a um sítio- alvo de 18 nucleotídeos, também é possível. Como ficará aparente, a ligação de domínios de ligação maiores (por exemplo, 7-, 8-, 9 dedos e mais) a sítios-alvo mais longos também é consistente com a presente descrição.
[00145] De acordo com uma modalidade, não é necessário que um sítio-alvo seja um múltiplo de três nucleotídeos. Em casos onde as interações de fita cruzada ocorrem (vide, por exemplo, a Patente Norte- Americana 6.453.242 e WO 02/077227), um ou mais dos dedos de zinco individuais de um domínio de ligação de múltiplos dedos pode se ligar a subsítios de quadrupletos sobrepostos. Como um resultado, uma proteína de três dedos pode se ligar a uma sequência de 10 nucleotídeos, na qual o décimo nucleotídeo faz parte de uma ligação de um quadrupleto por um dedo terminal, uma proteína de quatro dedos pode se ligar a uma sequência de 13 nucleotídeos, na qual o décimo terceiro nucleotídeo faz parte de uma ligação de um quadrupleto por um dedo terminal, etc.
[00146] O comprimento e a natureza das sequências de ligação de aminoácido entre os dedos de zinco individuais em um domínio de ligação de múltiplos dedos também afetam a ligação a uma sequência- alvo. Por exemplo, a presença do assim chamado "ligante não canônico," "ligante longo" ou "ligante estruturado" entre dedos de zinco adjacentes em um domínio de múltiplos dedos pode deixar que esses dedos se liguem a subsítios que não são imediatamente adjacentes. Os exemplos não limitativos de tais ligantes são descritos, por exemplo, na Patente Norte-Americana No. 6.479.626 e no WO 01/53480. Consequentemente, um ou mais subsítios, em um sítio-alvo para um domínio de ligação de dedo de zinco, podem ser separados um do outro por 1, 2, 3, 4, 5 ou mais nucleotídeos. Um exemplo não limitativo seria um domínio de ligação de 4 dedos que se liga a um sítio-alvo de 13 nucleotídeos que compreende, em sequência, dois subsítios de 3 nucleotídeos contíguos, um nucleotídeo interveniente e dois subsítios de tripleto contíguos.
[00147] Enquanto os polipeptídeos de ligação de DNA identificados a partir de proteínas que existem na natureza tipicamente se ligam a uma sequência ou motivo de nucleotídeo distintos (por exemplo, uma sequência de reconhecimento de consenso), métodos existem e são conhecidos na técnica para modificar muitos dos ditos polipeptídeos de ligação de DNA para reconhecer uma sequência ou motivo de nucleotídeo diferente. Os polipeptídeos de ligação de DNA incluem, por exemplo e sem limitação: domínios de ligação de DNA de dedo de zinco; zíperes de leucina; domínios de ligação de DNA UPA; GAL4; TAL; LexA; um repressor Tet; LacR; e um receptor de hormônio esteroide.
[00148] Em alguns exemplos, um polipeptídeo de ligação de DNA é um dedo de zinco. Motivos de dedo de zinco individuais podem ser desenhados para direcionar e se ligar especificamente a qualquer de uma ampla faixa de sítios de DNA. Os polipeptídeos de dedo de zinco Cys2His2 canônicos (assim como um Cys3His não canônico) se ligam ao DNA ao inserir uma hélice alfa dentro da ranhura principal da hélice dupla do DNA-alvo. O reconhecimento do DNA por um dedo de zinco é modular; cada dedo contata primariamente três pares de base consecutivos no alvo, e uns poucos resíduos-chave no polipeptídeo fazem a mediação do reconhecimento. Ao incluir os domínios de ligação ao DNA de dedos de zinco múltiplos em uma endonuclease de direcionamento, a especificidade da ligação de DNA da endonuclease de direcionamento pode ser aumentada mais (e por conseguinte a especificidade de quaisquer efeitos reguladores de gene então conferidos podem ser também aumentados). Vide, por exemplo, Urnov e outros (2005) Nature 435:646-51. Assim, um ou mais polipeptídeos de ligação de DNA de dedo de zinco podem ser engenheirados e utilizados de tal modo que uma endonuclease de direcionamento introduzida em uma célula hospedeiro interaja com uma sequência de DNA que é única dentro do genoma da célula hospedeiro. Preferivelmente, a proteína dedo de zinco não ocorre naturalmente pelo fato que é engenheirada para se ligar a um sítio-alvo de escolha. Vide, por exemplo, Beerli e outros (2002) Nature Biotechnol. 20:135-141; Pabo e outros (2001) Ann. Rev. Biochem. 70:313-340; Isalan e outros (2001) Nature Biotechnol. 19:656660; Segal e outros (2001) Curr. Opin. Biotechnol. 12:632-637; Choo e outros (2000) Curr. Opin. Struct. Biol. 10:411-416; Patentes Norte- Americanas Nos. 6.453.242; 6.534.261; 6.599.692; 6.503.717; 6.689.558; 7.030.215; 6.794.136; 7.067.317; 7.262.054; 7.070.934; 7.361.635; 7.253.273; e Publicações de Patentes Norte-Americanas Nos. 2005/0064474; 2007/0218528; 2005/0267061, todas incorporadas no presente documento a título de referência em sua totalidade.
[00149] Um domínio de ligação de dedo de zinco engenheirado pode ter uma especificidade de ligação nova, comparada a uma proteína dedo de zinco que ocorra naturalmente. Métodos de engenharia incluem, mas não estão limitados a desenho racional e vários tipos de seleção. Desenho racional inclui, por exemplo, o uso de bancos de dados que compreendem sequências de nucleotídeo tripleto (ou quadrupleto) e sequências de aminoácido de dedo de zinco individuais, nas quais cada sequência de nucleotídeo tripleto ou quadrupleto é associada com uma ou mais sequências de aminoácido de dedo de zinco que ligam a sequência de tripleto ou quadrupleto particular. Vide, por exemplo, as Patentes Norte-Americanas 6.453.242 e 6.534.261 de copropriedade, incorporadas a título de referência em sua totalidade.
[00150] De forma alternativa, o domínio de ligação de DNA pode ser derivado de uma nuclease. Por exemplo, as sequências de reconhecimento das endonucleases homing e meganucleases tais como I-SceI, I-CeuI, PI-PspI, PI-Sce, I-SceIV, I-CsmI, I-PanI, I-SceII, I- PpoI, I-SceIII, I-CreI, I-TevI, I-TevII and I-TevIII são conhecidas. Vide também as Patente Norte-Americana No. 5.420.032; Patente Norte- Americana No. 6.833.252; Belfort e outros (1997) Nucleic Acids Res. 25:3379-3388; Dujon e outros (1989) Gene 82:115-118; Perler e outros (1994) Nucleic Acids Res. 22, 1125-1127; Jasin (1996) Trends Genet. 12:224-228; Gimble e outros (1996) J. Mol. Biol. 263:163-180; Argast e outros (1998) J. Mol. Biol. 280:345-353 e o catálogo do New England Biolabs. Além disso, a especificidade de ligação de DNA das endonucleases homing e meganucleases pode ser engenheirada para se ligar a sítio-alvos não naturais. Vide, por exemplo, Chevalier e outros (2002) Molec. Cell 10:895-905; Epinat e outros (2003) Nucleic Acids Res. 31:2952-2962; Ashworth e outros (2006) Nature 441:656-659; Paques e outros (2007) Current Gene Therapy 7:49-66; Publicação de Patente Norte-Americana No. 20070117128.
[00151] Como outra alternativa, o domínio de ligação de DNA pode ser derivado de uma proteína zíper de leucina. Os zíperes de leucina são uma classe de proteínas que são envolvidas em interações proteína-proteína em muitas proteínas reguladoras eucarióticas que são fatores de transcrição importantes associados com a expressão do gene. O zíper de leucina se refere a um motivo comum estrutural compartilhado nestes fatores de transcrição em vários reinos incluindo animais, plantas, leveduras, etc. O zíper de leucina é formado por dois polipeptídeos (homodímero ou heterodímero) que se ligam a sequências de DNA específicas de um modo onde os resíduos de leucina são espaçados de forma uniforme através de uma hélice alfa, de tal modo que os resíduos e leucina dos dois polipeptídeos terminam no mesmo lado da hélice. A especificidade da ligação de DNA dos zíperes de leucina pode ser utilizada nos domínios de ligação de DNA revelados no presente documento.
[00152] Em algumas modalidades, o domínio de ligação de DNA é um domínio engenheirado a partir de um efetor TAL derivado de um patógeno de plantas Xanthomonas (Vide, Miller e outros (2011) Nature Biotechnology 29(2):143-8; Boch e outros (2009) Science 29 Out 2009 (10.1126/science.117881) e Moscou e Bogdanove, (2009) Science 29 Out 2009 (10.1126/science.1178817; e Publicação de Patente Norte- Americana Nos. 20110239315, 20110145940 e 20110301073).
[00153] O sistema de nuclease CRISPR (Repetições Palindrômicas Curtas Regularmente Interespaçadas Agrupadas)/Cas (Associado a CRISPR) é um sistema de nuclease recentemente engenheirado baseado em um Sistema bacteriano que pode ser usado para engenharia de genomas. Ele é baseado em parte na resposta imune adaptaviva de muitas bactérias e Archea. Quando um vírus ou plasmídeo invade uma bactéria, os segmentos do DNA do invasor são convertidos em RNAs CRISPR (crRNA) pela resposta ‘imune’. Este crRNA então asse socia, através de uma região de complementaridade parcial, com outro tipo de RNA chamado tracrRNA para guiar a nuclease Cas9 a uma região homóloga ao crRNA no DNA-alvo chamada um “protoespaçador”. Cas9 cliva o DNA para gerar extremidades cegas no DSB em sítios especificados por uma sequência guia de 20 nucleotídeos contida dentro do transcrito de crRNA. Cas9 requer ambos os crRNA e tracrRNA para o reconhecimento e clivagem de DNA específicos de sítio. Este Sistema foi engenheirado de tal modo que o crRNA e o tracrRNA possam ser combinados em uma molécula (o “RNA-guia único”), e a porção equivalente do crRNA do RNA-guia único podem ser engenheiradas para guiar a nuclease Cas9 a direcionar qualquer sequência desejada (Vide Jinek e outros (2012) Science 337, p. 816-821, Jinek e outros, (2013), eLife 2:e00471 e David Segal, (2013) eLife 2:e00563). Assim, o sistema CRISPR/Cas pode ser engenheirado para criar uma quebra de fita dupla (DSB) em um alvo desejado em um genoma, e o reparo do DSB pode ser influenciado pelo uso dos inibidores de reparo para causar um aumento em reparo propenso a erro.
[00154] Em certas modalidades, a proteína Cas pode ser um "derivado funcional" de uma proteína Cas que ocorre naturalmente. Um "derivado funcional" de um polipeptídeo de sequência nativa é um composto que tem uma propriedade biológica qualitativa em comum com um polipeptídeo de sequência nativa. Os "derivados funcionais" incluem, mas não estão limitados a, fragmentos de uma sequência nativa e derivados de um polipeptídeo de sequência nativa e seus fragmentos, contanto que eles tenham uma atividade biológica em comum com um polipeptídeo de sequência nativa correspondente. Uma atividade biológica contemplada no presente documento é a capacidade do derivado funcional em hidrolisar um substrato de DNA em fragmentos. O termo "derivado" abrange ambas as variantes de sequência de aminoácido de polipeptídeo, modificações covalentes e fusões das mesmas. Os derivados adequados de um polipeptídeo Cas ou um fragmento do mesmo incluem, mas não estão limitados a mutantes, fusões, modificações covalentes da proteína Cas ou um fragmento da mesma. A proteína Cas, a qual inclui proteína Cas ou um fragmento da mesma, assim como derivados de proteína Cas ou um fragmento da mesma, podem ser obteníveis de uma célula ou sintetizadas quimicamente ou por uma combinação desses dois procedimentos. A célula pode ser uma célula que produz proteína Cas naturalmente ou uma célula que produz Cas naturalmente e é engenheirada geneticamente para produzir a proteína Cas endógena em um nível de expressão mais alto ou para produzir uma proteína Cas a partir de um ácido nucleico introduzido de forma exógena, ácido nucleico que codifica uma Cas que é a mesma ou diferente da Cas endógena. Em alguns casos, a célula não produz proteína Cas naturalmente e é engenheirada geneticamente para produzir uma proteína Cas. A proteína Cas é está implantada em células de mamíferos (e presumidamente dentro de células de plantas) através de coexpressão da nuclease de Cas com o RNA-guia. Duas formas de RNAs-guia podem ser usadas para facilitar a clivagem do genoma mediada por Cas como revelado em Le Cong, F. e outros, (2013) Science 339(6121):819-823.
[00155] Em outra modalidades, o domínio de ligação de DNA pode ser associado com um domínio de clivagem (nuclease). Por exemplo, endonucleases homing podem ser modificadas em sua especificidade de ligação de DNA enquanto retendo função de nuclease. Além disso, as proteínas de dedo de zinco podem também ser fundidas a um domínio de clivagem para formar uma nuclease dedo de zinco (ZFN). A porção do domínio de clivagem das proteínas de fusão reveladas no presente documento pode ser obtida de qualquer endonuclease ou exonuclease. As endonucleases exemplares a partir das quais um domínio de clivagem pode ser derivado incluem, mas não estão limitadas a, endonucleases de restrição e endonucleases homing. Vide, por exemplo, 2002-2003 Catalogue, New England Biolabs, Beverly, MA; e Belfort e outros (1997) Nucleic Acids Res. 25:3379-3388. Enzimas adicionais que clivam o DNA são conhecidas (por exemplo, nuclease S1; nuclease de feijão mung; DNase I pancreático; nuclease micrococcal; endonuclease de levedura HO; Vide também Linn e outros (eds.) Nucleases, Cold Spring Harbor Laboratory Press,1993). Exemplos não limitativos de endonucleases homing e meganucleases incluem I-SceI, I-CeuI, PI-PspI, PI-Sce, I-SceIV, I-CsmI, I-PanI, I-SceII, I-PpoI, I-SceIII, I-CreI, I-TevI, I-TevII e I-TevIII que são conhecidas. Vide também a Patente Norte-Americana No. 5.420.032; Patente Norte- Americana No. 6.833.252; Belfort e outros (1997) Nucleic Acids Res. 25:3379-3388; Dujon e outros (1989) Gene 82:115-118; Perler e outros (1994) Nucleic Acids Res. 22, 1125-1127; Jasin (1996) Trends Genet. 12:224-228; Gimble e outros (1996) J. Mol. Biol. 263:163-180; Argast e outros (1998) J. Mol. Biol. 280:345-353 e o catálogo da New England Biolabs. Uma ou mais destas enzimas (ou fragmentos funcionais das mesmas) podem ser usadas como uma fonte de domínios de clivagem e domínios parciais de clivagem.
[00156] As endonucleases de restrição (enzimas de restrição) estão presentes em muitas espécies e são capazes de ligação de DNA específica de sequência (em um sítio de reconhecimento) e clivagem do DNA no ou próximo do sítio de ligação. Certas enzimas de restrição (por exemplo, Tipo IIS) clivam o DNA em sítios removidos do sítio de reconhecimento e têm domínios de clivagem e ligação separáveis. Por exemplo, a enzima Fokl do Tipo IIS catalisa a clivagem de fita dupla de DNA em 9 nucleotídeos a partir de seu sítio de reconhecimento em uma fita e 13 nucleotídeos a partir de seu sítio de reconhecimento no outro. Vide, por exemplo, Patentes Norte-Americanas 5.356.802; 5.436.150 e 5.487.994; assim como Li e outros (1992) Proc. Natl. Acad. Sci. USA 89:4275-4279; Li e outros (1993) Proc. Natl. Acad. Sci. USA 90:27642768; Kim e outros (1994a) Proc. Natl. Acad. Sci. USA 91:883-887; Kim e outros (1994b) J. Biol. Chem. 269:31,978-31,982. Assim, em uma modalidade, as proteínas de fusão compreendem o domínio de clivagem (ou domínio parcial de clivagem) de pelo menos uma enzima de restrição do tipo IIS e um ou mais domínios de ligação de dedo de zinco, os quais podem ou não ser engenheirados.
[00157] Uma enzima de restrição exemplar do tipo IIS, cujo domínio de clivagem é separável do domínio de ligação, é FokI. Esta enzima particular está ativa como um dímero. Bitinaite e outros (1998) Proc. Natl. Acad. Sci. USA 95: 10,570-10,575. Consequentemente, para os propósitos da presente descrição, a porção da enzima FokI usada nas proteínas de fusão reveladas é considerada um domínio parcial de clivagem. Assim, para clivagem direcionada de fita dupla e/ou substituição direcionada de sequências celulares usando as fusões dedo de zinco-FokI, duas proteínas de fusão, cada uma que compreende um domínio parcial de clivagem de FokI, podem ser usadas para reconstituir um domínio de clivagem cataliticamente ativo. De forma alternativa, uma molécula de polipeptídeo única que contém um domínio de ligação de dedo de zinco e dois domínios parciais de clivagem de FokI também pode ser usada. Os parâmetros para a clivagem direcionada e alteração direcionada de sequência usando as fusões de dedo de zinco-FokI são providos na presente invenção.
[00158] Um domínio de clivagem ou domínio parcial de clivagem pode ser qualquer porção de uma proteína que retenha a atividade de clivagem, ou que retenha a capacidade de multimerizar (por exemplo, dimerizar) para formar um domínio de clivagem funcional. As enzimas de restrição exemplares do tipo IIS são descritas na publicação internacional WO 2007/014275, incorporada a título de referência em sua totalidade.
[00159] Para aumentar a especificidade da clivagem, os domínios de clivagem também podem ser modificados. Em certas modalidades, as variantes do domínio parcial de clivagem são empregadas, essas variantes minimizam ou previnem a homodimerização dos domínios parciais de clivagem. Exemplos não limitativos de ditos domínios parciais de clivagem modificados são descritos em detalhes no WO 2007/014275, incorporado a título de referência em sua totalidade. Em certas modalidades, o domínio de clivagem compreende um domínio parcial de clivagem engenheirado (também referido como mutantes de domínio de dimerização) que minimiza ou previne a homodimerização. Tais modalidades são conhecidas daqueles versados na técnica e descritas por exemplo nas publicações de patentes Norte-Americanas Nos. 20050064474; 20060188987; 20070305346 e 20080131962, cujas descrições são incorporadas a título de referência em sua totalidade no presente documento. Os resíduos de aminoácido nas posições 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537 e 538 de FokI são todos alvos para influenciar a dimerização dos domínios parciais de clivagem de FokI.
[00160] Domínios parciais de clivagem engenheirados adicionais de FokI que formam heterodímeros obrigatórios também podem ser usados nas ZFNs descritas no presente documento. Domínios parciais de clivagem engenheirados exemplares de FokI que formam heterodímeros obrigatórios incluem um par no qual um primeiro domínio parcial de clivagem inclui mutações nos resíduos de aminoácido nas posições 490 e 538 de FokI e um segundo domínio parcial de clivagem que inclui as mutações nos resíduos de aminoácido 486 e 499. Em uma modalidade, uma mutação em 490 substitui Glu (E) por Lys (K); a mutação em 538 substitui Iso (I) por Lys (K); a mutação em 486 substitui Gln (Q) por Glu (E); e a mutação na posição 499 substitui Iso (I) por Lys (K). Especificamente, os domínios parciais de clivagem engenheirados foram preparados por posições de mutação 490 (E^K) e 538 (I^K) em um domínio parcial de clivagem para produzir um domínio parcial designado “E490K:I538K” e por posições de mutação 486 (Q^E) e 499 (I^L) em outro domínio parcial de clivagem para produzir um domínio parcial de clivagem engenheirado designado “Q486E:I499L”. Os domínios parciais de clivagem engenheirados descritos no presente documento são mutantes de heterodímero obrigatórios nos quais a clivagem anormal é minimizada ou abolida. Vide, por exemplo, publicação de Patente Norte-Americana No. 2008/0131962, cujo relatório descritivo é aqui incorporado a título de referência em sua totalidade para todos os propósitos. Em certas modalidades, o domínio parcial de clivagem engenheirado compreende as mutações nas posições 486, 499 e 496 (numerados com relação a FokI de tipo selvagem), por exemplo mutações que substituem o resíduo do tipo selvagem Gln (Q) na posição 486 por um resíduo Glu (E), o resíduo do tipo selvagem Iso (I) na posição 499 por um resíduo Leu (L) e um resíduo do tipo selvagem de Asn (N) na posição 496 por um resíduo Asp (D) ou Glu (E) (também referido como domínios “ELD” e “ELE”, respectivamente). Em outras modalidades, o domínio parcial de clivagem engenheirado compreende as mutações nas posições 490, 538 e 537 (numerados com relação ao FokI do tipo selvagem), por exemplo mutações que substituem o resíduo do tipo selvagem Glu (E) na posição 490 por um resíduo Lys (K), o resíduo do tipo selvagem Iso (I) na posição 538 com um resíduo Lys (K) e o resíduo do tipo selvagem His (H) na posição 537 com um resíduo Lys (K) ou um resíduo Arg (R) (também referido como domínios “KKK” e “KKR”, respectivamente). Em outras modalidades, o domínio parcial de clivagem engenheirado compreende as mutações nas posições 490 e 537 (numeradas com relação ao FokI do tipo selvagem), por exemplo mutações que substituem o resíduo do tipo selvagem Glu (E) na posição 490 com um resíduo Lys (K) e o resíduo do tipo selvagem His (H) na posição 537 com um resíduo Lys (K) ou um resíduo Arg (R) (também referido como domínios “KIK” e “KIR”, respectivamente). (Vide Publicação de Patente Norte-Americana No. 20110201055). Em outras modalidades, o domínio parcial de clivagem engenheirado compreende as mutações “Sharkey” e/ou “Sharkey’ ” (Vide Guo e outros, (2010) J. Mol. Biol. 400(1):96-107).
[00161] Domínios parciais de clivagem engenheirados descritos no presente documento podem ser preparados usando qualquer método adequado, por exemplo, por mutagênese direcionada ao sítio de domínios parciais de clivagem do tipo selvagem (Fok I) como as descritas nas publicações de Patente Norte-Americanas Nos. 20050064474; 20080131962 e 20110201055. De forma alternativa, as nucleases podem ser reunidas in vivo no sítio-alvo do ácido nucleico usando a tecnologia assim chamada “enzima de divisão” (Vide por exemplo publicação de Patente Norte-Americana No. 20090068164). Componentes de ditas enzimas de divisão podem ser expressos tanto em construções de expressão separadas quanto podem ser ligados em uma estrutura de leitura aberta onde os componentes individuais são separados, por exemplo, por um peptídeo 2A de autoclivagem ou sequência IRES. Os componentes podem ser domínios de ligação de dedo de zinco individuais ou domínios de um domínio de ligação de ácido nucleico de meganuclease.
[00162] As nucleases podem ser avaliadas quanto à atividade antes do uso, por exemplo em um sistema de cromossomos baseado em levedura como descrito no WO 2009/042163 e na 20090068164. As construções de expressão de nuclease podem ser prontamente planejadas usando métodos conhecidos na técnica. Vide, por exemplo, as publicações de Patente Norte-Americanas 20030232410; 20050208489; 20050026157; 20050064474; 20060188987; 20060063231; e publicação internacional WO 07/014275. A expressão da nuclease pode estar sob o controle de um promotor constitutivo ou de um promotor induzível, por exemplo o promotor de galactocinase que é ativado (des-reprimido) na presença de rafinose e/ou galactose e reprimido na presença de glicose.
[00163] A distância entre sítios-alvo se refere ao número de nucleotídeos ou pares de nucleotídeo intervenientes entre os dois sítios- alvo conforme medido a partir das margens das sequências mais próximas umas das outras. Em certas modalidades onde clivagem depende da ligação de duas moléculas de fusão de domínio de dedo de zinco/domínio parcial de clivagem para separar sítios-alvo, os sítios-alvo podem estar em fitas opostas de DNA. Em outra modalidade, ambos os sítios-alvo estão na mesma fita de DNA. Para a integração direcionada em locus genômico ideal, uma ou mais ZFPs são engenheiradas para ligar um sítio-alvo em ou próximo a um sítio de clivagem predeterminado, e uma proteína de fusão que compreende o domínio de ligação ao DNA engenheirado e um domínio de clivagem é expresso na célula. Ao ligar a porção dedo de zinco da proteína de fusão ao sítio- alvo, o DNA é clivado, preferivelmente através de uma quebra de fita dupla, próximo do sítio-alvo pelo domínio de clivagem.
[00164] A presença de uma quebra de fita dupla no locus genômico ideal facilita a integração de sequências exógenas através de recombinação homóloga. Assim, em uma modalidade o polinucleotídeo que compreende a sequência de ácido nucleico de interesse a ser inserida no locus genômico direcionado incluirá uma ou mais regiões de homologia com o locus genômico direcionado para facilitar recombinação homóloga.
[00165] Além das moléculas de fusão descritas no presente documento, a substituição direcionada de uma sequência genômica selecionada também envolve a introdução de uma sequência doadora. A sequência doadora de polinucleotídeo pode ser introduzida na célula antes da, ao mesmo tempo que, ou subsequente à expressão da(s) proteína(s) de fusão. O polinucleotídeo doador contém homologia suficiente com o locus genômico ideal para apoiar a recombinação homóloga entre ele e a sequência genômica do locus genômico ideal ao qual é homólogo. Aproximadamente 25, 50, 100, 200, 500, 750, 1.000, 1.500, 2.000 nucleotídeos ou mais de homologia de sequência entre um doador e uma sequência genômica, ou qualquer valor integral entre 10 e 2.000 nucleotídeos ou mais, apoiarão a recombinação homóloga. Em certas modalidades, os braços de homologia serão de menos de 1.000 pares de base de comprimento. Em outras modalidades, os braços de homologia são de menos de 750 pares de base de comprimento. Ainda, as sequências de polinucleotídeo doadores podem compreender uma molécula de vetor que contém as sequências que não são homólogas à região de interesse em cromatina celular. Uma molécula de polinucleotídeo doadora pode conter várias regiões descontínuas de homologia com cromatina celular. Por exemplo, para a inserção direcionada de sequências que não estão presentes normalmente em uma região de interesse, as ditas sequências podem estar presentes em uma molécula de ácido nucleico doadora e flanqueadas por regiões de homologia com a sequência na região de interesse. O polinucleotídeo doador pode ser DNA ou RNA, de fita simples ou dupla e pode ser introduzido em uma célula em forma linear ou circular. Vide, por exemplo, Publicações de Patente Norte-Americana Nos. 20100047805, 20110281361, 20110207221 e Pedido de Patente Norte- Americano No. 13/889,162. Caso seja introduzida em forma linear, as extremidades da sequência doadora podem ser protegidas (por exemplo, da degradação exonucleolítica) por métodos conhecidos daqueles versados na técnica. Por exemplo, um ou mais resíduos didesoxinucleotídeo são adicionados ao terminal 3’ de uma molécula linear e/ou oligonucleotídeos autocomplementares são ligados a uma ou ambas as extremidades. Vide, por exemplo, Chang e outros (1987) Proc. Natl. Acad. Sci. USA 84:4959-4963; Nehls e outros. (1996) Science 272:886-889. Métodos adicionais para proteger os polinucleotídeos exógenos da degradação incluem, mas não estão limitados a, a adição de grupo(s) amino terminal(ais) e o uso de ligações internucleotídeo modificadas tais como, por exemplo, fosforotioatos, fosforamidatos e O-metil ribose ou resíduos de desoxirribose.
[00166] De acordo com uma modalidade, um método de preparação de uma planta dicotiledônea transgênica, tal como uma planta de soja, é provido, no qual um DNA de interesse foi inserido em locus de soja não gênico ideal. O método compreende as etapas de: a. selecionar um locus de soja não gênico ideal como um alvo para inserção do ácido nucleico de interesse; b. introduzir uma nuclease sítio-específica dentro em uma célula de planta dicotiledônea, tal como uma célula de planta de soja, na qual uma nuclease sítio-específica cliva a sequência não gênica; c. introduzir o DNA de interesse na célula da planta; e d. selecionar as células da planta transgênica que compreendem o DNA de interesse direcionado à dita sequência não gênica.
[00167] De acordo com uma modalidade, um método de preparação de uma célula protoplasto dicotiledônea transgênica, tal como uma célula protoplasto de soja, é provido, no qual o DNA de interesse foi inserido em um locus genômico de soja não gênico ideal. O método compreende as etapas de: a. selecionar um locus de soja não gênico ideal como um alvo para inserção do ácido nucleico de interesse; b. introduzir uma nuclease sítio-específica em uma célula de protoplasto dicotiledônea, tal como uma célula protoplasto de soja, em que uma nuclease sítio-específica cliva a sequência não gênica; c. introduzir o DNA de interesse dentro da célula de protoplasto dicotiledônea, tal como uma célula protoplasto de soja; e d. selecionar a célula de protoplasto dicotiledônea transgênica, tal como uma célula protoplasto de soja, que compreende o DNA de interesse direcionado à dita sequência não gênica.
[00168] Em uma modalidade a nuclease sítio-específica é selecionada do grupo que consiste em uma nuclease Dedo de Zinco, uma nuclease CRISPR, uma nuclease TALEN, ou uma meganuclease, e mais particularmente em uma modalidade a nuclease sítio-específica é uma nuclease Dedo de Zinco. De acordo com uma modalidade, o DNA de interesse é integrado à dita sequência não gênica através de um método de integração de reparo direcionado por homologia. De forma alternativa, em algumas modalidades, o DNA de interesse é integrado à dita sequência não gênica através de um método de integração de união de extremidade não homólogo. Em modalidades adicionais, o DNA de interesse é integrado à dita sequência não gênica através de um método de integração não descrito anteriormente. Em uma modalidade, o método compreende selecionar um locus genômico de soja não gênico ideal para inserção direcionada de um DNA de interesse que tem as características a seguir: a. a sequência não gênica é de pelo menos de 1 Kb de comprimento e não contém mais do que 1% de metilação de DNA dentro da sequência. b. a sequência não gênica exibe uma razão de 0,01574 para 83,52 cM/Mb de recombinação dentro do genoma da dicotiledônea, tal como um genoma de soja; c. a sequência não gênica exibe um nível de 0 a 0,494 de ocupação de nucleossomas do genoma da dicotiledônea, tal como um genoma de soja; d. a sequência não gênica compartilha menos de 40% de identidade de sequência com qualquer outra sequência contida no genoma da dicotiledônea, como um genoma de soja; e. a sequência não gênica tem um valor de localização relativo de razão de 0 para 0,99682 de distância genômica a partir de um centrômero cromossômico da dicotiledônea, tal como soja; f. a sequência não gênica tem uma faixa de teor percentual de guanina/citosina de 14,4 a 45,9%; g. a sequência não gênica é localizada próxima a uma sequência gênica; e, h. uma região de 1 Mb de sequência genômica dicotiledônea, como uma sequência genômica de soja, que compreende a dita sequência não gênica compreende uma ou mais sequências não gênicas adicionais. Em uma modalidade, o locus de soja não gênico ideal é selecionado de um loci do grupo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 2, 3, 4, 5, 6, 7, 8, 9, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31 ou 32.
Administração
[00169] As moléculas doadoras reveladas aqui estão integradas a um genoma de uma célula através de métodos independentes de homologia e/ou dependentes de homologia, direcionados. Para tal integração direcionada, o genoma é clivado em uma localização (ou localizações) desejada usando uma nuclease, por exemplo, uma fusão entre um domínio de ligação de DNA (por exemplo, domínio de ligação de dedo de zinco, domínio efetor CRISPR ou TAL é engenheirado para se ligar a um sítio-alvo ou próximo do sítio de clivagem predeterminado) e domínio de nuclease (por exemplo, domínio de clivagem ou domínio parcial de clivagem). Em certas modalidades, duas proteínas de fusão, cada uma compreendendo um domínio de ligação de DNA e um domínio parcial de clivagem, são expressas em uma célula, e se ligam a sítios- alvo que estão justapostos de tal maneira que um domínio de clivagem funcional é reconstituído e DNA é clivado na vizinhança dos sítios-alvo. Em uma modalidade, clivagem ocorre entre os sítios-alvo de dois domínios de ligação de DNA. Um ou ambos os domínios de ligação de DNA podem ser engenheirados. Vide, também, Patente U.S. No. 7.888.121; Publicação de Patente U.S. 20050064474 e Publicações de Patente Internacionais WO05/084190, WO05/014791 e WO 03/080809.
[00170] As nucleases conforme aqui descrito podem ser introduzidas como polipeptídeos e/ou polinucleotídeos. Por exemplo, dois polinucleotídeos, cada um compreendendo sequências codificando um dos polipeptídeos mencionados acima, podem ser introduzidos em uma célula, e quando os polipeptídeos são expressos e cada um se liga à sua sequência-alvo, clivagem ocorre na ou próximo da sequência-alvo. Alternativamente, um polinucleotídeo único compreendendo sequências codificando ambos os polipeptídeos de fusão é introduzido em uma célula. Polinucleotídeos podem ser DNA, RNA ou quaisquer formas modificadas ou análogos ou DNA e/ou RNA.
[00171] Seguindo a introdução de uma quebra de fita dupla na região de interesse, o transgene é integrado na região de interesse de uma maneira direcionada através de métodos não dependentes de homologia (por exemplo, união de extremidade não homóloga (NHEJ)) seguindo linearização de uma molécula doadora de fita dupla conforme aqui descrito. O doador de fita dupla é preferivelmente linearizado in vivo com uma nuclease, por exemplo, uma ou mais das mesmas nucleases ou diferentes que são usadas para introduzir a quebra de fita dupla no genoma. Clivagem sincronizada do cromossomo e do doador na célula pode limitar degradação de DNA doador (comparado com linearização da molécula doadora antes da introdução na célula). Os sítios-alvo de nuclease usados para linearização do doador preferivelmente não rompem a(s) sequência(s) de transgene.
[00172] O transgene pode ser integrado ao genoma na direção esperada através de ligação simples dos ressaltos da nuclease (chamada orientação “avançada” ou “AB”) ou na direção alternativa (chamada orientação “reversa” ou “BA”). Em certas modalidades, o transgene é integrado seguindo ligação precisa dos ressaltos de doador e cromossomo. Em outras modalidades, integração do transgene ou na orientação BA ou AB resulta em deleção de vários nucleotídeos.
[00173] Através da aplicação de técnicas tais como essas, as células de virtualmente qualquer espécie podem ser transformadas estavelmente. Em algumas modalidades, DNA de transformação é integrado no genoma da célula hospedeiro. No caso de espécies multicelulares, células transgênicas podem ser regeneradas em um organismo transgênico. Qualquer uma dessas técnicas pode ser usada para produzir uma planta transgênica, por exemplo, compreendendo uma ou mais sequências de ácido de polinucleotídeo doadoras no genoma da planta transgênica.
[00174] A administração de ácidos nucleicos pode ser introduzida em uma célula de planta em modalidades da invenção através de qualquer método conhecido daqueles de habilidade na técnica incluindo, por exemplo, e sem limitação: através de transformação de protoplastos (vide, por exemplo, Patente U.S. 5.508.184); através de absorção de DA mediada por dissecação/inibição (vide, por exemplo, Potrykus e outros (1985) Mol. Gen. Genet. 199:183-8); através de eletroporação (vide, por exemplo, Patente U.S. 5.384.253); através de agitação com fibras de carbida de silício (vide, por exemplo, Patentes U.S. 5.302.523 e 5.464.765); através de transformação mediada por Agrobacterium (vide, por exemplo, Patentes U.S. 5.563.055, 5.591.616, 5.693.512, 5.824.877, 5.981.840 e 6.384.301); através de aceleração de partículas revestidas com DNA (vide, por exemplo, Patentes U.S. 5.015.580, 5.550.318, 5.538.880, 6.160.208, 6.399.861 e 6.403.865) e por Nanopartículas, nanocarreadores e peptídeos de penetração de célula (WO201126644A2; WO2009046384A1; WO2008148223A1) nos métodos para administrar DNA, RNA, peptídeos e/ou proteínas ou combinações de ácidos nucleicos e peptídeos em células de planta.
[00175] O método mais amplamente usado para introdução de um vetor de expressão em plantas é baseado no sistema de transformação natural de Agrobacterium. A. tumefaciens e A. rhizogenes são bactérias do solo patogênicas de planta que transformam geneticamente células de planta. Plasmídeos Ti e Ri de A. tumefaciens e A. rhizogenes, respectivamente, carregam genes responsáveis por transformação genética da planta. Os plasmídeos Ti (indução de tumor (Tumor-inducing)) contêm um segmento grande, conhecido como T-DNA, que é transferido para plantas transformadas. Outro segmento do plasmídeo Ti, a região vir, é responsável por transferência de T-DNA. A região de T-DNA é delimitada por bordas esquerda e direita que são compostas de sequências de nucleotídeo repetidas terminais. Em alguns vetores binários modificados, os genes de indução de tumor foram deletados, e as funções da região vir são utilizadas para transferir DNA estranho delimitado pelas sequências de borda de T-DNA. A região T pode também conter, por exemplo, um marcador selecionável para recuperação eficiente de plantas e células transgênicas, e um sítio de clonagem múltiplo para inserção de sequências para transferência tal como um ácido nucleico codificando uma proteína de fusão da invenção.
[00176] Desta maneira, em algumas modalidades, um vetor de transformação de planta é derivado de um plasmídeo Ti de A. tumefaciens (vide, por exemplo, Patentes U.S. Nos. 4.536.475, 4.693.977, 4.886.937 e 5.501.967; e Patente Europeia EP 0 122 791) ou um plasmídeo Ri de A. rhizogenes. Vetores de transformação de planta adicionais incluem, por exemplo e sem limitação, aqueles descritos por Herrera-Estrella e outros (1983) Nature 303:209-13; Bevan e outros (1983), supra; Klee e outros (1985) Bio/Technol. 3:637-42; e na Patente Europeia EP 0 120 516 e aqueles derivados de qualquer um dos acima. Outras bactérias, tais como Sinorhizobium, Rhizobium e Mesorhizobium, que interagem naturalmente com plantas podem ser modificadas para mediar transferência de gene para várias de plantas diversas. Essas bactérias simbióticas associadas à planta podem ser tornadas competentes para transferência de gene através de aquisição de ambos um plasmídeo Ti desarmado e um vetor binário adequado. O Ácido Nucleico de Interesse
[00177] As sequências doadoras de polinucleotídeo para inserção direcionada em um locus genômico de uma planta dicotiledônea, tal como uma planta de soja, tipicamente variam em comprimento de a partir de cerca de 10 a cerca de 5.000 nucleotídeos. No entanto, nucleotídeos substancialmente mais longos, de até 20.000 nucleotídeos, podem ser usados, incluindo sequências de cerca de 5, 6, 7, 8, 9, 10, 11 e 12 Kb de comprimento. Ainda, sequências doadoras podem compreender uma molécula de vetor contendo sequências que não são homólogas à região de substituição. Em uma modalidade, o ácido nucleico de interesse incluirá uma ou mais regiões que compartilham homologia com os loci genômicos alvo. Em geral, região(ões) homóloga(s) da sequência de ácido nucleico de interesse terá(ão) pelo menos 50% de identidade de sequência com uma sequência genômica com a qual recombinação é desejada. Em certas modalidades, a(s) região(ões) homóloga(s) do ácido nucleico de interesse compartilha(m) 60%, 70%, 80%, 90%, 95%, 98%, 99% ou 99,9% de identidade de sequência com sequências localizadas no locus genômico alvo. No entanto, qualquer valor entre 1% e 100% de identidade de sequência pode estar presente, dependendo do comprimento do ácido nucleico de interesse.
[00178] Um ácido nucleico de interesse pode conter várias regiões descontínuas de sequência compartilhando identidade de sequência relativamente alta com cromatina celular. Por exemplo, para inserção direcionada de sequências não presentes normalmente em um locus genômico alvo, as sequências únicas podem estar presentes em uma molécula de ácido nucleico doadora e flanqueadas por regiões de sequências que compartilham uma identidade de sequência relativamente alta com uma sequência presente no locus genômico direcionado.
[00179] Um ácido nucleico de interesse pode também ser inserido em um locus genômico direcionado para servir como um reservatório para uso posterior. Por exemplo, uma primeira sequência de ácido nucleico compreendendo sequências homólogas a uma região não gênica do genoma de uma planta dicotiledônea, tal como uma planta de soja, mas contendo um ácido nucleico de interesse (opcionalmente codificando uma ZFN sob o controle de e incluindo um promotor induzível), pode ser inserida em um locus genômico direcionado. Em seguida, uma segunda sequência de ácido nucleico é introduzida na célula para induzir a inserção de um DNA de interesse em um locus genômico não gênico ideal de uma planta dicotiledônea, tal como uma planta de soja. Ou a primeira sequência de ácido nucleico compreende uma ZFN específica para o locus genômico de soja não gênico ideal e a segunda sequência de ácido nucleico compreende a sequência de DNA de interesse ou vice versa. Em uma modalidade a ZFN clivará ambos o locus genômico de soja não gênico ideal e o ácido nucleico de interesse. A quebra de fita dupla resultante no genoma pode então se tornar o sítio de integração para o ácido nucleico de interesse liberado do locus genômico ideal. Alternativamente, expressão de uma ZFN já localizada no genoma pode ser induzida após introdução do DNA de interesse para induzir uma quebra de fita dupla no genoma que pode se tornar então o sítio de integração para o ácido nucleico de interesse introduzido. Desta maneira, a eficiência de integração direcionada de um DNA de interesse em qualquer região de interesse pode ser aperfeiçoada uma vez que o método não se baseia em absorção simultânea de ambos os ácidos nucleicos codificando as ZFNs e o DNA de interesse.
[00180] Um ácido nucleico de interesse pode também ser inserido em um locus genômico de soja não gênico ideal para servir como um sítio-alvo para inserções subsequentes. Por exemplo, um ácido nucleico de interesse compreendido de sequências de DNA que contêm sítios de reconhecimento para desenhos de ZFN adicionais pode ser inserido no locus. Subsequentemente, desenhos de ZFN adicionais podem ser gerados e expressos em células de maneira que o ácido nucleico de interesse original é clivado e modificado através de reparo ou recombinação homóloga. Desta maneira, integrações reiterativas de ácido nucleico de interesse podem ocorrer no locus genômico não gênico ideal de uma planta dicotiledônea, tal como uma planta de soja.
[00181] Sequências exógenas exemplares que podem ser inseridas em um locus genômico de soja não gênico ideal incluem, mas não estão limitadas a, qualquer sequência de codificação de polipeptídeo (por exemplo, cDNAs), promotora, potencializadora e outras sequências reguladoras (por exemplo, sequências de RNA de interferência, cassetes de expressão de shRNA, marcadores de epítopo, genes marcadores, sítios de reconhecimento de enzima de clivagem e vários tipos de construções de expressão. Tais sequências podem ser prontamente obtidas usando técnicas biológicas moleculares padrão (clonagem, síntese, etc) e/ou estão comercialmente disponíveis.
[00182] Para expressar ZFNs, sequências codificando as proteínas de fusão são tipicamente subclonadas em um vetor de expressão que contém um promotor para direcionar a transcrição. Promotores eucarióticos e eucarióticos adequados são bem conhecidos na técnica e são descritos, por exemplo, em Sambrook e outros, Molecular Cloning, A Laboratory Manual (2a ed. 1989; 3.sup.rd ed., 2001); Kriegler, Gene Transfer and Expression: A Laboratory Manual (1990); e Current Protocols in Molecular Biology (Ausubel e outros, supra. Bacterial expression systems for expressing the ZFNs are available in, e.g., E. coli, Bacillus sp., and Salmonella (Palva e outros, Gene 22:229-235 (1983)). Estojos para tais sistemas de expressão estão comercialmente disponíveis. Sistemas de expressão eucarióticos para células de mamífero, levedura e células de inseto são bem conhecidos daqueles de habilidade na técnica e estão também comercialmente disponíveis.
[00183] O vetor de expressão particular usado para transportar o material genético para a célula é selecionado com relação ao uso pretendido das proteínas de fusão, por exemplo, expressão em plantas, animais, bactérias, fungos, protozoários, etc (vide vetores de expressão descritos abaixo). Vetores de expressão bacteriana e animal são conhecidos na técnica e são descritos em detalhes, por exemplo, Publicação de Patente U.S. 20050064474A1 e Publicações de Patente Internacionais WO05/084190, WO05/014791 e WO03/080809.
[00184] Métodos de transfecção padrão podem ser usados para produzir linhagens de célula bacterianas, mamífero, levedura ou inseto que expressam grandes quantidades de proteína, que podem então ser purificadas usando técnicas padrão (vide, por exemplo, Colley e outros, J. Biol. Chem. 264:17619-17622 (1989); Guide to Protein Purification, in Methods in Enzymology, vol. 182 (Deutscher, ed., 1990)). Transformação de células eucarióticas e procarióticas é realizada de acordo com técnicas padrão (vide, por exemplo, Morrison, J. Bact. 132:349-351 (1977); Clark-Curtiss & Curtiss, Methods in Enzymology 101:347-362 (Wu e outros, eds., 1983).
[00185] Os métodos e composições revelados podem ser usados para inserir sequências doadoras de polinucleotídeo em uma localização predeterminada tal como um dos loci genômicos de soja não gênicos ideais. Isso é útil visto que expressão de um transgene introduzido no genoma de soja depende criticamente do seu sítio de integração. Desta maneira, genes codificando tolerância a herbicida, resistência a inseto, nutrientes, antibióticos ou moléculas terapêuticas podem ser inseridos, através de recombinação direcionada.
[00186] Em uma modalidade o ácido nucleico de interesse é combinado ou “empilhado” com sequências de codificação de gene que proveem resistência ou tolerância adicional a glifosato ou outro herbicida e/ou proveem resistência a insetos ou doenças selecionadas e/ou potencializações nutricionais e/ou características agronômicas aperfeiçoadas e/ou proteínas e outros produtos úteis em uso para ração, alimento, industrial, farmacêutico e outros. O “empilhamento” de duas ou mais sequências de ácido nucleico de interesse dentro do genoma de uma planta pode ser realizado, por exemplo, através de reprodução de planta convencional usando dois ou mais eventos, transformação de uma planta com uma construção que contém as sequências de interesse, retransformação de uma planta transgênica ou adição de novas características através de integração direcionada através de recombinação homóloga.
[00187] Tais sequências de nucleotídeo doadoras de polinucleotídeo de interesse incluem, mas não estão limitadas a, aqueles exemplos providos abaixo: 1. Genes ou Sequência de codificação (por exemplo, iRNA) Que Conferem Resistência a Pestes ou Doença (A) Genes de Resistência à Doença de Planta. As defesas da planta são frequentemente ativadas através de interação específica entre o produto de um gene de resistência à doença (R) na planta e o produto de um gene de avirulência correspondente (Avr) no patógeno. Uma variedade de planta pode ser transformada com gene de resistência clonado para engenheirar plantas que são resistentes a linhagens de patógeno específicas. Exemplos de tais genes incluem gene CD-9 do tomate para resistência a Cladosporium fulvum (Jones e outros, 1994 Science 266:789), gene Pto do tomate, que codifica uma proteína cinase, para resistência a Pseudomonas syringae pv. Tomato (Martin e outros, 1993, Science 262:1432) e gene RSSP2 de Arabidopsis thaliana para Pseudomonas syringae (Mindrinos e outros, 1994, Cell 78:1089). (B) Uma proteína de Bacillus thuringiensis, um derivado da mesma ou um polipeptídeo sintético modelado na mesma, tal como uma sequência de nucleotídeo de um gene da δ-endotoxina Bt (Geiser e outros, 1986 Gene 48:109), e um gene inseticida vegetativo (VIP) (Vegetative Inseticidal) (vide, por exemplo, Estruch e outros (1996) Proc. Natl. Acad. Sci. 93:5389-94). Além disso, moléculas de DNA codificando genes de δ-endotoxina podem ser compradas da American Type Cultura Collection (Rockville, Md), sob os números de acesso ATCC 40098, 67136, 31995 e 31998. (C) Uma lectina, tais como sequências de nucleotídeo de vários genes de lectina de ligação à manose de Clivia miniata (Van Damme e outros, 1994, Plant Molec. Biol. 24:825). (D) Uma proteína de ligação à vitamina, tal como avidina e homólogos de avidina que são úteis como larvicidas contra pestes de inseto. Vide Patente U.S. No. 5.659.026. (E) Um inibidor de enzima, por exemplo, um inibidor de protease ou um inibidor de amilase. Exemplos de tais genes incluem um inibidor de proteinase de cisteína (Abe e outros, 1987, J. Biol. Chem. 262:16793), um inbidiro I da proteinase do tabaco (Huub e outros, 1993 Plant Molec. Biol. 21:985) e um inibidor de α-amilase (Sumitani e outros, 1993 Biosci. Biotech. Biochem. 57:1243). (F) Um hormônio específico de inseto ou feromônio tal como um ecdisteroide e hormônio juvenil ou uma variante do mesmo, um mimético baseado no mesmo ou um antagonista ou agonista do mesmo, tal como expressão em baculovírus de esterase de hormônio juvenil clonado, um inativador de hormônio juvenil (Hammock e outros, 1990 Nature 344:458). (G) Um peptídeo ou neuropeptídeo específico de inseto que, quando da expressão, rompe a fisiológica da peste afetada (J. Biol. Chem. 269:9). Exemplos de tais genes incluem um receptor de hormônio diurético de inseto (Regan, 1994) e alostatina identificada em Diploptera punctata (Pratt, 1989) e neurotoxinas paralíticas, específicas de inseto (Patente U.S. No. 5.266.361). (H) Um veneno específico de inseto produzido na natureza por uma cobra, uma vespa, etc, tal como um peptídeo insetotóxico de escorpião (Pang, 1992, Gene 116:165). (I) Uma enzima responsável por um hiperacúmulo de monoterpeno, um sesquiterpeno, um esteroide, ácido hidroxâmico, um derivado de fenilpropanoide ou outra molécula não proteína com atividade inseticida.
[00188] Uma enzima envolvida na modificação, incluindo a modificação pós-traducional, de uma molécula biologicamente ativa; por exemplo, enzima glicolítica, uma enzima proteolítica, uma enzima lipolítica, uma nuclease, uma ciclase, uma transaminase, uma esterase, uma hidrolase, uma fosfatase, uma cinase, uma fosforilase, uma polimerase, uma elastase, uma quitinase e uma glucanase, seja natural ou sintética. Exemplos de tais genes incluem um gene callas (Pedido Publicado PCT WO93/02197), sequências de codificação de quitinase (que podem ser obtidas, por exemplo, da ATCC sob números de acesso 3999637 e 67152), quitinase do ancilóstomo do tabaco (Kramer e outros, 1993 Insect Molec. Biol. 23:691), e gene da poliubiquitina ubi4-2 da salsa (Kawalleck e outros, 1993 Plant Molec. Biol. 21:673). (K) Uma molécula que estimula transdução de sinal. Exemplos de tais moléculas incluem sequências de nucleotídeo para clones de cDNA da calmodulina do feijão mung (Botella e outros, 1994 Plant Molec. Biol. 24:757) e uma sequência de nucleotídeo de um clone de cDNA de calmodulina de soja (Griess e outros, 1994 Plant Physiol. 104:1467). (L) Um peptídeo de momento hidrofóbico. Vide Patentes U.S. Nos. 5.659.026 e 5.607.914; a última ensina peptídeos antimicrobianos sintéticos que conferem resistência à doença. (M) Uma permease de membrana, um formador de canal ou um bloqueador de canal, tal como um análogo de peptídeo cecropina-β-litico (Jaynes e outros, 1993, Plant Sci. 89:43) que torna plantas de tabaco transgênicas resistentes a Pseudomonas solanacearum. (N) Uma proteína viral-invasiva ou uma toxina complexa derivada da mesma. Por exemplo, o acúmulo de proteínas de revestimento virais em células de planta transformadas fornece resistência à infecção viral e/ou desenvolvimento de doença estabelecido pelo vírus a partir do qual o gene de proteína de revestimento é derivado, bem como por vírus relacionados. Resistência mediada por proteína de revestimento foi conferida às plantas transformadas contra vírus do mosaico da alfafa, vírus do mosaico do pepino, vírus da listra do tabaco, vírus X da batata, vírus Y da batata, vírus etch do tabaco, vírus rattle do tabaco e vírus do mosaico do tabaco. Vide, por exemplo, Beachy e outros (1990) Ann. Rev. Phytopathol. 28:451. (O) Um anticorpo específico de inseto ou uma imunotoxina derivada do mesmo. Desta maneira, um anticorpo direcionado a uma função metabólica crítica no intestino do inseto inativaria uma enzima afetada, matando o inseto. Por exemplo, Taylor e outros (1994) Abstract #497, Seventh Int'l. Symposium on Molecular Plant-Microbe Interactions shows enzymatic inactivation in transgenic tobacco via production of single-chain antibody fragments. (P) Um anticorpo específico de vírus. Vide, por exemplo, Tavladoraki e outros (193) Nature 266:469, que mostra que plantas transgênicas expressando genes de anticorpo recombinante são protegidas de ataque de vírus. (Q) Uma proteína de parada de desenvolvimento produzida na natureza por um patógeno ou um parasita. Desta maneira, endo α-1,4-D poligalacturonases fúngica facilita a colonização fúngica e liberação de nutriente de planta através da solubilização da homo-α-1,4- D-galacturonase da parede da célula de planta (Lamb e outros, 1992) Bio/Technology 10:1436. A clonagem e a caracterização de um gene que codifica uma proteína de inibição de endopoligalacturonase de feijão é descrita por Toubart e outros (1992, Plant J., 2:367). (R) Uma proteína de parada de desenvolvimento produzida na natureza por uma planta, tal como o gene de inativação de ribossoma da cevada que provê uma resistência aumentada à doença fúngica (Longemann e outros, 1992). Bio/Technology 10:3305. (S) Interferência de RNA, onde uma molécula de RNA é usada para inibir expressão de um gene alvo. Uma molécula de RNA em um exemplo é parcialmente ou totalmente de fita dupla, que dispara uma resposta de silenciamento, resultando em clivagem de dsRNA em RNAs de interferência pequenos, que são então incorporados a um complexo de direcionamento que destrói mRNAs homólogos. Vide, por exemplo, Fire e outros, Patente U.S. 6.506.559; Graham e outros, Patente U.S. 6.573.099. 2. Genes que Conferem Resistência a um Herbicida (A) Genes codificando resistência ou tolerância a um herbicida que inibe o ponto de crescimento ou meristema, tal como um herbicida imidazolinona, sulfoanilida ou sulfonilureia. Genes exemplares nesta categoria codificam acetolactato sintase mutante (ALS) (Acetolactate Synthase) (Lee e outros, 1988 EMBO J., 7:1241) também conhecida como enzima acetoidroxiácido sintase (AHAS) (Acetohydroxiacid Synthase) (Miki e outros, 1990, Theor. Appl. Genet. 80:449). (B) Um ou mais genes adicionais codificando resistência ou tolerância a glifosato fornecida por EPSP sintase mutante e genes aroA, ou através de inativação metabólica por genes tais como DGT-28, 2mEPSPS, GAT (glifosato acetiltransferase) ou GOX (glifosato oxidase) e outros compostos fosfono tal como glufosinato (genes pat,bar e dsm- 2) e ácidos ariloxifenoxipropiônicos e ciclo-hexanodionas (genes de codificação de inibidor de ACCase). Vide, por exemplo, Patente U.S. No. 4.940.835, que revela a sequência de nucleotídeo de uma forma de EPSP que pode conferir resistência a glifosato. Uma molécula de DNA codificando um gene aroA mutante pode ser obtida sob Número de Acesso ATCC 39256 e a sequência de nucleotídeo do gene mutante é revelada na Patente U.S. No. 4.769.061. Pedido de Patente Europeu No. 0 333 033 e Patente U.S. No. 4.975.374 revelam sequências de nucleotídeo de genes da glutamina sintetase que conferem resistência a herbicidas tal como L-fosfinotricina. A sequência de nucleotídeo de um gene da fosfinotricinacetil-transferase é provida no Pedido de Patente Europeu No. 0 242 246. De Greef e outros (1989) Bio/Technology 7:61 descrevem a produção de plantas transgênicas que expressam genes bar quiméricos codificando atividade de fosfinotricina acetil transferase. Exemplar de genes conferindo resistência a ácidos ariloxifenoxipropiônicos e ciclo-hexanodionas, tais como setoxidim e haloxifope, são os genes Accl-S1, Accl-S2 e Accl-S3 descritos por Marshall e outros (1992) Theor. Appl. Genet. 83:435. (C) Genes codificando resistência ou tolerância a um herbicida que inibe fotossíntese, tal como uma triazina (genes psbA e gs+) e um benzotriazol (gene da nitrilase). Przibilla e outros (1991) Plant Cell 3:169 descrevem o uso de plasmídeos codificando genes psbA mutantes para transformar Chlamydomonas. Sequências de nucleotídeo para genes da nitrilase são reveladas na Patente U.S. No. 4.810.648 e moléculas de DNA contendo esses genes estão disponíveis sob Números de acesso ATCC 53435, 67441 e 67442. Clonagem e expressão de DNA codificando uma glutationa S-transferase são descritas por Hayes e outros (1992) Biochem. J. 285:173. (D) Genes codificando resistência ou tolerância a um herbicida que se liga a hidroxifenilpiruvato dioxigenase (HPPD), enzimas que catalisam a reação onde para-hidroxifenilpiruvato (HPP) é transformado em homogentisato. Isso inclui herbicidas tais como isoxazóis ((EP418175, EP470856, EP487352, EP527036, EP560482, EP682659, Pat. U.S. No. 5.424.276), em particular isoxaflutol, que é um herbicida seletivo para soja, dicetonitrilas (EP496630, EP496631), em particular 2-ciano-3-ciclopropil-1-(2-SO2CH3-4-CF3 fenil)propano-1,3- diona e 2-ciano-3-ciclopropil-1-(2-SO2CH3-4-2,3Cl2fenil)propano-1,3- diona, tricetonas (EP625505, EP625508, Patente U.S. No. 5.506.195), em particular sulcotriona, e pirazolinatos. Um gene que produz uma superabundância de HPPD em plantas pode prover tolerância ou resistência a tais herbicidas, incluindo, por exemplo, genes descritos nas Patentes U.S. Nos. 6.268.549 e 6.245.968 e Pedido de Patente U.S., Publicação No. 20030066102. (E) Genes codificando resistência ou tolerância a herbicidas de fenóxi auxina, tal como ácido diclorofenoxiacético (2,4-D) e que podem também conferir resistência ou tolerância a herbicidas de ariloxifenoxipropionato (AOPP). Exemplos de tais genes incluem o gene da enzima dioxigenase dependente de α-cetoglutarato (aad-1), descrito na Patente U.S. No. 7.838.733. (F) Genes codificando resistência ou tolerância a herbicidas de fenóxi auxina, tal como ácido 2,4-diclorofenoxiacético (2,4-D) e que podem também conferir resistência ou tolerância a herbicidas de piridiloxi auxina, tal como fluroxipir e triclopir. Exemplos de tais genes incluem o gene da enzima dioxigenase dependente de α- cetoglutarato (aad-12), descrito no WO 2007/053482 A2. (G) Genes codificando resistência ou tolerância a dicamba (vide, por exemplo, Publicação de Patente U.S. No. 20030135879). (H) Genes provendo resistência ou tolerância a herbicidas que inibem protoporfirinogeno oxidase (PPO) (vide Patente U.S. No. 5.767.373). (I) Genes provendo resistência ou tolerância a herbicidas triazina (tal como atrazina) e herbicidas derivados de ureia (tal como diurom) que se ligam a proteínas de núcleo de centros de reação de fotossistema II (PS II) (Vide Brussian e outros (1989) EMBO J. 1989, 8(4): 1237-1245. 3. Genes que Conferem ou Contribuem para uma Característica de Valor Agregado (A) Metabolismo de ácido graxo modificado, por exemplo, através da transformação de soja ou Brassica com um gene de antissenso ou estearoil-ACP dessaturases para aumentar o teor de ácido esteárico da planta (Knultzon e outros, 1992) Proc. Nat. Acad. Sci. USA 89:2624. (B) Teor de fitato menor (1) Introdução de um gene de codificação de fitase, tal como o gene de fitase de Aspergillus niger (Van Hartingsveldt e outros, 1993, Gene 127:87), aumenta a quebra de fitato, adicionando mais fosfato livre à planta transformada. (2) Um gene poderia ser introduzido, o qual reduz teor de fitato. Em dicotiledôneas, isso, por exemplo, poderia ser realizado clonando e então reintroduzindo DNA associado com o alelo único que é responsável pelos mutantes de soja caracterizados por níveis baixos de ácido fítico (Raboy e outros, 1990 Maydica 35:383). (C) Composição de carboidrato modificada afetada, por exemplo, através de transformação de plantas com um gene codificando uma enzima que altera o padrão de ramificação de amido. Exemplos de tais enzimas incluem gene da fructosiltransferase de Streptococcus mucus (Shiroza e outros, 1988) J. Bacteriol. 170:810, gene da levansucrase de Bacillus subtilis (Steinmetz e outros, 1985 Mol. Gen. Genel. 200:220), α-amilase de Bacillus licheniformis (Pen e outros, 1992 Bio/Technology 10:292), genes da invertase do tomate (Elliot e outros, 1993), gene da amilase da cevada (Sogaard e outros, 1993 J. Biol. Chem. 268:22480) e enzima II de ramificação de amido de endosperma de soja (Fisher e outros, 1993 Plant Physiol. 102:10450).
III. Construções Recombinantes
[00189] Conforme revelado aqui, a presente invenção provê sequências genômicas recombinantes compreendendo uma sequência genômica de soja não gênica ideal de pelo menos 1 Kb e um DNA de interesse, onde o DNA de interesse inserido é inserido na dita sequência não gênica. Em uma modalidade o DNA de interesse é um domínio analítico, ou um gene ou sequência de codificação (por exemplo, iRNA) que confere resistência a pestes ou doença, genes que conferem resistência a um herbicida ou genes que conferem ou contribuem para uma característica de valor agregado, e sequência genômica de soja não gênica ideal compreende as características que seguem: a. a sequência não gênica é de cerca de 1 Kb a cerca de 5,7 Kb de comprimento e não contém um polinucleotídeo metilado; b. a sequência não gênica exibe uma taxa de 0,01574 a 83,52 cM/Mb de recombinação dentro do genoma de uma planta dicotiledônea, tal como uma planta de soja; c. a sequência não gênica exibe um nível de 0 a 0,494 de ocupação de nucleossomas do genoma dicotiledôneo, tal como um genoma de soja; d. a sequência não gênica compartilha menos de 40% de identidade de sequência com qualquer outra sequência contida no genoma dicotiledôneo, tal como um genoma de soja; e. a sequência não gênica tem um valor de localização relativo de a partir de 0 a 0,99682 de distância genômica de um centrômero cromossômico dicotiledôneo, tal como um centrômero cromossômico de soja; f. a sequência genômica tem uma faixa de teor percentual de guanina/citosina de 14,4 a 45,9%; g. a sequência não gênica está localizada proximalmente de uma sequência gênica, compreendendo uma sequência de codificação dicotiledônea conhecida ou prevista, tal como uma sequência de codificação de soja, dentro de 40 Kb de DNA genômico contínuo compreendendo a sequência não gênica nativa; e h. a sequência não gênica está localizada em uma região de 1 Mb de sequência genômica dicotiledônea, tal como uma sequência genômica, que compreende pelo menos uma segunda sequência não gênica.
[00190] Em uma modalidade a sequência genômica de soja não gênica ideal é ainda caracterizada como tendo uma região gênica compreendendo 1 a 18 sequências de codificação de soja conhecidas ou previstas dentro de 40 Kb de DNA genômico contíguo compreendendo a sequência não gênica nativa. Em uma modalidade o locus de soja não gênico ideal é selecionado de loci do grupo 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 2, 3, 4, 5, 6, 7, 8, 9, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31 ou 32.
IV. Plantas Transgênicas
[00191] Plantas transgênicas compreendendo os loci de soja não gênicos ideais recombinantes são também providas de acordo com uma modalidade da presente invenção. Tais plantas transgênicas podem ser preparadas usando técnicas conhecidas daqueles versados no campo.
[00192] Uma célula, calo, tecido ou planta dicotiledôneo transformado (isto é, uma célula, calo, tecido ou planta de soja) pode ser identificado e isolado através da seleção e avaliação do material de planta engenheirado quanto a características codificadas pelos genes marcadores presentes do DNA de transformação). Por exemplo, seleção pode ser realizada através do cultivo de material de planta engenheirado em meio contendo uma quantidade inibidora do antibiótico ou herbicida ao qual a construção de gene de transformação confere resistência. Ainda, células transformadas podem ser também identificadas através da avaliação das atividades de quaisquer genes marcadores visíveis (por exemplo, a proteína amarelo fluorescente, proteína verde fluorescente, proteína vermelho fluorescente, betaglucuronidase, luciferase, genes B ou C1) que podem estar presentes nas construções de ácido nucleico recombinantes. Tais metodologias de seleção e avaliação são bem conhecidas daqueles versados na técnica.
[00193] Métodos físicos e bioquímicos podem ser também usados para identificar transformantes de planta ou célula de planta contendo construções de gene inseridos. Esses métodos incluem, mas não estão limitados a: 1) Análise Southern Blot ou amplificação por PCR para detecção e determinação da estrutura do inserto de DNA recombinante; 2) Northern Blot, proteção de RNase S1, amplificação por PCR de extensão de primer ou transcriptase reversa para detecção e exame de transcritos de RNA das construções de gene; 3) ensaios enzimáticos para detecção de atividade de enzima ou ribozimas, onde tais produtos de gene são codificados pela construção de gene; 4) eletroforese em gel de proteína, técnicas de Western blot, imunoprecipitação ou imunoensaios ligados à enzima (ELISA), onde os produtos de construção de gene são proteínas. Técnicas adicionais, tais como hibridização in situ, marcação de enzima e imunomarcação, podem ser também usadas para detectar a presença ou expressão da construção recombinante em órgãos e tecidos de planta específicos. Os métodos para realizar todos esses ensaios são bem conhecidos daqueles versados na técnica.
[00194] Efeitos de manipulação de gene usando os métodos revelados aqui podem ser observados através de, por exemplo, Northern blots do RNA (por exemplo, mRNA) isolados dos tecidos de interesse. Tipicamente, se o mRNA estiver presente ou a quantidade de mRNA tiver aumentado, pode ser suposto que o transgene correspondente está sendo expresso. Outros métodos de medição de gene e/ou atividade de polipeptídeo codificado podem ser usados. Tipos diferentes de ensaios enzimáticos podem ser usados, dependendo do substrato usado e do método de detecção do aumento ou diminuição de um produto ou subproduto de reação. Ainda, os níveis de polipeptídeo expresso podem ser medidos imunoquimicamente, isto é, ELISA, RIA< EIA e outros ensaios baseados em anticorpo bem conhecidos daqueles de habilidade na técnica, tal como através de ensaios de detecção eletroforética (ou com tingimento ou western blotting). Como um exemplo não limitante, a detecção das proteínas AAD-12 (ariloxialcanoato dioxigenase; vide WO 2011/066360) e PAT (fosfinotricin-N-acetil-transferase (PAT)) usando um ensaio ELISA é descrita na Publicação de Patente U.S. No. 20090093366 que é aqui incorporada a título de referência em sua totalidade. O transgene pode ser seletivamente expresso em alguns tecidos da planta ou em alguns estágios desenvolvimentais, ou o transgene pode ser expresso em substancialmente todos os tecidos de planta, substancialmente ao longo de todo o seu ciclo de vida. No entanto, qualquer modo de expressão combinatorial é também aplicável.
[00195] Um versado na técnica reconhecerá que após a sequência doadora de polinucleotídeo exógena ser estavelmente incorporada em plantas transgênicas e confirmada ser operável, ela pode ser introduzida em outras plantas através de cruzamento sexual. Qualquer uma de várias técnicas de reprodução padrão pode ser usada, dependendo da espécie a ser cruzada.
[00196] A presente invenção também compreende sementes das plantas transgênicas descritas acima onde a semente tem a construção de transgene ou gene. A presente invenção compreende ainda a progênie, clones, linhagens de célula ou células das plantas transgênicas descritas acima onde a progênie, clone, linhagem de célula ou célula tem a construção de transgene ou gene.
[00197] As células de planta transformadas que são produzidas através de qualquer uma das técnicas de transformação acima podem ser cultivadas para regenerar uma plana inteira que possui o genótipo transformado e então o fenótipo desejado. Tais técnicas de regeneração se baseiam na manipulação de certos fito-hormônios em um meio de crescimento de cultura de tecido, tipicamente se baseando em um marcador de biocida e/ou herbicida que foi introduzido junto com as sequências de nucleotídeo desejadas. Regeneração de planta a partir de protoplastos cultivados é descrita em Evans e outros "Protoplasts Isolation and Culture" em Handbook of Plant Cell Culture, pp. 124-176, Macmillian Publishing Company, New York, 1983; e Binding, Regeneration of Plants, Plant Protoplasts, pp. 21-73, CRC Press, Boca Raton, 1985. Regeneração pode ser também obtida a partir de calos de planta, explantes, órgãos, pólens, embriões ou partes das mesmas. Tais técnicas de regeneração são descritas geralmente em Klee e outros (1987) Ann. Rev. of Plant Phys. 38:467-486.
[00198] Uma planta ou material de planta transgênico compreendendo uma sequência de nucleotídeo codificando um polipeptídeo pode em algumas modalidades exibir uma ou mais das características que seguem: expressão do polipeptídeo em uma célula da planta; expressão de uma porção do polipeptídeo em um plastídeo de uma célula da planta; importação do polipeptídeo a partir do citosol de uma célula da planta para um plastídeo da célula; expressão específica de plastídeo do polipeptídeo em uma célula da planta; e/ou localização do polipeptídeo em uma célula da planta. Tal planta pode ter ainda uma ou mais características desejáveis que não a expressão do polipeptídeo codificado. Tais características podem incluir, por exemplo: resistência a insetos, outras pestes e agentes causadores de doença; tolerâncias a herbicidas; estabilidade, rendimento ou vida de prateleira aumentada; tolerâncias ambientais; produção farmacêutica; produção de produto industrial; e aumentos nutricionais.
[00199] De acordo com uma modalidade um protoplastos dicotiledôneo transgênico (isto é, um protoplastos de soja) é provido, o qual compreende um locus de soja não gênico ideal recombinante. Mais particularmente, um protoplastos dicotiledôneo, tal como um protoplastos de soja, é provido, o qual compreende um DNA de interesse inserido em loci genômicos de soja não gênicos ideais do protoplastos dicotiledôneo (isto é, um protoplastos de soja), onde os ditos loci genômicos de soja não gênicos são de cerca de 1 Kb a cerca de 5,7 Kb de comprimento e não têm quaisquer nucleotídeos metilados. Em uma modalidade o protoplastos dicotiledôneo transgênico (isto é, um protoplastos de soja transgênico), compreende um DNA de interesse inserido no locus genômico de soja não gênico ideal onde o DNA de interesse compreende um domínio analítico e/ou uma estrutura de leitura aberta. Em uma modalidade, o DNA de interesse inserido codifica um peptídeo e em uma modalidade adicional o DNA de interesse compreende pelo menos um cassete de expressão de gene compreendendo um transgene.
[00200] De acordo com uma modalidade de uma planta dicotiledônea transgênica, parte de planta dicotiledônea ou célula de planta dicotiledônea (isto é, uma planta de soja transgênica, parte de planta de soja ou célula de planta de soja) é provida compreendendo um locus de soja não gênico ideal recombinante. Mais particularmente, uma planta dicotiledônea, parte de planta dicotiledônea ou célula de planta dicotiledônea (isto é, uma planta de soja, parte de planta de soja ou célula de planta de soja) é provida, a qual compreende um DNA de interesse inserido em loci genômicos de soja não gênicos ideais da planta dicotiledônea, parte de planta dicotiledônea ou célula de planta dicotiledônea (isto é, uma planta de soja, parte de planta de soja ou célula de planta de soja), onde os ditos loci genômicos de soja não gênicos são de cerca de 1 Kb a cerca de 5,7 Kb de comprimento e não têm quaisquer nucleotídeos metilados. Em uma modalidade, a planta dicotiledônea transgênica, parte de planta dicotiledônea ou célula de planta dicotiledônea (isto é, uma planta de soja transgênica, parte de plante de soja ou célula de planta de soja) compreende um DNA de interesse inserido no locus genômico de soja não gênico ideal onde o DNA de interesse compreende um domínio analítico e/ou uma estrutura de leitura aberta. Em uma modalidade o DNA inserido de interesse codifica um peptídeo e em uma modalidade adicional o DNA de interesse compreende pelo menos um cassete de expressão de gene compreendendo um transgene.
EXEMPLOS Exemplo 1: Identificação de Loci Genômicos Direcionáveis em Soja
[00201] O genoma de soja foi avaliado com uma abordagem de bioinformática usando critérios específicos para selecionar loci genômicos ideais para direcionamento de um doador de polinucleotídeo. Os critérios específicos usados para seleção dos loci genômicos foram desenvolvidos usando considerações para expressão ótima de um transgene dentro do genoma da planta, considerações para ligação ótima de DNA genômico por uma proteína de ligação de DNA específica de sítio e necessidades de desenvolvimento de produto de planta transgênico. A fim de identificar e selecionar loci genômicos, bancos de dados genômicos e epigenômicos do genoma de soja foram varridos usando uma abordagem de bioinformática. Avaliação de conjuntos de dados genômicos e epigenômicos resultou em loci selecionados que satisfaziam os critérios que seguem: 1) hipometilados e de mais de 1 Kb de comprimento; 2) direcionáveis através de integração mediada por nuclease específica de sítio de um doador de polinucleotídeo; 2) agronomicamente neutros ou não gênicos; 4) regiões a partir das quais um transgene integrado pode ser expresso; e 5) regiões com recombinação dentro/ao redor do locus. Desta maneira, um total de 7.018 loci transgênicos (SEQ ID NO:1 - SEQ ID NO:7.018) foi identificado usando esses critérios específicos. Os critérios específicos são descritos adicionalmente em detalhes abaixo. Hipometilação
[00202] O genoma da soja foi varrido para selecionar loci genômicos ideais maiores do que 1 Kb que eram hipometilados em DNA. Perfis de metilação de DNA de tecidos da raiz e parte aérea isolados de Glycine max cultivar Williams82 foram construídos usando uma abordagem de sequenciamento de genoma integral de alto rendimento. DNA extraído foi submetido a tratamento com bissulfeto que converte citosinas não metiladas em uracilas, mas não afeta citosinas metiladas, e então sequenciadas usando tecnologia Illumina HiSeq (Krueger, F. e outros, DNA methylome analysis using short bisulfite sequencing data. Nature Methods 9, 145-151 (2012)). As leituras de sequenciamento brutas foram coletadas e mapeadas para o genoma de referência de soja c.v. Williams82 usando o software de mapeamento Bismark™ conforme descrito em Krueger, F., Andrews, S.R. (2011) Bismark: a flexible aligner and methylation caller for Bisulfite-Seq applications. Bioinformatics 27: 1571-1572).
[00203] Uma vez que, durante o processo de conversão de bissulfito, citosinas na sequência de DNA que são metiladas não são convertidas em uracilas, ocorrência de bases de citosina nos dados de sequenciamento indica a presença de metilação de DNA. As leituras que são mapeadas para a sequência de referência foram analisadas para identificar posições genômicas de resíduos citosina que apoiam metilação de DNA. O nível de metilação para cada base de citosina no genoma foi calculado como uma porcentagem do número de leituras metiladas mapeando uma localização de base de citosina particular para o número total de leituras mapeando este local. A hipótese que segue explica como níveis de metilação foram calculados para cada base dentro do genoma de soja. Por exemplo, considere que haja uma base de citosina na posição 100 no cromossomo 1 da sequência de referência de soja c.v. Williams82. Se houver um total de 20 leituras mapeadas para base de citosina na posição 100 e 10 dessas leituras forem metiladas, então o nível de metilação para a base de citosina na posição 100 no cromossomo 1 é estimado ser 50%. Desta maneira, um perfil do nível de metilação para todos os pares de base de DNA genômico obtidos do tecido de raiz e parte aérea de soja foi calculado. As leituras que não puderam ser mapeadas corretamente para locais únicos no genoma de soja eram compatíveis com sequências repetitivas que estão espalhadas no genoma da soja, e são conhecidas na técnica ser predominantemente metiladas.
[00204] Usando o protocolo descrito acima, os níveis de metilação para o genoma de soja c.v. WIllimans82 foram medidos. Desta maneira, regiões do genoma de soja contendo leituras metiladas indicaram que essas regiões do genoma de soja eram metiladas. Por outro lado, as regiões do genoma de soja que estavam ausentes de leituras metiladas indicou que essas regiões do genoma de soja eram não metilados. As regiões do genoma de soja dos tecidos da raiz e parte aérea que eram não metilados e não continham quaisquer leituras metiladas são consideradas regiões “hipometiladas”. Para disponibilizar perfis de metilação de raiz e parte aérea para visualização, gráficos wiggle (http://useast.ensembl.org/info/website/upload/wig.html) foram gerados para cada um dos cromossomos de soja c.v. Williams82.
[00205] Após obtenção do nível de metilação de DNA na separação de um par de base único em tecidos da raiz e parte aérea, conforme acima descrito, o genoma de soja foi avaliado usando uma janela de 100 pb para identificar regiões genômicas que são metiladas. Para cada janela avaliada no genoma, um nível de metilação de DNA foi obtido através do cálculo do nível médio de metilação em cada base de citosina nesta janela. Janelas genômicas com um nível de metilação de DNA maior do que 1% foram chamadas regiões genômicas que foram metiladas. As janelas metiladas identificadas em perfis de raiz e parte aérea foram combinadas para criar um perfil de metilação de consenso. Por outro lado, regiões no genoma que não satisfizeram esses critérios e não foram identificadas como regiões metiladas no perfil de consenso foram chamadas regiões hipometiladas. A Tabela 1 sumariza as regiões hipometilada identificadas. Tabela 1. Perfil de hipometilação de genoma de soja c.v. Williams82
Figure img0001
[00206] Essas regiões hipometiladas do genoma da soja c.v. WILLIAMS82 foram adicionalmente caracterizadas para identificar e selecionar loci genômicos específicos como o contexto livre de metilação dessas regiões que indicava a presença de cromatina aberta. Desta maneira, todas as análises subsequentes foram conduzidas nas regiões hipometiladas identificadas. Direcionabilidade
[00207] Os sítios hipometilados identificados na soja c.v. WILLIAMS82 foram adicionalmente analisados para determinar quais sítios eram direcionáveis através da integração mediada por nuclease específica de sítio de um doador de polinucleotídeo. Glycine max é conhecida ser uma cultura de paleopoliploide que sofreu duplicações de genoma em sua história genômica (Jackson e outros, “Genome sequence of the palaeopolyploid soybean”, Nature 463, 178-183 (2010)). O genoma da soja é conhecido na técnica conter extensões longas de DNA altamente repetitivo que são metilados e têm níveis altos de duplicação de sequência. Informação de anotação de regiões repetitivas conhecidas no genoma de soja foi coletada do Banco de Dados do Genoma de Soja (www.soybase.org, Shoemaker, R.C. e outros, “SoyBase, the USDA-ARS soybean genetics and genomics database”. Nucleic Acids Res. 2010 Jan;38(Database issue):D843-6.).
[00208] Desta maneira, os sítios hipometiladas identificados acima foram avaliados para remover quaisquer sítios que alinharam com regiões repetitivas conhecidas anotadas no genoma de soja. Os sítios hipometilados restantes que passaram por esta primeira avaliação foram subsequentemente varridos usando uma pesquisa de homologia baseada em BLAST® de um banco de dados genômico de soja através do software NCBI BLAST®+ (versão 2.2.25) operado usando os ajustes de parâmetro default (Stephen F. Altschul e outros (1997), “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs”, Nucleic Acid Res. 25:3389-3402). Como um resultado da avaliação BLAST®, quaisquer sítios hipometilados que tinham compatibilidades significantes em outro local no genoma, com cobertura de alinhamento de sequência de mais de 40%, foram removidos de análises adicionais. Agronomicamente Neutro ou Não gênico
[00209] Os sítios hipometilados identificados na soja c.v. Williams82 foram analisados adicionalmente para determinar quais sítios eram agronomicamente neutros ou não gênicos. Desta maneira, os sítios hipometilados descritos acima foram avaliados para remover quaisquer sítios que se sobrepunham ou continham quaisquer sequências de codificação de soja c.v. William82 endógena conhecida ou prevista. Para este propósito, dados de anotação de genes conhecidos e informação de mapeamento de dados de marcador de sequência expressa (EST) foram coletados de Bancos de Dados Genômicos de Soja (www.soybase.org - modelos de gene versão 1.1 foram usados, Jackson e outros, “Genome sequence of the palaeopolyploid soybean”, Nature 463, 178-183 (2010)). Qualquer região genômica imediatamente 2 Kb a montante e 1 Kb a jusante para uma estrutura de leitura aberta foi também considerada. Essas regiões a montante e a jusante podem conter elementos reguladores conservados conhecidos ou desconhecidos que são essenciais para função de gene. Os sítios hipometilados previamente descritos acima foram analisados quanto à presença dos genes conhecidos (incluindo as regiões a montante de 2 Kb e a jusante de 1 Kb) e ESTs. Quaisquer sítios hipometilados que alinharam com ou se sobrepuseram com genes conhecidos (incluindo as regiões a montante 2 Kb e a jusante 1 Kb) ou ESTs foram removidos de análise a jusante.
Expressão
[00210] Os sítios hipometilados identificados na soja c.v. Williams82 foram analisados adicionalmente para determinar quais sítios estavam dentro da proximidade com um gene de soja expresso. A expressão do nível de transcrito de genes de soja foi medida através da análise de dados de traçado de perfil de transcriptoma gerados a partir de tecidos de raiz e parte aérea de soja c.v. Williams82 usando tecnologia RNAseq® conforme descrito em Mortazavi e outros, “Mapping and quantifying mammalian transcriptomes by RNA-Seq”. Nat Methods. 2008;5(7):621-628 e Shoemaker, R.C. e outros, “RNA-Seq Atlas of Glycine max: a guide to the soybean Transcriptome”. BMC Plant Biol. 2010 Aug 5;10:160. Para cada sítio hipometilado, uma análise foi completada para identificar quaisquer genes anotados presentes dentro de uma região de 40 Kb em proximidade do sítio hipometilado, e um nível de expressão médio do(s) gene(s) anotado(s) localizados em proximidade com o sítio hipometilado. Sítios hipometilados localizados mais de 40 Kb de um gene anotado com um nível de expressão médio não zero foram determinados não estar próximos de um gene de soja expresso e foram removidos de análises adicionais.
Recombinação
[00211] Os sítios hipometilados identificados na soja c.v. Williams82 foram analisados adicionalmente para determinar quais sítios tinham evidência de recombinação e poderiam facilitar introgressão dos loci genômicos ideais em outras linhagens de soja através de reprodução convencional. Genótipos de soja diversos são rotineiramente cruzados durante reprodução convencional para desenvolver linhagens de soja novas e aperfeiçoadas contendo características de interesse agronômico. Desta maneira, características agronômicas que são introgredidas em loci genômicos ideias dentro de uma linhagem de soja através de transformação mediada por planta de um transgene devem ser capazes de ser introgredidas mais em outras linhagens de soja, especialmente linhagens de elite, através de recombinação meiótica durante reprodução de planta convencional. Os sítios hipometilados descritos acima foram avaliados para identificar e selecionar sítios que possuem algum nível de recombinação meiótica. Quaisquer sítios hipometilados que estavam presentes dentro de regiões cromossômicas caracterizados como “pontos frios” de recombinação foram identificados e removidos. Em soja, esses pontos frios foram definidos usando um conjunto de dados de marcador gerado de população de mapeamento de cruzamento entre a mesma espécie recombinante (Williams 82 x PI479752). Este conjunto de dados consistia em ~16.600 marcadores SNP que poderiam ser fisicamente mapeados para a sequência de genoma de referência de Glycine max.
[00212] As frequências de recombinação meiótica entre qualquer par de marcadores genômicos de soja em um cromossomo foram calculadas com base na razão da distância genética entre marcadores (em centimorgan (cM)) pra a distância física entre os marcadores (em megabases (Mb)). Por exemplo, se a distância genética entre um par de marcadores fosse 1 cM, e a distância física entre o mesmo par de marcadores fosse 2 Mn, então a frequência de recombinação calculada foi determinada ser 0,5 cM/Mb. Para cada sítio hipometilado identificado acima, um par de marcadores pelo menos 1 Mb separados foi escolhido e a frequência de recombinação foi calculada. Desenvolvimento deste método foi usado para calcular a frequência de recombinação dos sítios hipometilados. Quaisquer sítios hipometilados com uma frequência de recombinação de 0 cM/Mb foram identificados e removidos de análise adicional. As regiões hipometiladas restantes compreendendo uma frequência de recombinação maior do que 0 cM/Mb foram selecionadas para análise adicional.
Identificação de Loci Genômicos Ideais
[00213] Aplicação dos critérios de seleção descritos acima resultou na identificação de um total de 90.325 loci genômicos ideais do genoma de soja. A Tabela 2 sumariza os comprimentos dos loci genômicos ideais identificados. Esses loci genômicos ideais possuem as características que seguem: 1) loci genômicos hipometilados de mais de 1 Kb de comprimento; 2) loci genômicos que são direcionáveis através de integração mediada por nuclease específica de um doador de polinucleotídeo; 3) loci genômicos que são agronomicamente neutros ou não gênicos; 4) loci genômicos a partir dos quais um transgene pode ser expresso; e 5) evidência de recombinação dentro dos loci genômicos. De todos os loci genômicos ideais descritos na Tabela 2, apenas os loci genômicos ideais que eram maiores do que 1 Kb foram analisados adicionalmente e utilizados para direcionamento de uma sequência de polinucleotídeo doadora. As sequências desses loci genômicos ideais são reveladas como SEQ ID NO:1 - SEQ ID NO:7.018. Coletivamente, esses loci genômicos ideais são localizações dentro do genoma de soja que podem ser direcionados com uma sequência de polinucleotídeo doadora, como demonstrado adicionalmente abaixo. Tabela 2. Listas de faixas de tamanho de loci genômicos ótimos identificados no genoma da soja que são hipometilados, mostrando evidências de recombinação, marcáveis, agronomicamente neutra ou não gênica, e que estão em proximidade de um gene endogênico expresso.
Figure img0002
Exemplo 2: Análise de Distribuição F e Componente Principal para Grupo de Loci Genômicos Ideais de Soja
[00214] Os 7.018 loci genômicos ideais identificados (SEQ ID NO:1 - SEQ ID NO:7.018) foram analisados adicionalmente usando os métodos estatísticos de Análise de distribuição F e Componente Principal para definir uma população representativa e grupos para agrupamento dos loci genômicos ideais. Análise de Distribuição F
[00215] Os 7.018 loci genômicos ideais identificados foram estatisticamente analisados usando uma análise estatística de distribuição de probabilidade contínua. Como uma modalidade da análise estatística de distribuição de probabilidade contínua, um teste de distribuição F foi completado para determinar um número representativo de loci genômicos ideais. A análise de teste de distribuição F foi realizada usando equações e métodos conhecidos daqueles de habilidade na técnica. Para mais orientação, a análise do teste de distribuição F conforme descrito em K.M. Remund, D. Dixon, D.L. Wright e L.R. Holden. Statistical considerations in seed purity testing for transgenic traits. Seed Science Research (2001) 11, 101119, aqui incorporado a título de referência, é um exemplo não limitante de um teste de distribuição F. O teste de distribuição F supõe amostragem aleatória dos loci genômicos ideais, de maneira que quaisquer loci não válidos são distribuídos uniformemente nos 7.018 loci genômicos ideais, e que o número de loci genômicos ideais é amostrado é 10% ou menos da população total de 7,018 loci genômicos ideais.
[00216] A análise de distribuição F indicou que 32 dos 7.018 loci ideais proveram um número representativo dos 7.018 loci genômicos ideais, em um nível de 95% de segurança. Desta maneira, a análise de distribuição F mostrou que se 32 loci ideais foram testados e todos eram direcionáveis com uma sequência de polinucleotídeo doadora, então esses resultados indicariam que 91 ou mais dos 7.018 loci genômicos ideais são positivos no nível de segurança de 95%. A melhor estimativa de validação da porcentagem total dos 7.018 loci ideais seria se 100% dos 32 loci genômicos ideais testados fossem direcionáveis. Desta maneira, 91% é realmente a ligação mais baixa da porcentagem verdadeira validada no nível de 95% de segurança. Esta ligação menor é baseada no 0,95 quantil da distribuição F, para o nível de segurança de 95% (Remund, K., Dixon, D., Wright, D. e Holden L. “Statistical considerations in seed purity testing for transgenic traits". Seed Science Research (2001) 11, 101-119).
Análise do Componente Principal
[00217] Em seguida, um método estatístico de Análise de Componente Principal (PCA) foi completado para avaliar e visualizar adicionalmente similaridades e diferenças do conjunto de dados compreendendo os 7.018 loci genômicos ideais identificados para permitir amostragem de loci diversos para validação direcionada. O PCA envolve um algoritmo matemático que transforma um grande número de variáveis relacionadas em um número pequeno de variáveis não relacionadas chamadas componentes principais.
[00218] O PCA foi completado nos 7.018 loci genômicos ideais identificados através da geração de um conjunto de características ou atributos calculáveis que poderiam ser usados para descrever os 7.018 loci genômicos ideais. Cada característica é numericamente calculável e é definida especificamente para capturar o contexto genômico e epigenômico dos 7.018 loci genômicos ideais identificados. Um conjunto de 10 características para cada loci genômico ideal de soja foi identificado e é descrito em mais detalhes abaixo. 1. Comprimento dos loci genômicos ideais a. O comprimento dos loci genômicos ideais neste conjunto de dados variou de um mínimo de 1.000 pb a um máximo de 5.713 pb. 2. Frequência de recombinação em uma região de 1 MB em torno dos loci genômicos ideais a. Em soja, frequência de recombinação para uma localização cromossômica foi definida usando um conjunto de dados de marcador de resolução alta interno gerado a partir de populações de mapeamento múltiplas. b. Frequências de recombinação entre quaisquer pares de marcadores no cromossomo foram calculadas com base na razão da distância genética entre marcadores (em centimorgan (cm)) para a distância física entre os marcadores (em Mb). Por exemplo, se a distância genética entre um par de marcadores for 1 cM e a distância física entre os mesmos pares de marcadores for 2 Mb, a frequência de recombinação calculada é 0,5 cM/Mb. Para cada loci genômico ideal, um par de marcadores pelo menos 1 Mb afastados foi escolhido e a frequência de recombinação foi calculada desta maneira. Esses valores de recombinação variaram de um mínimo de 0,01574 cM/Mb a um máximo de 83,52 cM/Mb. 3. Nível de singularidade de sequência de loci genômicos ideais a. Para cada loci genômico ideal, a sequência de nucleotídeo dos loci genômicos ideais foi varrido contra o genoma de soja c.v. Williams82 usando uma pesquisa de homologia baseada em BLASTM® usando o software NCBI BLAS®+ (versão 2.2.25) operado usando os ajustes de parâmetro default (Stephen F. Altschul e outros (1997), “Gapped BLAST and PSI-BLAST: a new generation of protein database search programs”, Nucleic Acid Res. 25:3389-3402). Como essas sequências de loci genômicos ideais são identificadas a partir do genoma de soja c.v. Williams82, o primeiro hit BLAST® identificado através desta pesquisa representa a própria sequência de soja c.v. Williams®. O segundo hit de BLAST® para cada sequência de loci genômico ideal foi identificado e a cobertura de alinhamento (representada como a porcentagem dos loci genômicos ideais compreendidos pelo hit BLAST®) do hit foi usada como uma medida da singularidade da sequência de loci genômicos ideais dentro do genoma de soja. Esses valores de cobertura de alinhamento para o segundo hit de BLAST® variaram de um mínimo de 0% a um máximo de 39,97% de identidade de sequência. Quaisquer sequências que alinharam em níveis maiores de identidade de sequência não foram consideradas. 4. Distância dos loci genômicos ideais para o gene mais próximo em sua vizinhança a. Informação de anotação de gene e a localização de genes conhecidos no genoma de Soybean foram extraídas do Banco de Dados do Genoma de Soja (disponível em www.soybase.org - modelos de gene versão 1.1 foram usados, Jackson e outros, “Genome sequence of the palaeopolyploid soybean”, Nature 463, 178-183 (2010)). Para cada loci genômico ideal, o gene anotado mais próximo, considerando ambos os locais a montante e a jusante, foi identificado e a distância entre a sequência de loci genômicos ideais e o gene foi medida (em pb). Por exemplo, se um locus genômico ideal estiver localizado no cromossomo Gm01 da posição 2.500 para a posição 3.500, e o gene mais próximo deste locus genômico ideal estiver localizado no cromossomo Gm01 da posição 5.000 para a posição 6.000, a distância dos loci genômicos ideais para este gene mais próximo é calculada ser 1500 pb. Esses valores para todos os 7.018 do conjunto de ados de loci genômicos ideais de um mínimo de 1.001 pb para um máximo de 39.482 pb. 5. %CG na sequência de loci genômicos ideais 1. Para cada locus genômico ideal, a sequência de nucleotídeo foi analisada para estimar o número de bases de Guanina e Citosina presentes. Esta contagem foi representada como uma porcentagem do comprimento de sequência para cada locus genômico ideal a provê uma medida para %CG. Esses valores de %CG para o banco de dados de loci genômicos ideais de soja variam de 14,5% a 45,9%. 6. Número de genes em uma vizinhança de 40 Kb em torno da sequência de loci genômicos ideais a. Informação de anotação de gene e a localização de genes conhecidos no genoma de soja c.v. Williams82 foram extraídas do Banco de Dados de Genoma de Soja. Para cada uma das 7.018 sequências de loci genômicos ideais, uma janela de 40 Kb ao redor da sequência de loci genômicos ideais foi definida e o número de genes anotado com localizações sobrepondo esta janela foi contado. Esses valores variaram de um mínimo de 1 gene a um máximo de 18 genes dentro da vizinhança de 40 Kb. 7. Expressão de gene média em uma vizinhança de 40 Kb em redor dos loci genômicos ideais a. Expressão de nível de transcrito de genes de soja foi medida através da análise de dados de traçado de perfil de transcriptoma gerados a partir de tecidos de raiz e pares aéreas de soja c.v. Williams82 usando tecnologia RNAseq®. Informação de anotação de gene e a localização de genes conhecidos no genoma de soja c.v. Williams82 foram extraídas de Bancos de Dados de Genoma de Soja para cada locus genômico ideal, genes anotados dentro do genoma de soja c.v. Williams82 que estavam presentes em uma vizinhança de 40 Kb em torno dos loci genômicos ideais foram identificados. Níveis de expressão para cada um dos genes foram extraídos dos perfis de transcriptoma descritos nas citações referidas acima e um nível de expressão de gene médio foi calculado. Valores de expressão médios para todos do banco de dados de 7.018 loci genômicos ideais variaram de um mínimo de 0,000415 a um máximo de 872.7198. 8. Nível de ocupação de nucleossoma ao redor de loci genômicos ideais c. Compreensão do nível de ocupação de nucleossomas para uma sequência de nucleotídeo particular provê informação sobre funções cromossômicas e o contexto genômico da sequência. O pacto estatístico NuPo® foi usado para prever a ocupação de nucleossomas e o mapa de posicionamento de nucleossomas mais provável para qualquer tamanho de sequências genômicas (Xi, L., Fondufe-Mittendor, Y., Xia, L., Flatow, J., Widom, J. e Wang, J.-P., “Predicting nucleosome positioning using a duration Hidden Markov Model”, BMC Bioinformatics, 2010, doi:10.1186/1471-2105-11-346.). Para cada um dos 7.081 loci genômicos ideais, a sequência de nucleotídeo foi submetida à análise com o software NuPo® e um classificação de ocupação de nucleossomas foi calculada. Essas classificações de ocupação de nucleossoma para o conjunto de dados de loci genômicos ideais de soja variou de um mínimo de 0 a um máximo de 0,494. 9. Localização relativa dentro do cromossomo (proximidade com o centrômero) a. Um centrômero é uma região em um cromossomo que une duas cromátides-irmãs. As porções de um cromossomo em qualquer lado do centrômero são conhecidas como braços cromossômicas. Localizações genômicas de centrômeros em todos os 20 cromossomos de soja foram identificadas na sequência de referência de soja c.v. Williams82 (Jackson e outros, “Genome sequence of the palaeopolyploid soybean”, Nature 463, 178-183 (2010)). Informação sobre a posição do centrômero em cada um dos cromossomos de Soybean e os comprimentos dos braços dos cromossomos foi extraída de Banco de Dados de Genoma de Soja. Para cada locus genômico ideal, a distância genômica da sequência de locus genômico ideal para o centrômero do cromossomo no qual ela está localizada, é medida (em pb). A localização relativa de loci genômicos ideais dentro do cromossomo é representada como a razão de sua distância genômica para o centrômero com relação ao comprimento do braço cromossômico específico sobre o qual se apoia. Esses valores de localização relativos para o conjunto de dados de loci genômicos ideais de soja variaram de um mínimo de 0 a um máximo de razão 0,99682 de distância genômica. 10. Número de loci genômicos ideais em uma região de 1 Mb a. Para cada loci genômico ideal, uma janela genômica de 1 Mb em torno da localização de loci genômicos ideais foi definida e o número de outros loci genômicos ideais adicionais presentes dentro ou sobrepondo esta região foi calculado, incluindo os loci genômicos ideais sob consideração. O número de loci genômicos ideais em uma 1Mb variou de um mínimo de 1 a um máximo de 49.
[00219] Todos os 7.018 loci genômicos ideais foram analisados usando as características e atributos descritos acima. Os resultados ou valores para a classificação das características e atributos de cada locus genômico ideal são adicionalmente descritos na Tabela 3 (aqui incorporada a título de referência como um arquivo eletrônico separado). O conjunto de dados resultante foi usado no método estatístico de PCA para agrupar os 7.018 loci genômicos ideais identificados em grupos. Durante o processo de agrupamento, após estimativa dos componentes do princípio “p” dos loci genômicos ideais, a designação dos loci genômicos ideais para um dos 32 grupos prosseguiu no espaço Euclidiano dimensional “p”. Cada um dos eixos “p” foi dividido em intervalos “k”. Loci genômicos ideais designados para o mesmo intervalo foram agrupados juntos para formar grupos. Usando esta análise, cada eixo PCA foi dividido em dois intervalos, que foi escolhido com base em uma informação a priori com relação ao número de grupos requerido para validação experimental. Todas as análises e visualização dos grupos resultantes foram realizadas com software Molecular Operating Environment® (MOE) da Chemical Computing Group Inc. (Montreal, Quebec, Canadá).
[00220] A abordagem de PCA foi usada para agrupar o conjunto de 7.018 loci genômicos ideais identificados em 32 grupos distintos com base em seus valores de característica, descritos acima. Durante o processo de PCA, cinco componentes principais (PC) (Principal Components) foram gerados, com os três PCs principais contendo cerca de 90% da variação total no banco de dados (Tabela 4). Esses três PCAs foram usados para representar graficamente os 32 grupos em um gráfico tridimensional (Fig. 1). Após o processo de agrupamento ter sido completado, um locus genômico ideal representativo foi escolhido de cada grupo. Isso foi realizado escolhendo um locus genômico ideal selecionado, dentro de cada grupo, que estava mais próximo do centroide do grupo (Tabela 4). As localizações cromossômicas dos 32 loci genômicos ideais representativos são uniformemente distribuídas dentre os 20 cromossomos de soja e não tendem para nenhuma localização genômica particular, conforme mostrado na Fig. 2. Tabela 4. Descrição dos 32 loci genômicos ideais representativos identificados a partir de PCA
Figure img0003
Figure img0004
Seleção final de Loci Genômicos para Direcionamento de uma Sequência de Polinucleotídeo Doadora de Polinucleotídeo
[00221] Um total de 32 loci genômicos foi identificado e selecionado quanto a direcionamento com uma sequência de polinucleotídeo doadora dos 7.018 loci genômicos que foram agrupados dentro de 32 grupos distintos. Para cada um dos 32 grupos, um locus genômico representativo (mais próximo do centroide do grupo conforme descrito acima na Tabela 4) ou um locus adicional com homologia com linhagem de direcionamento foi escolhido. Os loci genômicos ideais adicionais foram selecionados primeiro avaliando todas as 7.018 sequências genômicas ideais selecionadas contra um banco de dados de genoma integral consistindo em dados de sequência de DNA genômico para ambas Glycine max c.v. Maverick (linhagem de avaliação de transformação e direcionamento) e Glycine max c.v. Williams82 (linhagem de referência) para determinar a cobertura (quantos loci genômicos ideais estavam presentes em ambos os genomas) e a porcentagem de identidade de sequência no genoma de ambas as linhagens. Os loci genômicos ideais com 100% de cobertura (o comprimento de sequência integral do loci ideal alinhado entre ambos os genomas) e 100% de identidade no bancos de dados genômico de Williams82 foram selecionados para validação de direcionamento. Outros critérios tais como tamanho dos loci genômicos, grau de singularidade, teor % CG e distribuição cromossômica dos loci genômicos ideais foram também levados em consideração na seleção dos loci genômicos ideais adicionais. A localização cromossômica dos 32 loci genômicos ideais selecionados e a configuração genômica específica de cada loci genômico ideal de soja são mostradas na Fig. 3 e na Tabela 5, respectivamente. Tabela 5. Descrição dos 32 loci genômicos ideais selecionados de soja escolhidos para validação de direcionamento. A partir desses loci genômicos ideais listados nesta tabela, exemplificação de clivagem e direcionamento de 32 loci genômicos de soja são representativas do total identificado de 7.018 loci genômicos ideais selecionados de soja
Figure img0005
Figure img0006
Figure img0007
[00222] Um grupo grande de 7.018 localizações genômicas foi identificado no genoma de soja como loci genômicos ideais para direcionamento com uma sequência de polinucleotídeo doadora usando tecnologias de engenharia de genoma de precisão. Uma abordagem de análise estatística foi implantado para grupo dos 7.018 loci genômicos selecionados em 32 grupos com contextos genômicos similares e identificar um subconjunto de 32 loci genômicos selecionados representativos do conjunto de 7.018 loci genômicos selecionados. Os 32 loci representativos foram validados como loci genômicos ideais através de direcionamento com uma sequência de polinucleotídeo doadora. Ao realizar a análise estatística de PCA para os valores numéricos gerados para os dez conjuntos de características ou atributos que são descritos acima, as dez características ou atributos foram computados em componentes de PCA de dimensões menores. Desta maneira, componentes de PCA foram reduzidos em cinco dimensões que são representativas das dez caraterísticas ou atributos descritos acima (Tabela 6). Cada componente de PCA é equivalente a uma combinação das dez características ou atributos descritos acima. Desses componentes de PCA compreendendo cinco dimensões, conforme computado usando a análise estatística de PCA, os 32 grupos foram determinados. Tabela 6. Os cinco componentes de PCA (PCA1, PCA2, PCA3, PCA4 e PCA5) que definem cada um dos 32 grupos e as sequências (SEQ ID NO:1 - SEQ ID NO:7.018) que formam cada grupo. Essas cinco dimensões são representativas das dez características ou atributos descritos acima que foram usados para identificar os loci genômicos ideais. Os valores mínimo (Min), médio, mediano e máximo (Max) para cada componente de PCA são providos.
Figure img0008
Figure img0009
Figure img0010
Figure img0011
Exemplo 3: Desenho de Dedos de Zinco para ligar Loci Genômicos em Soja
[00223] Proteínas dedo de zinco direcionadas contra as sequências de DNA identificadas dos loci genômicos representativos foram projetadas conforme anteriormente descrito. Vide, por exemplo, Urnov e outros (2005) Nature 435:646-551. Sequência-alvo exemplar e hélices de reconhecimento são mostradas na Tabela 7 (desenhos de regiões de hélice de reconhecimento) e Tabela 8 (sítios-alvo). Na Tabela 8, nucleotídeos no sítio-alvo que são contatados pelas hélices de reconhecimento de ZFP são indicados em letras maiúsculas e nucleotídeos não contatados são indicados em minúsculas. Sítios-alvo de Nuclease de Dedo de Zinco (ZFP) foram projetados para todos os 32 loci genômicos ideais selecionados anteriormente descritos. Vários desenhos de ZFP foram desenvolvidos e testados para identificar os dedos que se ligaram com o nível mais alto de eficiência com 32 sítios- alvo de loci genômicos representativos diferentes que foram identificados e selecionados em soja conforme descrito acima. As hélices de reconhecimento de ZFP específicas (Tabela 7) que se ligaram com o nível mais alto de eficiência às sequências de reconhecimento de dedo de zinco foram usadas para direcionamento e integração de uma sequência doadora dentro do genoma de soja. Tabela 7. Desenhos de dedo de zinco para os loci genômicos selecionados de soja (N/A indica “não aplicável”)
Figure img0012
Figure img0013
Figure img0014
Figure img0015
Figure img0016
Tabela 8. Sítio-alvo de dedo de zinco de loci genômicos selecionados de soja
Figure img0017
Figure img0018
Figure img0019
[00224] Os desenhos de dedo de zinco d e loci genômicos representativos de soja foram incorporados a vetores de expressão de dedo de zinco codificando uma proteína tendo pelo menos um dedo com uma estrutura CCHC. Vide Publicação de Patente U.S. No. 2008/0182332. Em particular, o último dedo em cada proteína tinha uma estrutura principal CCHC para a hélice de reconhecimento. As sequências de codificação de dedo de zinco não canônicas foram fundidas ao domínio de nuclease da enzima de restrição tipo IIS FokI (aminoácidos 384-579 da sequência de Wah e outros (1998) Proc. Natl. Acad. Sci. USA 95:10564-10569) através de um ligante ZC de quatro aminoácidos e um sinal de localização nuclear opaque-2 otimizado para soja para formar nucleases dedo de zinco (ZFNs). Vide Patente U.S. No. 7.888.121. Dedos de zinco para os vários domínios funcionais foram selecionados para uso in vivo. Das várias ZFNs que foram projetadas, produzidas e testadas se ligar ao sítio-alvo genômico putativo, as ZFNs descritas na Tabela 8 acima foram identificadas como tendo atividade in vivo e foram caracterizadas como sendo capazes de se ligar eficientemente e clivar os sítios-alvo de polinucleotídeo genômico de soja únicos in planta.
Montagem de Construção de ZFN
[00225] Vetores de plasmídeo contendo construções de expressão de gene de ZFN foram projetados e completados usando habilidades e técnicas geralmente conhecidas no campo (vide, por exemplo, Ausubel ou Maniatis). Cada sequência de codificação de ZFN foi fundida a uma sequência codificando um sinal de localização nuclear opaque-2 (Maddaloni e outros (1989) Nuc. Acids Res. 17:7532), que estava posicionado a montante da nuclease de dedo de zinco. As sequências de codificação de dedo de zinco não canônicas foram fundidas ao domínio de nuclease da enzima de restrição tipo IIS FokI (aminoácidos 384-579 da sequência de Wah e outros (1998) Proc. Natl. Acad. Sci. USA 95:10564-10569). Expressão das proteínas de fusão foi direcionada por um promotor constitutivo forte do Vírus do mosaico da nervura da mandioca. O cassete de expressão também inclui uma UTR 3’ da ORF23 de Agrobacterium tumefaciens. A 2A de auto-hidrólise codificando a sequência de nucleotídeo do vírus Thosea assigna (Szymczak e outros (2004) Nat. Biotechnol. 22:760-760) foi adicionada entre as duas proteínas de fusão de Nuclease de Dedo de Zinco que foram clonadas na construção.
[00226] Os vetores de plasmídeo foram montados usando a INFUSION® Advantage Technology (Clontech, Mountain View, CA). Endonucleases de restrição foram obtidas da New England BioLabs (Ipswich, MA) r T4 DNA Ligase (Invitrogen, Carlsbad, CA) foi usada para ligação de DNA. Preparações de plasmídeo foram realizadas usando NUCLEOSPIN® Plasmid Kit (Macherey-Nagel Inc., Bethlehem, PA) ou o Plasmid Midi Kit (Qiagen) seguindo as instruções dos fornecedores. Fragmentos de DNA foram isolados usando QIAQUICK GEL EXTRACTION KIT® (Qiagen) após eletroforese em gel de agarose tris- acetato. Colônias de todas as reações de ligação foram inicialmente avaliadas através de digestão por restrição de DNA Miniprep. DNA de plasmídeo de clones selecionados foi sequenciado por um vendedor de sequenciamento comercial (Eurofins MWG Operon, Huntsville, AL). Dados de sequência foram montados e analisados usando o software SEQUENCHER® (Gene Codes Corp., Ann Arbor, MI). Os plasmídeos foram construídos e confirmados através de digestão com enzima de restrição e através de sequenciamento de DNA. Clonagem de Dedo de Zinco através de Fluxo Automático
[00227] Um subconjunto de vetores de Nuclease de Dedo de Zinco foi clonado através de uma tubulação de construção de DNA automático. No geral, a tubulação automática resultou em construções de vetor com arquitetura de ZFN idêntica conforme anteriormente descrito. Cada monômero de dedo de zinco que confere a especificidade de ligação de DNA da ZFN foi dividido em 2-3 sequências únicas em um motivo de aminoácido de KFP. Ambas as extremidades 5’ e 3’ dos fragmentos de ZFN foram modificadas com inclusão de um sítio de reconhecimento BsaI (GGTCTCN) e ressaltos derivados. Os ressaltos foram distribuídos de maneira que uma montagem de 6-8 partes resultasse apenas no clone de expressão de comprimento integral desejado. Fragmentos de DNA modificados foram sintetizados de novo (Synthetic Genomics Incorporated, La Jolla, CA). Uma estrutura principal dicotiledônea única, pDAB118796, foi usada em todas as construções de ZFN de soja. Ela continha o promotor do Vírus do Mosaico da Mandioca e o NLS Opaque2 bem como o domínio FokI e a UTR 3’ Orf23 de Agrobacterium tumefaciens. Clonado entre o NLS Opaque2 e o domínio FokI estava um gene SacB flanqueado por BsaI de Bacillus subtilis. Quando eventos de ligação putativos foram plaqueados em meio contendo Sacarose, o cassete de SacB age como um agente de seleção negativo reduzindo ou eliminando contaminação da estrutura principal do vetor. Uma segunda parte utilizada repetidamente em todas as construções foi pDAB117443. Este vetor contém o domínio Fok1 do primeiro monômero, a sequência stutter T2A e o NLS Opaque2 do 2° monômero todos flanqueados por sítios BsaI.
[00228] Usando esses materiais como a biblioteca de partes de DNA de ZFN, um Freedom Evo 150® (TECAN, Mannedorf, Switzerland) manipulou a adição de 75-100 ng de cada plasmídeo de DNA ou fragmento sintetizado de tubos de código de barra 2D em uma placa de PCR (ThermoFisher, Waltham, MA). BsaI (NEB, Ipswich, MA) e ligase de DNA T4 (NEB, Ipswich, MA) suplementada com proteína Albumina de Soro Bovino (NEB, Ipswich, MA) e Tampão de Ligase de DNA T4 (NEB, Ipswich, MA) foram adicionados à reação. As reações foram ciclizadas (25X) com incubações por 3 minutos a 37°C e 4 minutos a 16°C C1000 Touch Thermo Cycler® (BioRad, Hercules CA). O material ligado foi transformado e avaliado em Top10 cells® (Life Technologies Carlsbad, CA) com a mão ou usando pegador de colônia Qpix460 e LabChip GX® (Perkin Elmer, Waltham, MA). Colônias corretamente digeridas tiveram sequência confirmada provida para transformação de planta.
Montagem de Construção Doadora Universal
[00229] Para apoiar teste rápido de um grande número de loci-alvo, uma sequência de sistema doador universal flexível, nova, foi projetada e construída. A sequência de polinucleotídeo doadora universal era compatível com metodologias e análises de construção de vetor de alto rendimento. O sistema doador universal era composto de pelo menos três domínios modulares: um domínio de ligação de ZFN variável, um domínio com características analíticas não variáveis e definidas pelo usuário e uma estrutura principal de plasmídeo simples para ampliação de vetor. A sequência de polinucleotídeo doadora universal não variável era comum a todos os doadores e permite desenho de um conjunto finito de ensaios que pode ser usado em todos os sítios-alvo de soja desta maneira provendo uniformidade em avaliação de direcionamento e reduzindo tempos de ciclo analítico. A natureza modular desses domínios permitiu montagem de doador de alto rendimento. Ainda, a sequência de polinucleotídeo doadora universal tem outras características únicas que têm como objetivo simplificar análise a jusante e aumentar a interpretação de resultados. Ela continha uma sequência de sítio de restrição assimétrica que permite a digestão de produtos de PCR em tamanhos diagnosticamente previstos. Sequências compreendendo estruturas secundárias que eram esperadas ser problemáticas em amplificação por PCR foram removidas. A sequência de polinucleotídeo doadora universal era de tamanho pequeno (menos de 3,0 Kb). Finalmente, a sequência de polinucleotídeo doadora universal foi construída na estrutura principal pUC19 de número de cópia alto que permite que uma grande quantidade de DNA de teste seja reunida em um tempo hábil.
[00230] Como uma modalidade, um plasmídeo exemplar compreendendo uma sequência de polinucleotídeo doadora universal é provido como pDAB124280 (SEQ ID NO: 7561) e Fig. 7). Em uma modalidade adicional, uma sequência de polinucleotídeo doadora universal é provida como: pDAB124281, SEQ ID NO:7562, Figura 8; pDAB121278, SEQ ID NO:7563, Figura 9; pDAB123812, SEQ ID NO:7564 Figura 10; pDAB121937, SEQ ID NO:7565, Figura 11; pDAB123811, SEQ ID NO:7566, Figura 12; e pDAB124864 SEQ ID NO:7567, Figura 13. Em outra modalidade, sequências adicionais compreendendo a sequência de polinucleotídeo doadora universal com sequência de codificação funcionalmente expressa ou sequências de codificação não funcionalmente expressas (sem promotor) podem ser construídas (Tabela 11). Tabela 11: As várias sequências de domínio universal que foram transformadas nos protoplastos de célula de planta para integração mediada por doador dentro do genoma de soja são providas. Os vários elementos do sistema de plasmídeo de domínio universal são descritos e identificados através de posição de par de base na SEQ ID NO: acompanhante. “N/A” significa não aplicável.
Figure img0020
Figure img0021
[00231] A sequência de polinucleotídeo doadora universal era um sistema doador modular de 2-3 Kb pequeno administrado como um plasmídeo. Este era um doador mínimo, compreendendo 1, 2, 3, 4, 5, 6, 7, 8 9 ou mais sítios de ligação de ZFN, uma região molde de 100-150 pb curta referida como “DNA X” ou Sequência UZI” (SEQ ID NO:7568) que carrega sítios de restrição e sequências de DNA para desenho de iniciador ou sequências de codificação, e uma estrutura principal de plasmídeo simples (Fig. 4). O plasmídeo inteiro foi inserido através de NHEJ seguindo quebras de fita dupla de DNA no sítio de ligação de ZFN apropriado; os sítios de ligação de ZFN podem ser incorporados em tandem. Esta modalidade de uma sequência de polinucleotídeo doadora universal era mais adequada para avaliação rápida de sítios-alvo e ZFNs, e sequências que eram difíceis de amplificar foram minimizadas no doador. Doadores universais sem a sequência “UZI”, mas carregando um ou mais sítios ZFN foram também gerados.
[00232] Em uma modalidade adicional a sequência de polinucleotídeo doadora foi formada de pelo menos 4 módulos e carrega sítios de ligação de ZFN, braços de homologia, DNA X ou com apenas a parte analítica de aproximadamente 100 pb ou sequências de codificação. Esta modalidade da sequência de polinucleotídeo doadora universal era adequada para interrogação de inserção de gene mediada por HDR em uma variedade de sítios-alvo, com várias ZFNs (Fig. 5).
[00233] A sequência de polinucleotídeo doadora universal pode ser usada com todas as moléculas de direcionamento com domínios de ligação de DNA definidos, com dois modos de inserção de doador direcionada (NHEJ/HDR). Desta maneira, quando a sequência de polinucleotídeo doadora universal foi coadministrada com a construção de expressão de ZFN apropriado, o vetor doador e o genoma de soja foram cortados em uma localização específica ditada pela ligação da ZFN particular. Uma vez linearizado, o doador pode ser incorporado ao genoma através de NHEJ ou HDR. As considerações analíticas diferentes no desenho de vetor podem então ser exploradas para determinar o Dedo de Zinco que maximiza a administração eficiente de integração direcionada.
Exemplo 4: Procedimentos de Transformação de Soja
[00234] Antes da administração a protoplastos de Glycine max c.v. Maverick, DNA de plasmídeo para cada construção de ZFN foi preparado a partir de culturas de E. coli usando o PURE YIELD PLASMID MAXIPREP SYSTEM® (Promega Corporation, Madison, WI) ou PLASMID MAXI KIT® (Qiagen, Valencia, CA) seguindo as instruções dos fornecedores.
Isolamento de Protoplasto
[00235] Protoplastos foram isolados de uma cultura em suspensão de Maverick derivada de calos produzidos de explantes de folha. As suspensões foram subculturadas a cada 7 dias em meio LS fresco (Linsmaier e Skoog, 1965) contendo 3% (p/v) de sacarose, 0,5 mg/L de 2,4-D e 7 g de bactoagar, pH 5,7. Para isolamento, trinta mililitros de uma cultura de suspensão de Maverick 7 dias pós-subcultura foram transferidos para um tubo cônico de 50 ml e centrifugados a 200 g por 3 minutos, fornecendo cerca de 10 ml de volume de célula sedimentado (SCV) (Settled Cell Volume) por tubo. O sobrenadante foi removido e vinte mililitros da solução de enzima (0,3% de pectoliase (320952; MP Biomedical), 3% de celulase (“Onozuka” R10®; Yakult Pharmaceuticals, Japão) em solução de MMG (MES 4 mM, manitol 0,6 M, MgCl2 15 mM, pH 6,0) foram adicionados para cada 4 SCV de células em suspensão e os tubos foram enrolados com Parafilm®. Os tubos foram postos em um agitador com plataforma de um dia para o outro (cerca de 16-18 h) e uma alíquota da célula digerida foi vista microscopicamente para assegurar que a digestão da parede celular fosse suficiente.
Purificação de Protoplasto
[00236] Trinta mililitros de cultura de suspensão de soja c.v. Maverick 7 dias pós-subcultura foram transferidos para um tubo centrífugo cônico de 50 ml e centrifugados a 200 g por 3 minutos, fornecendo cerca de 10 ml de volume de célula sedimentado (SCV) por tubo. O sobrenadante foi removido sem perturbar o pélete de célula. Vinte mililitros da solução de enzima (pectoliase 0,3% (320952; MP Biomedicals), celulase 3% (“Onozuka” R10®; Yakult Pharmaceuticals, Japão) em solução de MMG (MES 4 mM, manitol 0,6 M, MgCl2 15 mM, pH 6,0) foram adicionados a cada 4 SCV de células em suspensão e os tubos foram enrolados com Parafilm®. Os tubos foram postos em um agitador com plataforma de um dia para o outro (cerca de 16-18 h). na manhã seguinte, uma alíquota das células digeridas foi vista microscopicamente para assegurar que a digestão das paredes celulares fosse suficiente.
Purificação de Protoplasto
[00237] As soluções de célula/enzima foram filtradas lentamente através de um filtro de célula de 100 μM. O filtro de célula foi enxaguado com 10 ml de meio W5+ (MES 1,82 mM, NaCl 192 mM, CaCl2 154 mM, KCl 4,7 mM, pH 6,0). A etapa de filtragem foi repetida usando uma tela de 70 μM. O volume final foi trazido para 40 ml através da adição de 10 ml de meio W5+. As células foram misturadas invertendo o tubo. Os protoplastos foram lentamente postos em camadas sobre 8 ml de solução de amortecimento de sacarose (sacarose 500 mM, CaCl2 1 mM, MES-KOH 5 mM, pH 6,0) através da adição da solução de amortecimento ao fundo de um tubo de centrífuga cônico de 50 ml contendo as células. Os tubos foram centrifugados a 350 x g por 15 minutos em um rotor com balde oscilante. Uma ponta de pipeta de 15 ml foi usada para remover lentamente a faixa de protoplastos (cerca de 7-8 ml). Os protoplastos foram então transferidos para um tubo cônico de 50 ml e 25 ml de lavagem de W5+ foram adicionados. Os tubos foram invertidos lentamente e centrifugados por 10 minutos a 200 g. O sobrenadante foi removido, 10 ml de solução MMG foram adicionados e o tubo foi lentamente invertido para ressuspender os protoplastos. A densidade do protoplasto foi determinada usando um hemocitômetro ou um citômetro de fluxo. Tipicamente, 4 PCV de suspensão celular rende cerca de 2 milhões de protoplastos.
Transformação de Protoplastos usando PEG
[00238] A concentração de protoplasto foi ajustada para 1,6 milhão/ml com MMG. Alíquotas de protoplasto de 300 μl (cerca de 500.000 protoplastos) foram transferidas para tubos estéreis de 2 ml. A suspensão de protoplasto foi misturada regularmente durante a transferência de protoplastos para o tubo. DNA de plasmídeo foi adicionado às alíquotas de protoplasto de acordo com o projeto experimental. A estante contendo os tubos de protoplastos foi lentamente invertida 3 vezes por 1 minuto cada para misturar o DNA e protoplastos. Os protoplastos foram incubados por 5 minutos em temperatura ambiente. Trezentos microlitros de solução de polietileno glicol (PEG 4000) (etileno glicol 40% (81240-Sigma Aldrich), manitol 0,3 M, CaCl2 0,4 M) foram adicionados aos protoplastos e a estante de tubos foi misturada por 1 minuto e incubada por 5 minutos, com inversão suave duas vezes durante a incubação. Um mililitro de W5+ foi lentamente adicionado aos tubos e a estante de tubos invertida 15-20 vezes. Os tubos foram então centrifugados a 350 g por 5 min e o sobrenadante removido sem perturbar o pélete. Um mililitro de meio WI (MES 4 mM, manitol 0,6 M, KCl 20 mM, pH 6,0) foi adicionado a cada tubo e a estante foi suavemente invertida para ressuspender os péletes. A estante foi coberta com folha de alumínio e deitada de lado para incubar de um dia para o outro a 23°C.
Medição de Frequência de Transformação e Coleta de Protoplastos
[00239] Quantificação de protoplastos e eficiências de transformação foram medidas usando um Quanta Flow Cytometer® (Beckman-Coulter Inc). Aproximadamente 16-18 horas após a transformação, 100 μl década réplica foram amostrados, postos em uma placa de 96 cavidades e diluídos 1:1 com solução WI. As réplicas foram ressuspensas 3 vezes e 100 μl foram quantificados usando citometria de fluxo. Antes de submeter as amostras à análise, as amostras foram centrifugadas a 200 g por 5 min, os sobrenadantes foram removidos e as amostras foram congeladas rapidamente em nitrogênio líquido. As amostras foram então postas em um congelador a -80°C até processamento para análise molecular.
Transformação de ZFN e Doador
[00240] Para cada um dos loci genômicos selecionados da Tabela 5, os protoplastos de soja foram transfectados com construções compreendendo um controle expressando gene da proteína verde fluorescente (gfp), ZFN sozinha, doador sozinho e uma mistura de ZFN e DNA doador em uma razão de 1:10 (em peso). A quantidade total de DNA para transfecção de 0,5 milhão de protoplasto foi 80 μg. Todos os tratamentos foram conduzidos em réplicas de três. O controle expressando gene gfp usado foi pDAB7221 (Figura 14, SEQ ID NO:7569) contendo o promotor do Vírus do Mosaica da Nervura da Mandioca - sequência codificando proteína verde fluorescente - cassetes de expressão de gene UTR 3’ ORF24 de Agrobacterium tumefaciens. Para prover uma quantidade consistente de DNA total por transfecção, ou esperma de salmão ou um plasmídeo contendo um gene de gfp foi usado como carga onde necessário. Em um experimento de direcionamento típico, 4 μg de ZFN sozinha ou com 36 μg de plasmídeos doadores foram transfectados e uma quantidade apropriada de esperma de salmão ou DNA de plasmídeo pUC19 foi adicionada para trazer a quantidade total de DNA para a quantidade final de 80 μg. Inclusão de plasmídeo expressando gene de gfp como carga permite avaliação de qualidade de transfecção em loci múltiplos e tratamentos em réplica.
Exemplo 5: Clivagem de Loci Genômicos em Soja através de Nuclease de Dedo de Zinco
[00241] Direcionamento em loci genômicos selecionados foi demonstrado através de clivagem de DNA induzida por ZFN e inserção de doador usando o Sistema de Direcionamento Rápido (RTA) baseado em protoplasto. Para cada locus selecionado de soja, até seis desenhos de ZFN foram gerados e transformados em protoplastos ou sozinhos ou com um polinucleotídeo doadora universal e clivagem mediada por ZFN e inserção foram medidas usando Sequenciamento de Próxima Geração (NGS) (Next Generation Sequencing) ou PCR de junção (In- Out), respectivamente.
[00242] Protoplastos de soja transfectados com ZFN foram coletados 24 horas pós-transfecção, através de centrifugação a 1600 rpm em tubos EPPENDORF® de 2 ml e o sobrenadante foi completamente removido. DNA genômico foi extraído de péletes de protoplastos usando o QIAGEN PLANT DNA EXTRACTION KIT® (Qiagen, Valencia, CA). O DNA isolado foi ressuspenso em 50 μL de água e a concentração foi determinada através de NANODROP® (Invitrogen, Grand Island, NY). A integridade do DNA foi estimada administrando as amostras em eletroforese em gel de agarose 0,8%. Todas as amostras foram normalizadas (20-25 ng/μL) para amplificação por PCR para gerar amplicon para sequenciamento (Illumina, Inc., San Diego, CA). Primers de PCR com código de barra para regiões de amplificação compreendendo cada sequência de reconhecimento de ZFN de amostras tratadas e controle foram projetados e comprados da IDT (Coralville, IA, purificado com HPLC). Condições de amplificação ótimas foram identificadas através de PCR de gradiente usando 0,2 μM de primers com código de barras apropriados, ACCUPRIME PFX SUPERMIX® (Invitrogen, Carlsbad, CA) e 100 ng de DNA genômico molde em uma reação de 23,5 μL. Parâmetros cíclicos eram desnaturação inicial a 95°C (5 min) seguido por 35 ciclos de desnaturação (95°C, 15 seg), anelamento (55-72°C, 30 seg), extensão (68°C, 1 min) e uma extensão final (68°C, 7 min). Produtos de amplificação foram analisados em géis de agarose TAE 3,5% e temperatura de anelamento apropriada para cada combinação de primer foi determinada e usada para amplificar amplicon de amostras controle e tratadas com ZFN conforme acima descrito. Todos os amplicons foram purificados em géis de agarose 3,5%, eluídos em água e as concentrações foram determinadas através de NANODROP®. Para Sequenciamento de Próxima Geração, 100 ng de amplicon de PCR dos controles de protoplasto de soja tratados com ZFN e não tratados correspondentes foram agrupados juntos e sequenciados usando Sequenciamento de Próxima Geração Ilumina (NGS).
[00243] A atividade de clivagem de ZFNs apropriadas em cada um dos loci genômicos ideais de soja foi avaliada. Amplicons curtos correspondendo os sítios de clivagem de ZFN foram amplificados a partir do DNA genômico e submetidos a NGS Ilumina de protoplastos tratados com ZFN e controle. A clivagem induzida por ZFN ou quebra de fita dupla de DNA foi solucionado pelo curso de reparo NHEJ celular através de inserção ou deleção de nucleotídeos (indels) no sítio de clivagem e presença de indels no sítio de clivagem foi então uma medida de atividade de ZFN e foi determinada através de NGS. Atividade de clivagem das ZFNs específicas de alvo foi estimada como o número de sequências com indels por 1 milhão de sequências de alta qualidade usando software de análise NGS (Publicação de Patente 2012-0173.153, Análise de dados de sequências de DNA). As atividades foram observadas para alvos de loci genômicos selecionados de soja e foram confirmadas adicionalmente por alinhamentos de sequência que mostram uma pegada diversificada de indels em cada sítio de clivagem de ZFN. Esses dados sugerem que os loci genômicos selecionados de soja eram condescendentes à clivagem por ZFNs. Atividade diferencial em cada alvo era refletiva de seu estado de cromatina e condescendência à clivagem bem como a eficiência de expressão de cada ZFN.
Exemplo 6: Análise de Direcionamento Rápida da Integração de um Doador de Polinucleotídeo
[00244] Validação do direcionamento da sequência de polinucleotídeo doadora universal dentro dos alvos de loci genômicos selecionados de soja através de inserção de doador mediada por união de extremidade não homóloga (NHEJ) foi realizada usando um método de Análise de Teste Rápida com base em protoplasto de semi- rendimento. Para cada alvo de loci genômicos selecionados de soja, em torno de 3-6 desenhos de ZFN foram testados e direcionamento foi avaliado através da medição de clivagem mediada por ZFN através dos métodos de Sequenciamento de Próxima Geração e inserção de doador através de PCR In-Out de junção (Fig. 6). Loci genômicos de soja selecionados que eram positivos em ambos os ensaios foram identificados como locus direcionáveis. Análise de Teste Rápida de Inserção de Doador de ZFN
[00245] Para determinar se um alvo de loci genômico selecionado de soja pode ser direcionado para inserção de doador, uma construção de ZFN e construção de polinucleotídeo doadora universal foram co- administradas a protoplastos de soja que foram incubados por 24 horas antes do DNA genômico ser extraído para análise. Se a ZFN expressa fosse capaz de cortar o sítio de ligação alvo ambos no alvo de loci genômico selecionado de soja e no doador, o doador linearizado então seria inserido no sítio-alvo de clivagem no genoma de soja através do curso de união de extremidade não homólogo (NHEJ). Confirmação de integração direcionada no alvo de loci genômico selecionado de soja foi completada com base em uma estratégia de PCR “In-Out”, onde um primer “In” reconhece sequência nos loci genômicos ideais nativos e um primer “Out” se liga à sequência dentro do DNA doador. Os primeiros foram projetados de uma maneira que apenas quando o DNA doador foi inserido no alvo de loci genômico selecionado de soja, o ensaio de PCR poderia produzir um produto de amplificação com o tamanho esperado. O ensaio de PCR In-Out foi realizado em ambas as extremidades 5’ e 3’ da junção de inserção. Os primers usados para análise das sequências doadores de polinucleotídeo integradas são providos na Tabela 9.
Inserção de Doador de ZFN em Loci-alvo usando PCR “In-Out” Aninhada
[00246] Todas as amplificações por PCR foram conduzidas usando um TAKARA EX TAQ HS® kit (Clonetech, Mountain View, CA). A primeira PCR In-Out foi realizada em volume de reação final de 25 μL que contém tampão 1X TAKARA EX TAQ HS®, dNTPs 0,2 mM, primer “Out” 0,2 μM, primer “In” 0,05 μM (desenhado a partir do cassete doador universal descrito acima), 0,75 unidade de polimerase TAKARA EX TAQ HS™ polymerase e 6 ng de DNA de protoplasto de soja extraído. A reação foi então completada usando um programa de PCR que consiste em 94°C por 3 min, 14 ciclos de 98°C por 12 seg, 60 30 seg e 72°C por 1 min, seguido por 72°C por 10 min e mantido em 4°C. Produtos de PCR finais foram administrados em gel de agarose junto com 1KB PLUS DNA LADDER™ (Life Technologies, Grand Island, NY) para visualização.
[00247] A PCR In-Out aninhada foi conduzida em volume de reação final de 25 μL que continha tampão 1X TAKARA EX TAQ HS®, dNTPs 0,2 mM, primer “Out” 0,2 μM (Tabela 9), primer “In” 0,1 μM (desenhado a partir do cassete de doador universal descrito acima, Tabela 10), 0,75 unidade de polimerase TAKARA EX TAQ HS® e 1 μL do primeiro produto de PCR. A reação foi então completada usando um programa de PCR que consistia em 94°C por 3 min, 30 ciclos de 98°C por 12 seg, 60°C por 30 seg e 72°C por 45 seg, seguido por 72°C por 10 min e mantido a 4°C. Produtos de PCR finais foram administrados em um gel de agarose junto com 1KB PLUS DNA LADDER® (Life Technologies, Grand Island, NY) para visualização. Tabela 9. Lista de todos os primers “Out” para análise de PCR In-Out
Figure img0022
Figure img0023
Figure img0024
Figure img0025
Figure img0026
Figure img0027
Figure img0028
Tabela 10 . Lista de todos os primers “In” para análise de PCR In-Out deloci genômicos ideais
Figure img0029
[00248] Desenvolvimento do ensaio de PCR In-Out em um sistema de direcionamento de protoplasto foi particularmente desafiador uma vez que quantidades grandes do DNA de plasmídeo foram usadas para transfecção, e grande quantidade de DNA permanece no sistema de direcionamento de protoplasto e foi subsequentemente extraída junto com DNA genômico celular. O DNA de plasmídeo residual pode diluir a concentração relativa do DNA genômico e reduzir a sensibilidade geral de detecção e pode também ser uma causa significante de reações de PCR aberrantes, não específicas. Inserção de doador baseada em NHEJ induzida por ZFN tipicamente ocorre em uma orientação ou avançada ou reversa. Análise de PCR In-Out de DNA para a inserção de orientação avançada frequentemente exibiu faixas falso positivas, possivelmente devido a regiões compartilhadas de homologia ao redor do sítio de ligação de ZFN no alvo e doador que poderia resultar em inicialização e extensão de DNA doador não integrado durante o processo de amplificação. Falsos positivos não foram vistos em análises que sondaram produtos de inserção de orientação reversa e então toda a análise de integração de doador direcionada foi realizada para interrogar inserção de doador reversa no RTA. A fim de aumentar mais a especificidade e reduzir a base, uma estratégia de PCR aninhada foi também empregada. A estratégia de PCR aninhada usou uma segunda reação de amplificação por PCR que amplificou uma região mais curta dentro do primeiro produto de amplificação da primeira reação de PCR. Uso de quantidades assimétricas de primers “in” e “out” otimizou a PCR de junção mais para análise de direcionamento rápida em loci genômicos selecionados.
[00249] Os resultados de análise de PCR In-Out foram visualizados em gel de agarose. Para todos os loci genômicos selecionados de soja da Tabela 12, “tratamentos com ZFN + doador” produziram uma faixa de tamanho próximo do esperado nas extremidades 5’ e 3’. Tratamentos sozinho com ZFN ou doador controles eram negativos na PCR sugerindo que o método estava especificamente classificando integração de doador no sítio-alvo de pelo menos 32 dos loci genômicos de soja não gênicos-alvo. Todos os tratamentos foram conduzidos em réplicas de 3-6 e a presença do produto de PCR antecipado em réplicas múltiplas (> 1 em ambas as extremidades) foi usada para confirmar o direcionamento. Inserção de doador através de NHEJ frequentemente produz subprodutos de intensidade menor que foram gerados devido a processamento de extremidades linearizadas nos sítios de ZFN alvo e/ou doadores. Ainda, foi observado que ZFNs diferentes resultaram em níveis diferentes de eficiência para integração direcionada, com algumas das ZFNs produzindo níveis consistentemente altos de integração de doador, algumas ZFNs produzindo níveis menos consistentes de integração de doador e outras ZFNs resultando em nenhuma integração. No geral, para cada um dos alvos de loci genômicos selecionados de soja que foram testados, integração direcionada foi demonstrada dentro dos alvos de loci genômicos representativos de soja por uma ou mais ZFNs, que confirma que cada um desses loci era direcionável. Ainda, cada um dos alvos de loci genômicos selecionados de soja era adequado para transformação de gene de precisão. A validação desses alvos de loci genômicos selecionados de soja foi repetida várias vezes com resultados similares, desta maneira confirmando a reprodutibilidade do processo de validação que inclui desenho e construção de plasmídeo, transformação de protoplasto, processamento de amostra, análise de amostra.
Conclusão
[00250] O plasmídeo doador e uma ZFN projetada para especificamente clivar alvos de loci genômicos selecionados de soja foram transfectados em protoplastos de soja e as células foram coletadas 24 horas depois. Análise do DNA genômico isolado de protoplastos controle, tratados com ZFN e tratados com ZFN com doador através de PCR de junção In-Out mostrou inserção direcionada do polinucleotídeo doador universal como um resultado de clivagem de DNA genômico pelas ZFNs (Tabela 12). Esses estudos mostram que o sistema de polinucleotídeo doador universal pode ser usado para avaliar direcionamento em sítios endógenos e para avaliação de ZFNs candidatas. Finalmente, a Análise de Direcionamento Rápido baseada em Protoplasto e os novos sistemas de sequência de polinucleotídeo doador universal proveem um caminho rápido para avaliação de alvos genômicos e ZFNs para esforços de engenharia de genoma de precisão em plantas. Os métodos podem ser estendidos para avaliar clivagem específica de sítio e inserção de doador em alvos genômicos em qualquer sistema de interesse usando qualquer nuclease que introduza quebras de fita dupla ou simples de DNA>.
[00251] Mais de 7.018 loci genômicos selecionados foram identificados através de vários critérios detalhados acima. Os loci genômicos selecionados foram agrupados usando Análise de Componente Principal com base nos dez parâmetros usados para definição dos loci genômicos selecionados. Um representante dos grupos em adição a alguns outros loci de interesse foram demonstrados ser direcionáveis. Tabela 12. Ilustra os resultados da integração de uma sequência de polinucleotídeo doador universal dentro de alvos de loci genômicos selecionados de soja
Figure img0030
Figure img0031
Exemplo 7: Loci Genômicos de Soja Não gênicos Ideais para Integração em Transgene
[00252] Um conjunto de loci genômicos de soja não gênicos ideais foi identificado a partir de 7.018 loci genômicos de soja não gênicos ideais para selecionar loci múltiplos para direcionamento específico de sítio e integração de cassetes de expressão de gene e gerar pilhas de cassetes de expressão de gene dentro de um único cromossomo. O conjunto resultante de três loci genômicos de soja não gênicos ideais é referido aqui como um “Mega Locus”. Os critérios que seguem foram usados para filtrar o grupo de loci genômicos de soja não gênicos ideais e selecionar um conjunto de loci genômicos de soja não gênicos ideais: 1) Localização de pelo menos 3 loci genômicos de soja não gênicos ideais no mesmo cromossomo em proximidade um com o outro (dentro de 500 Kb dos loci genômicos de soja não gênicos ideais centrais); 2) Loci genômicos de soja não gênicos ideais de mais de 2 Kb de comprimento e dentro de 50 Kb um do outro; e 3) Os loci genômicos de soja não gênicos ideais centrais/médios são de mais de 4 Kb de comprimento.
[00253] Cada um dos critérios descritos acima foi aplicado para selecionar um conjunto de loci genômicos de soja não gênicos ideais. Os loci genômicos de soja não gênicos ideais são mostrados na Tabela 13. Tabela 13. Loci genômicos de soja não gênicos ideais identificados e selecionados para direcionamento com um cassete de expressão de gene
Figure img0032
*indica que o OGL é longo o suficiente para ser direcionado por dois cassetes de expressão de gene separados.
[00254] Dois loci de soja não gênicos ideais adicionais quer eram maiores do que 2 Kb e dentro de 500 Kb de um evento genômico transgênico conhecido que foi produzido através de integração aleatória de um inserto de fita T (por exemplo, Evento 416 AAD-12: localizado na posição cromossômica de soja, Gm04:46002956..46005750 conforme descrito no Pedido de patente Internacional No. WO2011066384A1) foram também selecionados para empilhamento de gene direcionado. Os loci genômicos de soja não gênicos ideais selecionados são mostrados na Tabela 14. Tabela 14. Loci genômicos de soja não gênicos ideais identificados e selecionados para direcionamento com um cassete de expressão de gene
Figure img0033
[00255] Um terceiro conjunto de loci genômicos de soja não gênicos ideais foi identificado dos 7.018 loci genômicos de soja não gênicos ideais para selecionar um conjunto de loci para direcionamento específico de sítio e integração de cassetes de expressão de gene e gerar pilhas de cassetes de expressão de gene. Os critérios que seguem foram usados para filtrar o grupo de loci genômicos de soja não gênicos ideais e selecionar um conjunto de loci genômicos de soja não gênicos ideais: 1) Identificação de loci genômicos de soja não gênicos ideais demais de 3 Kb de comprimento; 2) Expressão média de genes vizinhos dentro de uma região de 40 Kb em tecidos de raiz e parte aérea é maior do que 7,46, que é o 47,7% percentil de todos os loci genômicos de soja não gênicos ideais; 3) Uma frequência de recombinação de 0,5-4, que está abaixo da média/mediana para todos os loci genômicos de soja não gênicos ideais; 4) Um teor de CG maior do que 25%.
[00256] Cada um dos critérios descritos acima foi aplicado para selecionar um conjunto de loci genômicos de soja não gênicos ideais. Os loci genômicos de soja não gênicos ideais identificados são mostrados na Tabela 15. Todos os loci genômicos de soja não gênicos ideais selecionados foram avaliados quanto a proximidade a QTLs de soja conhecidos. Loci que são maiores do que 3 Kb podem ser direcionados sequencialmente na sequência endógena. Tabela 15. Loci genômicos de soja não gênicos ideais identificados e selecionados para direcionamento com um cassete de expressão de gene
Figure img0034
[00257] Os loci genômicos de soja não gênicos ideais que são selecionados usando os critérios descritos acima são validados através da integração de uma construção de expressão de gene que contém marcadores selecionáveis/reportáveis. Este cassete de expressão de gene é estavelmente integrado a plantas de soja através de direcionamento genômico usando uma nuclease específica de sítio. Os loci genômicos de soja não gênicos ideais direcionados que são produzidos e contêm um transgene expressável são analisados para identificar eventos de cópia única que contêm um cassete de expressão de gene integrado de comprimento integral. Os perfis de expressão dos loci genômicos de soja não gênicos ideais são analisados através de qRT-PCR, Western blot, ELISA, LC-MS MS e outros métodos de detecção de RNA ou proteína conhecidos em gerações de planta múltiplas (por exemplo, gerações T1 e T2). Ainda, o efeito da integração do cassete de expressão de transgene dentro dos loci genômicos de soja não gênicos ideais em expressão de gene vizinho é ensaiado. Finalmente, o efeito da integração do cassete de expressão de transgene dentro dos loci genômicos de soja não gênicos ideais sobre propriedades agronômicas de plantas de soja é ensaiado.

Claims (18)

1. Molécula de ácido nucleico recombinante, caracterizada pelo fato de que compreende: uma molécula de ácido nucleico não gênica de pelo menos 1 Kb, em que a. o nível de metilação da referida molécula de ácido nucleico não gênica é de 1% ou menos; b. a molécula de ácido nucleico não gênica está localizada dentro de uma região de 40 Kb de uma molécula de ácido nucleico codificante expressiva de soja conhecida ou prevista; e c. a molécula de ácido nucleico não gênica exibe uma frequência de recombinação no genoma da soja superior a 0,01574 cM/Mb, em que a referida molécula de ácido nucleico não gênica é selecionada a partir do grupo que consiste na SEQ ID NO: 639, identificada como soja_OGL_1423, SEQ ID NO: 137, identificada como soja_OGL_1434, SEQ ID NO: 76, identificada como soja_OGL_4625, SEQ ID NO: 440, identificada como soja_OGL_6362, SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, SEQ ID NO: 4326, identificada como soja_OGL_310, SEQ ID NO: 47, identificada como soja_OGL_684, SEQ ID NO: 2101, identificada como soja_OGL_682 e SEQ ID NO: 48, identificada como soja_OGL_685; e um DNA de interesse, em que o DNA de interesse é inserido na referida molécula de ácido nucleico não gênica para produzir a referida molécula de ácido nucleico recombinante.
2. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que o referido DNA de interesse é inserido dentro de 2 Kb, 1,75 Kb, 1,5 Kb, 1,25 Kb, 1,0 Kb, 0,75 Kb, 0,5 Kb ou 0,25 Kb de um sítio alvo de dedo de zinco.
3. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que o referido DNA de interesse é inserido entre um par de sítios alvo de dedos de zinco.
4. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que o referido DNA de interesse compreende um gene de resistência a insetos, gene de tolerância a herbicidas, gene de eficiência de uso de nitrogênio, gene de eficiência de uso de água, gene de qualidade nutricional, gene de qualidade nutricional, gene de ligação a DNA ou gene marcador selecionável.
5. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que o referido DNA de interesse compreender duas ou mais cassetes de expressão gênica.
6. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que cada uma das duas ou mais das referidas moléculas de ácido nucleico não gênicas compreende um DNA inserido de interesse para produzir duas ou mais moléculas de ácido nucleico recombinantes, em que as duas ou mais moléculas de ácido nucleico recombinantes estão localizadas em um mesmo cromossomo.
7. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que o referido DNA de interesse é modificado durante a inserção do referido DNA de interesse na referida molécula de ácido nucleico não gênica.
8. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que a molécula de ácido nucleico genômico de soja não gênica é selecionada a partir do grupo que consiste em SEQ ID NO: 639, identificada como soja_OGL_1423, SEQ ID NO: 137, identificada como soja_OGL_1434, SEQ ID NO: 76, identificada como soja_OGL_4625, SEQ ID NO: 440, identificada como soja_OGL_6362, SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, e SEQ ID NO: 4326, identificada como soja_OGL_310.
9. Molécula de ácido nucleico recombinante, de acordo com a reivindicação 1, caracterizada pelo fato de que a molécula de ácido nucleico genômico de soja não gênica é selecionada do grupo que consiste em SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, e SEQ ID NO: 4326, identificada como soja_OGL_310.
10. Uso de uma planta de soja, parte de planta de soja ou célula de planta de soja compreendendo uma molécula de ácido nucleico recombinante, como definida em qualquer uma das reivindicações 1 a 4, caracterizada pelo fato de que é para cruzamento com uma segunda planta, regenerar uma planta transgênica, plantio ou cultivo de um campo de plantas transgênicas, produzir produtos vegetais ou produzir um produto de base.
11. Método para produzir uma célula vegetal transgênica compreendendo um DNA de interesse, caracterizado pelo fato de que compreende as etapas de: a. selecionar uma molécula de ácido nucleico genômico de soja não gênica alvo de pelo menos 1 Kb, em que i. o nível de metilação da referida molécula de ácido nucleico não gênica é de 1% ou menos; ii. a molécula de ácido nucleico não gênica está localizada dentro de uma região de 40 Kb de uma molécula de ácido nucleico codificante expressiva de soja conhecida ou prevista; e iii. a molécula de ácido nucleico não gênica exibe uma frequência de recombinação no genoma da soja superior a 0,01574 cM/Mb, em que a referida molécula de ácido nucleico não gênica é selecionada a partir do grupo que consiste em SEQ ID NO: 639, identificada como soja_OGL_1423, SEQ ID NO: 137, identificada como soja_OGL_1434, SEQ ID NO: 76, identificada como soja_OGL_4625, SEQ ID NO: 440, identificada como soja_OGL_6362, SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, SEQ ID NO: 4326, identificada como soja_OGL_310, SEQ ID NO: 47, identificada como soja_OGL_684, SEQ ID NO: 2101, identificada como soja_OGL_682 e SEQ ID NO: 48, identificada como soja_OGL_685; b. selecionar uma nuclease sítio específica que se liga e cliva especificamente a referida molécula alvo de ácido nucleico genômico de soja não gênica; c. introduzir a referida nuclease sítio específica em uma célula vegetal de soja; d. introduzir o DNA de interesse na célula vegetal; e inserir o DNA de interesse na referida molécula alvo de ácido nucleico genômico de soja não gênica; e f. selecionar células vegetais transgênicas compreendendo o DNA de interesse direcionado à referida molécula de ácido nucleico não gênica.
12. Método para produzir uma célula vegetal transgênica, de acordo com a reivindicação 11, caracterizado pelo fato de que a referida nuclease sítio específica é selecionada do grupo que consiste em uma nuclease de dedo de zinco, uma nuclease CRISPR, um TALEN, uma endonuclease homing e uma meganuclease.
13. Método para produzir uma célula vegetal transgênica, de acordo com a reivindicação 11, caracterizado pelo fato de que o referido DNA de interesse é integrado dentro da referida molécula de ácido nucleico não gênica por meio de um método de integração de reparo direcionado por homologia.
14. Método para produzir uma célula vegetal transgênica, de acordo com a reivindicação 11, caracterizado pelo fato de que o referido DNA de interesse é integrado dentro da referida molécula de ácido nucleico não gênica por meio de um método de integração de união de extremidade não homóloga.
15. Método para produzir uma célula vegetal transgênica, de acordo com a reivindicação 11, caracterizado pelo fato de que dois ou mais do referido DNA de interesse são inseridos em dois ou mais das referidas moléculas alvo de ácido nucleico genômico não gênica da soja, opcionalmente no mesmo cromossomo.
16. Método para produzir uma célula vegetal transgênica, de acordo com a reivindicação 11, caracterizado pelo fato de que o referido DNA de interesse é modificado durante a inserção do referido DNA de interesse nas referidas moléculas alvo de ácido nucleico genômico não gênica da soja.
17. Método para produzir uma célula vegetal transgênica, de acordo com qualquer uma das reivindicações 11 a 16, caracterizado pelo fato de que a molécula de ácido nucleico genômico não gênica da soja é selecionada do grupo que consiste em SEQ ID NO: 639, identificada como soja_OGL_1423, SEQ ID NO: 137, identificada como soja_OGL_1434, SEQ ID NO: 76, identificada como soja_OGL_4625, SEQ ID NO: 440, identificada como soja_OGL_6362, SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, e SEQ ID NO: 4326, identificada como soja_OGL_310.
18. Método para produzir uma célula vegetal transgênica, de acordo com qualquer uma das reivindicações 11 a 16, caracterizado pelo fato de que a molécula de ácido nucleico genômico de soja não gênica de soja é selecionada do grupo que consiste em SEQ ID NO: 43, identificada como soja_OGL_308, SEQ ID NO: 566, identificada como soja_OGL_307, e SEQ ID NO: 4326, identificada como soja_OGL_310.
BR102014027466-9A 2013-11-04 2014-11-03 Molécula de ácido nucleico recombinante, método para produzir uma célula vegetal transgênica e usos de uma planta de soja, parte de planta de soja ou célula de planta de soja transgênica BR102014027466B1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361899602P 2013-11-04 2013-11-04
US61/899,602 2013-11-04

Publications (3)

Publication Number Publication Date
BR102014027466A2 BR102014027466A2 (pt) 2016-09-20
BR102014027466A8 BR102014027466A8 (pt) 2021-09-14
BR102014027466B1 true BR102014027466B1 (pt) 2022-09-27

Family

ID=53005275

Family Applications (1)

Application Number Title Priority Date Filing Date
BR102014027466-9A BR102014027466B1 (pt) 2013-11-04 2014-11-03 Molécula de ácido nucleico recombinante, método para produzir uma célula vegetal transgênica e usos de uma planta de soja, parte de planta de soja ou célula de planta de soja transgênica

Country Status (19)

Country Link
US (4) US9909131B2 (pt)
EP (2) EP3066202B1 (pt)
JP (2) JP6560205B2 (pt)
KR (1) KR102269374B1 (pt)
CN (1) CN106232821A (pt)
AR (1) AR098300A1 (pt)
AU (3) AU2014341934B2 (pt)
BR (1) BR102014027466B1 (pt)
CA (2) CA2926536C (pt)
CL (5) CL2016001063A1 (pt)
IL (2) IL245304B (pt)
MX (1) MX358066B (pt)
NZ (3) NZ746567A (pt)
RU (1) RU2016120636A (pt)
TW (1) TWI672378B (pt)
UA (1) UA121459C2 (pt)
UY (1) UY35816A (pt)
WO (1) WO2015066643A1 (pt)
ZA (1) ZA201602546B (pt)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8424520B2 (en) 2008-09-23 2013-04-23 Covidien Lp Safe standby mode for ventilator
EP2689019A2 (en) 2011-03-23 2014-01-29 Pioneer Hi-Bred International Inc. Methods for producing a complex transgenic trait locus
US10323236B2 (en) 2011-07-22 2019-06-18 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
RS64622B1 (sr) 2012-05-25 2023-10-31 Univ California Metode i sastavi za modifikaciju ciljane dnk upravljenu pomoću rnk i za modulaciju transkripcije upravljanu rnk
KR102006880B1 (ko) 2012-12-06 2019-08-02 시그마-알드리치 컴퍼니., 엘엘씨 Crispr-기초된 유전체 변형과 조절
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
EP3066110B1 (en) * 2013-11-04 2021-12-29 Corteva Agriscience LLC Optimal maize loci
US9068179B1 (en) 2013-12-12 2015-06-30 President And Fellows Of Harvard College Methods for correcting presenilin point mutations
AU2015298571B2 (en) 2014-07-30 2020-09-03 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
CA2956487A1 (en) 2014-09-12 2016-03-17 E. I. Du Pont De Nemours And Company Generation of site-specific-integration sites for complex trait loci in corn and soybean, and methods of use
WO2016089433A1 (en) 2014-12-03 2016-06-09 Agilent Technologies, Inc. Guide rna with chemical modifications
CN107787367B (zh) 2015-04-06 2021-10-26 里兰斯坦福初级大学理事会 用于crispr/cas介导的基因调控的化学修饰的引导rna
IL258821B (en) 2015-10-23 2022-07-01 Harvard College Nucleobase editors and their uses
BR112018007796A2 (pt) * 2015-11-06 2018-10-30 Du Pont plantas de soja, partes de plantas de soja ou sementes de soja, método para selecionar uma célula de soja, métodos de seleção de uma célula de soja e de produção de um locus e molécula de ácido nucleico
US10767175B2 (en) 2016-06-08 2020-09-08 Agilent Technologies, Inc. High specificity genome editing using chemically modified guide RNAs
IL264565B1 (en) 2016-08-03 2024-03-01 Harvard College Adenosine nuclear base editors and their uses
CA3033327A1 (en) 2016-08-09 2018-02-15 President And Fellows Of Harvard College Programmable cas9-recombinase fusion proteins and uses thereof
WO2018039438A1 (en) 2016-08-24 2018-03-01 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
JP2019530464A (ja) 2016-10-14 2019-10-24 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸塩基エディターのaav送達
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
CN110914310A (zh) 2017-03-10 2020-03-24 哈佛大学的校长及成员们 胞嘧啶至鸟嘌呤碱基编辑器
WO2018176009A1 (en) 2017-03-23 2018-09-27 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
WO2019023680A1 (en) 2017-07-28 2019-01-31 President And Fellows Of Harvard College METHODS AND COMPOSITIONS FOR EVOLUTION OF BASIC EDITORS USING PHAGE-ASSISTED CONTINUOUS EVOLUTION (PACE)
US20190032067A1 (en) * 2017-07-28 2019-01-31 Organic Genomics, Inc. Automated methods and systems for genetically enhancing genomes in computer controlled environments utilizing recurrently segmented nucleotide replications
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
WO2019079347A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE
WO2020191239A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
DE112021002672T5 (de) 2020-05-08 2023-04-13 President And Fellows Of Harvard College Vefahren und zusammensetzungen zum gleichzeitigen editieren beider stränge einer doppelsträngigen nukleotid-zielsequenz
CA3230927A1 (en) 2021-09-10 2023-03-16 Agilent Technologies, Inc. Guide rnas with chemical modification for prime editing

Family Cites Families (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4693977A (en) 1982-08-23 1987-09-15 Queen's University At Kingston Enzyme immobilization for producing cephalosporin antibiotics
US4536475A (en) 1982-10-05 1985-08-20 Phytogen Plant vector
US4535060A (en) 1983-01-05 1985-08-13 Calgene, Inc. Inhibition resistant 5-enolpyruvyl-3-phosphoshikimate synthetase, production and use
NL8300698A (nl) 1983-02-24 1984-09-17 Univ Leiden Werkwijze voor het inbouwen van vreemd dna in het genoom van tweezaadlobbige planten; agrobacterium tumefaciens bacterien en werkwijze voor het produceren daarvan; planten en plantecellen met gewijzigde genetische eigenschappen; werkwijze voor het bereiden van chemische en/of farmaceutische produkten.
NZ207765A (en) 1983-04-15 1987-03-06 Lubrizol Genetics Inc Plant expression of transferred dna(t-dna)from plasmids associated with agrobacterium sp
US4886937A (en) 1985-05-20 1989-12-12 North Carolina State University Method for transforming pine
US4940835A (en) 1985-10-29 1990-07-10 Monsanto Company Glyphosate-resistant plants
US4810648A (en) 1986-01-08 1989-03-07 Rhone Poulenc Agrochimie Haloarylnitrile degrading gene, its use, and cells containing the gene
DE3765449D1 (de) 1986-03-11 1990-11-15 Plant Genetic Systems Nv Durch gentechnologie erhaltene und gegen glutaminsynthetase-inhibitoren resistente pflanzenzellen.
US4975374A (en) 1986-03-18 1990-12-04 The General Hospital Corporation Expression of wild type and mutant glutamine synthetase in foreign hosts
US5422251A (en) 1986-11-26 1995-06-06 Princeton University Triple-stranded nucleic acids
US5015580A (en) 1987-07-29 1991-05-14 Agracetus Particle-mediated transformation of soybean plants and lines
ATE87032T1 (de) 1986-12-05 1993-04-15 Ciba Geigy Ag Verbessertes verfahren zur transformation von pflanzlichen protoplasten.
EP0333033A1 (en) 1988-03-09 1989-09-20 Meiji Seika Kaisha Ltd. Glutamine synthesis gene and glutamine synthetase
US5416011A (en) 1988-07-22 1995-05-16 Monsanto Company Method for soybean transformation and regeneration
DE3834738A1 (de) 1988-10-12 1990-04-19 Basf Lacke & Farben Verfahren zur herstellung eines mehrschichtigen ueberzuges, waessrige beschichtungszusammensetzungen, wasserverduennbare polyacrylatharze und verfahren zur herstellung von wasserverduennbaren polyacrylatharzen
US5176996A (en) 1988-12-20 1993-01-05 Baylor College Of Medicine Method for making synthetic oligonucleotides which bind specifically to target sites on duplex DNA molecules, by forming a colinear triplex, the synthetic oligonucleotides and methods of use
US5302523A (en) 1989-06-21 1994-04-12 Zeneca Limited Transformation of plant cells
US5501967A (en) 1989-07-26 1996-03-26 Mogen International, N.V./Rijksuniversiteit Te Leiden Process for the site-directed integration of DNA into the genome of plants
US5550318A (en) 1990-04-17 1996-08-27 Dekalb Genetics Corporation Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof
US7705215B1 (en) 1990-04-17 2010-04-27 Dekalb Genetics Corporation Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof
GB9017539D0 (en) 1990-08-10 1990-09-26 Rhone Poulenc Agriculture New compositions of matter
GB8920519D0 (en) 1989-09-11 1989-10-25 Rhone Poulenc Ltd New compositions of matter
CA2074355C (en) 1990-01-22 2008-10-28 Ronald C. Lundquist Method of producing fertile transgenic corn plants
US5484956A (en) 1990-01-22 1996-01-16 Dekalb Genetics Corporation Fertile transgenic Zea mays plant comprising heterologous DNA encoding Bacillus thuringiensis endotoxin
US6403865B1 (en) 1990-08-24 2002-06-11 Syngenta Investment Corp. Method of producing transgenic maize using direct transformation of commercially important genotypes
JP2859427B2 (ja) 1990-11-21 1999-02-17 株式会社東芝 超電導コイル装置
US5384253A (en) 1990-12-28 1995-01-24 Dekalb Genetics Corporation Genetic transformation of maize cells by electroporation of cells pretreated with pectin degrading enzymes
GB9101659D0 (en) 1991-01-25 1991-03-06 Rhone Poulenc Agriculture Compositions of matter
GB9310203D0 (en) 1993-05-18 1993-06-30 Rhone Poulenc Agriculture Compositions of new matter
GB9101660D0 (en) 1991-01-25 1991-03-06 Rhone Poulenc Agriculture New compositions of matter
GB9115377D0 (en) 1991-07-17 1991-09-04 Rhone Poulenc Agriculture New compositions of matter
GB9115909D0 (en) 1991-07-23 1991-09-04 Nickerson Int Seed Recombinant dna
GB9116834D0 (en) 1991-08-05 1991-09-18 Rhone Poulenc Agriculture Compositions of new matter
US5420032A (en) 1991-12-23 1995-05-30 Universitge Laval Homing endonuclease which originates from chlamydomonas eugametos and recognizes and cleaves a 15, 17 or 19 degenerate double stranded nucleotide sequence
US5334753A (en) 1992-03-12 1994-08-02 Rhone-Poulenc Agriculture Ltd Processes for preparing ortho-substituted benzoic acids
DK39692D0 (da) 1992-03-25 1992-03-25 Danisco Biologisk materiale
US5356802A (en) 1992-04-03 1994-10-18 The Johns Hopkins University Functional domains in flavobacterium okeanokoites (FokI) restriction endonuclease
US5487994A (en) 1992-04-03 1996-01-30 The Johns Hopkins University Insertion and deletion mutants of FokI restriction endonuclease
US5436150A (en) 1992-04-03 1995-07-25 The Johns Hopkins University Functional domains in flavobacterium okeanokoities (foki) restriction endonuclease
US5792632A (en) 1992-05-05 1998-08-11 Institut Pasteur Nucleotide sequence encoding the enzyme I-SceI and the uses thereof
US5591616A (en) 1992-07-07 1997-01-07 Japan Tobacco, Inc. Method for transforming monocotyledons
EP0652965A1 (en) 1992-07-27 1995-05-17 Pioneer Hi-Bred International, Inc. An improved method of agrobacterium-mediated transformation of cultured soybean cells
US5607914A (en) 1993-01-13 1997-03-04 Pioneer Hi-Bred International, Inc. Synthetic antimicrobial peptides
GB9302071D0 (en) 1993-02-03 1993-03-24 Rhone Poulenc Agriculture Compositions of matter
ATE172718T1 (de) 1993-05-18 1998-11-15 Rhone Poulenc Agriculture 2-cyan-1,3-dion-derivate und ihre verwendung als herbizid
US6242568B1 (en) 1994-01-18 2001-06-05 The Scripps Research Institute Zinc finger protein derivatives and methods therefor
US6140466A (en) 1994-01-18 2000-10-31 The Scripps Research Institute Zinc finger protein derivatives and methods therefor
ATE310812T1 (de) 1994-01-18 2005-12-15 Scripps Research Inst Derivate von zinkfingerproteinen und methoden
US5767373A (en) 1994-06-16 1998-06-16 Novartis Finance Corporation Manipulation of protoporphyrinogen oxidase enzyme activity in eukaryotic organisms
GB9824544D0 (en) 1998-11-09 1999-01-06 Medical Res Council Screening system
JP4118327B2 (ja) 1994-08-20 2008-07-16 ゲンダック・リミテッド Dna認識のための結合タンパク質におけるまたはそれに関連する改良
US5506195A (en) 1994-11-01 1996-04-09 Zeneca Limited Selective 1,3-cyclohexanedione corn herbicide
US5789538A (en) 1995-02-03 1998-08-04 Massachusetts Institute Of Technology Zinc finger proteins with high affinity new DNA binding specificities
US5659026A (en) 1995-03-24 1997-08-19 Pioneer Hi-Bred International ALS3 promoter
US5994627A (en) 1995-03-31 1999-11-30 Common Wealth Scientific And Industrial Research Organisation Genetic sequences conferring nematode resistance in plants and uses therefor
FR2734842B1 (fr) 1995-06-02 1998-02-27 Rhone Poulenc Agrochimie Sequence adn d'un gene de l'hydroxy-phenyl pyruvate dioxygenase et obtention de plantes contenant un gene de l'hydroxy-phenyl pyruvate dioxygenase, tolerantes a certains herbicides
US5693512A (en) 1996-03-01 1997-12-02 The Ohio State Research Foundation Method for transforming plant tissue by sonication
CA2256501A1 (en) 1996-06-27 1997-12-31 E.I. Du Pont De Nemours And Company Plant gene for p-hydroxyphenylpyruvate dioxygenase
US5925523A (en) 1996-08-23 1999-07-20 President & Fellows Of Harvard College Intraction trap assay, reagents and uses thereof
US5981840A (en) 1997-01-24 1999-11-09 Pioneer Hi-Bred International, Inc. Methods for agrobacterium-mediated transformation
GB2338237B (en) 1997-02-18 2001-02-28 Actinova Ltd In vitro peptide or protein expression library
US7105724B2 (en) 1997-04-04 2006-09-12 Board Of Regents Of University Of Nebraska Methods and materials for making and using transgenic dicamba-degrading organisms
GB9710809D0 (en) 1997-05-23 1997-07-23 Medical Res Council Nucleic acid binding proteins
GB9710807D0 (en) 1997-05-23 1997-07-23 Medical Res Council Nucleic acid binding proteins
US6245968B1 (en) 1997-11-07 2001-06-12 Aventis Cropscience S.A. Mutated hydroxyphenylpyruvate dioxygenase, DNA sequence and isolation of plants which contain such a gene and which are tolerant to herbicides
US6506559B1 (en) 1997-12-23 2003-01-14 Carnegie Institute Of Washington Genetic inhibition by double-stranded RNA
JP4309051B2 (ja) 1998-03-02 2009-08-05 マサチューセッツ インスティテュート オブ テクノロジー 改善したリンカーを有するポリジンクフィンガータンパク質
AUPP249298A0 (en) 1998-03-20 1998-04-23 Ag-Gene Australia Limited Synthetic genes and genetic constructs comprising same I
US6140081A (en) 1998-10-16 2000-10-31 The Scripps Research Institute Zinc finger binding domains for GNN
US6599692B1 (en) 1999-09-14 2003-07-29 Sangamo Bioscience, Inc. Functional genomics using zinc finger proteins
US7070934B2 (en) 1999-01-12 2006-07-04 Sangamo Biosciences, Inc. Ligand-controlled regulation of endogenous gene expression
US6453242B1 (en) 1999-01-12 2002-09-17 Sangamo Biosciences, Inc. Selection of sites for targeting by zinc finger proteins and methods of designing zinc finger proteins to bind to preselected sites
US6534261B1 (en) 1999-01-12 2003-03-18 Sangamo Biosciences, Inc. Regulation of endogenous gene expression in cells using zinc finger proteins
AU2848800A (en) 1999-01-14 2000-08-01 Monsanto Technology Llc Soybean transformation method
US6794136B1 (en) 2000-11-20 2004-09-21 Sangamo Biosciences, Inc. Iterative optimization in the design of binding proteins
US7030215B2 (en) 1999-03-24 2006-04-18 Sangamo Biosciences, Inc. Position dependent recognition of GNN nucleotide triplets by zinc fingers
ATE309536T1 (de) 1999-12-06 2005-11-15 Sangamo Biosciences Inc Methoden zur verwendung von randomisierten zinkfingerprotein-bibliotheken zur identifizierung von genfunktionen
AU2001226935B2 (en) 2000-01-24 2006-06-22 Gendaq Limited Nucleic acid binding polypeptides characterized by flexible linkers connected nucleic acid binding modules
ATE483970T1 (de) 2000-02-08 2010-10-15 Sangamo Biosciences Inc Zellen zur entdeckung von medikamenten
US20020061512A1 (en) 2000-02-18 2002-05-23 Kim Jin-Soo Zinc finger domains and methods of identifying same
US20030044787A1 (en) 2000-05-16 2003-03-06 Joung J. Keith Methods and compositions for interaction trap assays
JP2002060786A (ja) 2000-08-23 2002-02-26 Kao Corp 硬質表面用殺菌防汚剤
US7067317B2 (en) 2000-12-07 2006-06-27 Sangamo Biosciences, Inc. Regulation of angiogenesis with zinc finger proteins
GB0108491D0 (en) 2001-04-04 2001-05-23 Gendaq Ltd Engineering zinc fingers
WO2003016496A2 (en) 2001-08-20 2003-02-27 The Scripps Research Institute Zinc finger binding domains for cnn
WO2003054189A2 (de) * 2001-12-20 2003-07-03 Sungene Gmbh & Co. Kgaa Verfahren zur transformation von pflanzlichen plastiden
US7262054B2 (en) 2002-01-22 2007-08-28 Sangamo Biosciences, Inc. Zinc finger proteins for DNA binding and gene regulation in plants
CN100575485C (zh) 2002-01-23 2009-12-30 犹他大学研究基金会 使用锌指核酸酶的定向染色体诱变
CA2479858A1 (en) 2002-03-21 2003-10-02 Monika Liljedahl Methods and compositions for using zinc finger endonucleases to enhance homologous recombination
US7361635B2 (en) 2002-08-29 2008-04-22 Sangamo Biosciences, Inc. Simultaneous modulation of multiple genes
EP2806025B1 (en) 2002-09-05 2019-04-03 California Institute of Technology Use of zinc finger nucleases to stimulate gene targeting
EP2322629A3 (en) 2003-04-29 2011-11-02 Pioneer Hi-Bred International Inc. Novel glyphosate-n-acetyltransferase (GAT) genes
WO2005003359A1 (ja) 2003-07-08 2005-01-13 Japan Science And Technology Corporation トランスジェニック生物を作製する方法およびシステム
US8409861B2 (en) 2003-08-08 2013-04-02 Sangamo Biosciences, Inc. Targeted deletion of cellular DNA sequences
US7888121B2 (en) 2003-08-08 2011-02-15 Sangamo Biosciences, Inc. Methods and compositions for targeted cleavage and recombination
EP2927318B1 (en) 2003-08-08 2020-05-20 Sangamo Therapeutics, Inc. Methods and compositions for targeted cleavage and recombination
US7972854B2 (en) 2004-02-05 2011-07-05 Sangamo Biosciences, Inc. Methods and compositions for targeted cleavage and recombination
EP1732614B1 (en) 2004-04-08 2008-12-24 Sangamo Biosciences Inc. Compositions for treating neuropathic and neurodegenerative conditions
CA2562193A1 (en) 2004-04-08 2005-10-27 Sangamo Biosciences, Inc. Treatment of neuropathic pain with zinc finger proteins
ES2407857T5 (es) 2004-04-30 2017-07-31 Dow Agrosciences Llc Nuevo gen de resistencia a los herbicidas
US20080131962A1 (en) 2006-05-25 2008-06-05 Sangamo Biosciences, Inc. Engineered cleavage half-domains
WO2006033859A2 (en) 2004-09-16 2006-03-30 Sangamo Biosciences, Inc. Compositions and methods for protein production
US6992239B2 (en) * 2005-01-31 2006-01-31 Pioneer Hi-Bred International, Inc. Soybean variety 92M61
MX2007013757A (es) 2005-05-05 2008-01-24 Univ Arizona Reagrupacion permitida de secuencia (seer)-met odo de novedad para visualizar secuencias de adn especificas.
CA2615532C (en) 2005-07-26 2016-06-28 Sangamo Biosciences, Inc. Targeted integration and expression of exogenous nucleic acid sequences
JP4670539B2 (ja) 2005-08-08 2011-04-13 ブラザー工業株式会社 画像読取装置
EP2368981A3 (en) 2005-10-18 2011-10-12 Precision Biosciences Rationally-designed meganucleases with altered sequence specificity and DNA-binding affinity
WO2011066360A1 (en) 2009-11-24 2011-06-03 Dow Agrosciences Llc Detection of aad-12 soybean event 416
DK2484202T3 (en) 2005-10-28 2017-09-11 Dow Agrosciences Llc NEW HERBICID RESISTANCE GENES
US7629455B2 (en) 2005-12-07 2009-12-08 Monsanto Technology Llc Zea mays NFB2 promoter
CN103215304A (zh) 2006-05-17 2013-07-24 先锋高级育种国际公司 人工植物微染色体
KR101439568B1 (ko) 2006-08-11 2014-09-12 다우 아그로사이언시즈 엘엘씨 아연 손가락 뉴클레아제-매개 상동 재조합
KR101520507B1 (ko) 2006-12-14 2015-05-29 다우 아그로사이언시즈 엘엘씨 최적화된 비-정규 아연 손가락 단백질
CA2693525C (en) 2007-06-07 2020-09-29 Agriculture And Agri-Food Canada Nanocarrier based transfection and transduction of plant gametophytic cells
US8912392B2 (en) * 2007-06-29 2014-12-16 Pioneer Hi-Bred International, Inc. Methods for altering the genome of a monocot plant cell
AU2008305567B2 (en) 2007-09-27 2014-04-10 Sangamo Therapeutics, Inc. Rapid in vivo identification of biologically active nucleases
CN101878307B (zh) 2007-09-27 2017-07-28 陶氏益农公司 以5‑烯醇式丙酮酰莽草酸‑3‑磷酸合酶基因为靶的改造锌指蛋白
JP5507459B2 (ja) 2007-10-05 2014-05-28 ダウ アグロサイエンシィズ エルエルシー 植物細胞に分子性物質を移行させる方法
US8936936B2 (en) 2007-10-25 2015-01-20 Sangamo Biosciences, Inc. Methods and compositions for targeted integration
DE102007056956B4 (de) 2007-11-27 2009-10-29 Moosbauer, Peter, Dipl.-Ing.(FH) Schaltung zur Regelung der Stromversorgung eines Verbrauchers und Verfahren zum Betrieb einer Schaltung
WO2009099580A2 (en) * 2008-02-05 2009-08-13 Monsanto Technology, Llc Isolated novel nucleic acid and protein molecules from soy and methods of using those molecules to generate transgenic plants with enhanced agronomic traits
EP2281050B1 (en) 2008-04-14 2014-04-02 Sangamo BioSciences, Inc. Linear donor constructs for targeted integration
JP5908725B2 (ja) 2008-08-22 2016-04-26 サンガモ バイオサイエンシーズ, インコーポレイテッド 標的一本鎖開裂および標的組込みのための方法、並びに組成物
EP2340975B1 (en) 2008-10-28 2019-07-03 Advics Co., Ltd. Device for controlling traveling of vehicle
DK2370575T3 (en) 2008-12-17 2018-02-05 Dow Agrosciences Llc TARGETED INTEGRATION IN THE ZP15 LOCUS
EP2206723A1 (en) 2009-01-12 2010-07-14 Bonas, Ulla Modular DNA-binding domains
US20110239315A1 (en) 2009-01-12 2011-09-29 Ulla Bonas Modular dna-binding domains and methods of use
US8385662B1 (en) 2009-04-30 2013-02-26 Google Inc. Principal component analysis based seed generation for clustering analysis
JP5940977B2 (ja) 2009-08-11 2016-06-29 サンガモ バイオサイエンシーズ, インコーポレイテッド 標的改変によるホモ接合生物
WO2011022469A2 (en) * 2009-08-19 2011-02-24 Dow Agrosciences Llc Aad-1 event das-40278-9, related transgenic corn lines, and event-specific identification thereof
ES2710179T3 (es) 2009-09-07 2019-04-23 Nobel Biocare Services Ag Conjunto de implantación
BR122019025207B1 (pt) 2009-10-22 2022-10-04 Sangamo Biosciences, Inc. Proteína de dedo de zinco de ocorrência não natural e proteína de fusão
RU2603252C2 (ru) * 2009-11-24 2016-11-27 ДАУ АГРОСАЙЕНСИЗ ЭлЭлСи Событие 416 aad-12, родственные линии трансгенной сои и их событиеспецифичная идентификация
PL2816112T3 (pl) 2009-12-10 2019-03-29 Regents Of The University Of Minnesota Modyfikacja DNA za pośrednictwem efektorów TAL
GB201000184D0 (en) 2010-01-07 2010-02-24 Plant Bioscience Ltd Methods and compositions for altering temperature sensing in eukaryotic organisms
JP5874949B2 (ja) * 2010-01-15 2016-03-02 トヨタ自動車株式会社 変異体植物、その製造方法及び遺伝的組換え頻度を上昇させる方法
UA110472C2 (ru) 2010-01-22 2016-01-12 Dow Agrosciences Llc Спосіб отримання клітини трансгенної рослини для спрямованого впливу на ген в рослинах, трансгенна рослина або рослинна тканина, насіння, отримане з трансгенної рослини
EP2525658B1 (de) 2010-01-22 2017-03-01 Bayer Intellectual Property GmbH Akarizide und/oder insektizide wirkstoffkombinationen
CA2787494C (en) 2010-01-22 2019-09-17 Dow Agrosciences Llc Targeted genomic alteration
AR080021A1 (es) * 2010-01-26 2012-03-07 Pioneer Hi Bred Int Tolerancia a los herbicidas inhibidores de hppd (hidrofenil piruvato dioxigenasa)
PT2534173T (pt) 2010-02-08 2019-10-31 Sangamo Therapeutics Inc Semidomínios de clivagem manipulados
WO2011100058A1 (en) 2010-02-09 2011-08-18 Sangamo Biosciences, Inc. Targeted genomic modification with partially single-stranded donor molecules
WO2011146121A1 (en) 2010-05-17 2011-11-24 Sangamo Biosciences, Inc. Novel dna-binding proteins and uses thereof
CA2802360A1 (en) * 2010-06-14 2011-12-22 Iowa State University Research Foundation, Inc. Nuclease activity of tal effector and foki fusion protein
US20130254932A1 (en) 2010-12-21 2013-09-26 E.I. Du Pont De Numours And Company Plant gene expression modulatory sequences from maize
CN103403725A (zh) 2010-12-29 2013-11-20 陶氏益农公司 对dna序列的数据分析
WO2013119770A1 (en) * 2012-02-08 2013-08-15 Dow Agrosciences Llc Data analysis of dna sequences
WO2013144663A2 (en) 2012-03-27 2013-10-03 Rudjer Boskovic Institute Method of determination of neutral dna sequences in the genome, system for targeting sequences obtained thereby and methods for use thereof
RS64622B1 (sr) * 2012-05-25 2023-10-31 Univ California Metode i sastavi za modifikaciju ciljane dnk upravljenu pomoću rnk i za modulaciju transkripcije upravljanu rnk
US11039586B2 (en) 2013-03-15 2021-06-22 Monsanto Technology Llc Creation and transmission of megaloci
EP3066109A4 (en) * 2013-11-04 2017-11-29 Dow AgroSciences LLC Optimal soybean loci
US10648951B2 (en) 2017-11-14 2020-05-12 Ge Sensing & Inspection Technologies Gmbh Classification of ultrasonic indications using pattern recognition

Also Published As

Publication number Publication date
AU2020204194B2 (en) 2022-06-02
US10106804B2 (en) 2018-10-23
BR102014027466A8 (pt) 2021-09-14
CN106232821A (zh) 2016-12-14
MX2016005877A (es) 2016-10-13
AU2018201613A1 (en) 2018-03-29
AU2014341934B2 (en) 2017-12-07
US20150128308A1 (en) 2015-05-07
UA121459C2 (uk) 2020-06-10
KR20160079156A (ko) 2016-07-05
KR102269374B1 (ko) 2021-06-28
MX358066B (es) 2018-08-03
EP3066202B1 (en) 2021-03-03
EP3862434A1 (en) 2021-08-11
EP3066202A4 (en) 2017-08-16
UY35816A (es) 2015-05-29
US20180371478A1 (en) 2018-12-27
IL245304B (en) 2021-09-30
CA2926536A1 (en) 2015-05-07
IL245304A0 (en) 2016-06-30
RU2016120636A (ru) 2017-12-06
JP6738468B2 (ja) 2020-08-12
CL2018001223A1 (es) 2018-07-20
JP6560205B2 (ja) 2019-08-14
US20180142250A1 (en) 2018-05-24
JP2016534729A (ja) 2016-11-10
AU2020204194A1 (en) 2020-07-16
AR098300A1 (es) 2016-05-26
NZ746567A (en) 2019-09-27
RU2016120636A3 (pt) 2018-07-05
CL2018001340A1 (es) 2018-07-06
CL2018001339A1 (es) 2018-07-06
BR102014027466A2 (pt) 2016-09-20
IL285988A (en) 2021-10-31
CL2018001338A1 (es) 2018-07-06
CA3226233A1 (en) 2015-05-07
CL2016001063A1 (es) 2016-12-09
US20210230617A1 (en) 2021-07-29
JP2019193667A (ja) 2019-11-07
CA2926536C (en) 2024-01-30
US11098316B2 (en) 2021-08-24
NZ718117A (en) 2017-09-29
TW201518502A (zh) 2015-05-16
TWI672378B (zh) 2019-09-21
WO2015066643A1 (en) 2015-05-07
EP3066202A1 (en) 2016-09-14
ZA201602546B (en) 2018-08-29
US9909131B2 (en) 2018-03-06
AU2014341934A1 (en) 2016-04-07
AU2018201613B2 (en) 2020-03-26
NZ735257A (en) 2018-09-28

Similar Documents

Publication Publication Date Title
US11149287B2 (en) Optimal soybean loci
US11098316B2 (en) Optimal soybean loci
US11198882B2 (en) Optimal maize loci
US10273493B2 (en) Optimal maize loci

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B03H Publication of an application: rectification [chapter 3.8 patent gazette]

Free format text: REFERENTE A RPI 2385 DE 20/09/2016, QUANTO AO ITEM 54

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 03/11/2014, OBSERVADAS AS CONDICOES LEGAIS

B25D Requested change of name of applicant approved

Owner name: CORTEVA AGRISCIENCE LLC (US)