BRPI0812744B1

BRPI0812744B1 - Métodos para melhoramento molecular direcionado por sequência

Info

Publication number: BRPI0812744B1
Application number: BRPI0812744-1A
Authority: BR
Inventors: Stan Dotson; Fenggao Dong; Fred Achard; Sam Eathington; Nengbing Tao; Zoe McCuddin
Original assignee: Monsanto Technology Llc
Priority date: 2007-06-08
Filing date: 2008-06-09
Publication date: 2024-01-30
Also published as: WO2008154472A3; US20130123113A1; CN101802219A; EP2511381B1; EP2511381A1; BRPI0812744A2; CA2688644A1; US10544448B2; CL2008001682A1; US10550424B2; AR066922A1; US10544471B2; EP2158336A2; MX2009013422A; WO2008154472A2; US20160098515A1; US20180004894A1; US20090136938A1

Abstract

método de melhoramento assistido por marcador. a presente invenção refere-se a métodos de melhoramento e composições para potencializar o germoplasma de uma planta pelo uso de informação direta da sequência de ácidos nucleicos. os métodos descrevem a identificação e o acúmulo de sequências de ácidos nucleicos preferenciais no germoplasma de uma população de plantas de melhoramento.

Description

REFERÊNCIA CRUZADA A PEDIDOS DE PATENTE RELACIONADOS

[001] Este pedido de patente reivindica a prioridade sobre o Pedido de Patente Provisório U.S. N° 60/942.707 (depositado em 8 de junho de 2007), que está incorporado por referência neste pedido em sua totalidade.

CAMPO DA INVENÇÃO

[002] A presente invenção refere-se ao melhoramento vegetal. Mais especificamente, esta invenção relaciona-se ao uso de tecnologia de sequenciamento de alto rendimento em atividades relacionadas à melhora de germoplasma.

ANTECEDENTES DA INVENÇÃO

[003] Os objetivos primários do melhoramento vegetal são selecionar um par ótimo de parentais para fazer um cruzamento e então selecionar uma ou mais progênies superiores resultantes daquele cruzamento. Em culturas híbridas, um terceiro objetivo é identificar um verificador para produzir semente híbrida de alto desempenho. O melhoramento vegetal tradicional depende da observação visual e de dados de desempenho das plantas ou linhagens a fim de fazer seleções para cumprir um dos objetivos acima mencionados.

[004] Nos últimos anos, o melhoramento molecular tem demonstrado promessa de melhora do processo de melhoramento e aumento da taxa de ganho genético. Em melhoramento molecular, marcadores moleculares fornecem uma base para seleções de parental, progênie ou verificador; este processo pode ser usado em conjunto com a seleção baseada no fenótipo também. Inclusão de marcadores genéticos em programas de melhoramento acelerou a identificação e o acúmulo de traços valiosos em agrupamentos de germoplasma comparados com aquele alcançado com base somente em dados fenotípicos. Neste pedido, "germoplasma" inclui germoplasma de melhoramento, populações de melhoramento, coleção de linhagens puras de elite, populações de indivíduos de cruzamento randômico e cruzamentos biparen- tais.

[005] Para o melhoramento molecular ser efetivo, as diferenças em genótipos marcadores devem ser associadas hereditariamente a um ou mais traços fenotípicos ou de desempenho. Estas associações são estabelecidas pela correlação dos genótipos marcadores a segregação de linhagens ou populações para um ou mais traços. Alelos de marcador genético (um "alelo" é uma sequência alternativa em um locus) são usados para identificar plantas que contêm um genótipo desejado em um ou mais loci, e que são esperados transferir o genótipo desejado, junto com um fenótipo desejado para um ou mais traços, à sua progênie. Marcadores que são altamente correlacionados com um fenótipo são assumidos ser geneticamente ligados ao traço, dessa forma o marcador então pode ser usado como uma base para decisões de seleção em vez da avaliação do traço per se. Marcadores que não são correlacionados serão herdados independentemente do traço e não são úteis para seleções, mas podem ser valiosos em comparação de similaridades e/ou mensuração de distâncias genéticas entre variedades e linhagens. Idealmente, o marcador representará a variação genômica real responsável por um traço e por isso sempre segregará com o traço, embora as correlações possam ser mascaradas por fenômenos, tais como interações ambientais ou efeitos epistáticos.

[006] Plataformas de marcador iniciais para melhoramento molecular não necessitam do conhecimento a priori da sequência subjacente. Estes marcadores foram baseados em polimorfismos de comprimento de fragmento de restrição (RFLPs). Sondas de DNA randômi- cas ou direcionadas foram usadas em protocolos de hibridização por Southern para identificar fragmentos alvo cujo tamanho variou dependendo da posição e distância entre um par de sítios de reconhecimento de enzima de restrição. Estas diferenças no tamanho podem ser correlacionadas a traços em populações teste. As sondas de DNA então foram usadas como marcadores que podem detectar os polimorfismos de comprimento de fragmento de restrição subjacentes e por sua vez serem usados para predizer um traço correlacionado. Outros tipos de marcadores foram usados que necessitam do conhecimento a priori da sequência subjacente e incluem mas não são limitados à impressão digital usando polimorfismos de comprimento de fragmento amplificados (AFLPs) ou iniciadores de PCR universais (isto é, iniciadores RICE).

[007] Nos últimos anos, marcadores foram desenvolvidos com base no conhecimento de uma sequência subjacente. Por exemplo, a sequência simples repetitiva ou marcadora de microssatélite (SSR) depende de PCR e eletroforese em gel para elucidar a variação no comprimento de sequências repetitivas de DNA. As diferenças no comprimento da repetição, como reveladas pelos marcadores, podem correlacionar-se a traços associados se a repetição alvo estiver geneticamente ligada ao traço.

[008] Entretanto, plataformas de marcador tradicionais são subó- timas porque não são ajustadas para automação ou técnicas de alto rendimento. Além disso, plataformas de marcador tradicionais são suscetíveis a associações de traço do marcador falsas em que a identidade de um genótipo entre duas linhagens pode não refletir um parental comum mas uma sequência convergente, que é problemática para rastrear alelos de marcador específicos através de múltiplas gerações.

[009] Outros tipos de variações úteis como marcadores tradicio- nais são polimorfismos de nucleotídeo único (SNPs). Estes são modificações de base única que se diferenciam entre duas linhagens e segregarão com um traço ao qual estão geneticamente ligados. SNPs podem ser detectados por uma variedade de tecnologias de marcador comercialmente disponíveis. Os marcadores baseados em SNPs têm ganho popularidade devido à facilidade e acurácia de detecção, com-patibilidade com sistemas de informação e baixo custo. Entretanto, os marcadores de SNP são ainda uma ferramenta indireta para interrogar a sequência subjacente e um marcador SNP é restrito para detectar somente dois alelos, não os quatro nucleotídeos possíveis que poderiam ser encontrados em qualquer dada posição nucleotídica.

[0010] Dessa forma, há uma necessidade na técnica de métodos para determinar rapidamente e exatamente a informação de sequência direta para pelo menos um genoma vegetal com o objetivo de facilitar atividades de melhoramento vegetal, tais como desenvolvimento de linhagem, análises de diversidade de germoplasma, exploração de ale- lo raro, teste de pureza, garantia da qualidade, introgressão de regiões genômicas específicas, empilhamento de regiões genômicas, predição do desempenho de linhagem e predição do desempenho de híbrido.

SUMÁRIO

[0011] Esta invenção descreve novos métodos que utilizam se- quenciamento de alto rendimento e metodologias de melhoramento molecular para permitir o uso da informação de sequenciamento direto em melhoramento vegetal molecular. A invenção também inclui meios para escolher seletivamente loci específicos e amostras de etiquetas de DNA antes da determinação de sequência. Tomados em conjunto, os métodos da invenção permitem a melhoradores vegetais melhores ferramentas para seleção parental, seleção de progênie, escolha de combinações de verificador, desenvolvimento de pedigrees, impressões digitais de amostras, classificação de diversidade haplotípica, ga- rantia de qualidade, avaliação de diversidade de germoplasma, men- suração do progresso de melhoramento, fornecimento de descrições de variedade ou linhagem e para construir bancos de dados de associações de sequência a dados de traço e desempenho. Tais bancos de dados fornecem a base para calcular estimativas de efeito de ácidos nucleicos para um ou mais traços, em que associações podem ser feitas de novo ou pela utilização de históricos de dados de associação de traço à sequência de ácidos nucleicos.

[0012] A presente invenção fornece métodos para Seleção Direcionada por Sequência (SDS), Melhoramento Direcionado por Sequência (SDB) e Impressão digital Direcionada por Sequência (SDF) e sua nova aplicação para fazer seleções parentais, seleções de progênie, combinações de verificador, introgressão de variantes alélicas e seleção direcionada de pelo menos uma variante entre pelo menos duas entradas de germoplasma, impressões digitais, pedigrees e para construir bancos de dados haplotípicos e informação fenotípica que pode ser usada para calcular estimativas de efeito de sequência de ácidos nucleicos e, enfim, valores de melhoramento. Esta informação a priori facilita a produção de decisão de Melhoramento Preditivo Direcionado por Sequência (SDPB).

[0013] Na presente invenção, as seleções de melhoramento são conduzidas diretamente em uma sequência, em vez de indiretamente em um marcador, base, em que uma primeira planta é cruzada com uma segunda planta que contém pelo menos uma sequência que é diferente da primeira sequência ou sequências vegetais; e pelo menos uma planta de progênie é selecionada pela detecção da sequência ou conjunto de sequências da primeira planta, em que a planta de progê- nie compreende em seu genoma uma ou mais sequências de interesse da primeira planta e pelo menos uma sequência de interesse da segunda planta; e a planta de progênie é usada em atividades relacio- nadas à melhora de germoplasma, neste pedido definida como incluindo o uso de planta para desenvolvimento de linhagem e variedade, desenvolvimento de híbrido, seleção de evento transgênico, produção de cruzamentos de melhoramento, teste e aprimoramento de uma planta através de autofertilização, purificação de linhagens ou subli- nhagens, usando planta ou partes da mesma para transformação, usando plantas ou partes das mesmas para candidatos para constru- tos de expressão, e usando planta ou partes da mesma para mutagê- nese.

[0014] A presente invenção inclui um método para melhoramento de uma planta, tal como milho (Zea mays), soja (Glycine max), algodão (Gossypium hirsutum), amendoim (Arachis hypogaea), cevada (Hordeum vulgare); aveia (Avena sativa); dáctila (Dactylis glomerata); arroz (Oryza sativa, incluindo variedades indica e japonica); sorgo (Sorgo bicolor); cana de açúcar (Saccharum sp); festuca alta (Festuca arundinacea); espécies de gramínea (por exemplo espécies: Agrostis stolonifera, Poa pratensis, Stenotaphrum secundatum); trigo (Triticum aestivum) e alfafa (Medicago sativa), membros do gênero Brassica, brócolis, repolho, cenoura, couve-flor, repolho chinês, pepino, feijão, berinjela, erva-doce, feijões de jardim, abóbora, alho-poró, alface, melão, quiabo, cebola, ervilha, pimentão, abóbora, rabanete, espinafre, abóbora, milho doce, tomate, melancia, plantas ornamentais, e outras frutas, hortaliças, tubérculos, semente oleaginosa, e verduras, em que as culturas de semente oleaginosa incluem soja, canola, óleo de semente de canola, palma, girassol, azeitona, milho, algodão em rama, amendoim, linhaça, açafroa e coco, com traços aumentados compreendendo pelo menos uma sequência de interesse, definida ainda como conferindo uma propriedade preferencial selecionada a partir do grupo consistindo em tolerância à herbicida, resistência à doença, resistência a inseto ou praga, metabolismo de ácido graxo, proteína ou carboidrato, rendimento de grão aumentado, óleo aumentado, conteúdo nutricional aumentado, taxas de crescimento aumentadas, tolerância a estresse aumentada, maturidade preferencial, propriedades or- ganolépticas aumentadas, características morfológicas alteradas, outros traços agronômicos, traços para usos industriais, ou traços melhorados de apelo ao consumidor, em que os ditos traços podem ser não transgênicos ou transgênicos.

[0015] Em uma modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende a determinação da sequência de uma pluralidade de ácidos nucleicos dentro do geno- ma de pelo menos uma ou mais plantas em uma população de melhoramento; associação de cada uma das sequências de ácidos nucleicos com um valor numérico em que o valor numérico está relacionado a um ou mais traços fenotípicos; e tomada de uma decisão de melhoramento vegetal de uma ou mais plantas com base na associação.

[0016] Em outra modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende o fornecimento de uma população de melhoramento compreendendo uma ou mais plantas em que pelo menos um ácido nucleico é sequenciado para pelo menos um locus de cada planta na população; uso de associações históricas de traço marcador fenotípico para determinar uma estimativa de efeito da sequência de ácido nucleico de uma sequência de ácido nucleico em um locus; e classificação de sequências de ácidos nuclei- cos com base na estimativa de efeito da sequência de ácido nucleico determinada de qualquer dado traço fenotípico. A classificação então é usada para tomar decisões de melhoramento vegetal.

[0017] Em outra modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende o estabelecimento de um mapa de impressão digital que define uma pluralidade de loci dentro do genoma de uma população de melhoramento; associa- ção a um alelo QTL com posição conhecida no mapa com um traço fenotípico em uma população de mapeamento; e análise da presença do alelo QTL e pelo menos uma sequência de ácido nucleico dentro da pluralidade de loci para predizer a expressão do traço fenotípico em uma população diferente da população de mapeamento.

[0018] Em outra modalidade, a invenção é direcionada a um método de melhoramento assistido por marcador. O método compreende o fornecimento de uma população de melhoramento compreendendo pelo menos duas plantas e associação de pelo menos um traço fenotí- pico com um locus do genoma vegetal, desde que o locus seja definido por pelo menos uma sequência de ácido nucleico. A população é então analisada para a presença de pelo menos uma sequência de ácido nucleico do locus para predizer a expressão de pelo menos um traço fenotípico em uma planta da progênie da população de melho-ramento.

[0019] Em outra modalidade, a invenção é direcionada a um método de seleção de uma população de melhoramento para uso em um programa de melhoramento. O método compreende o fornecimento de pelo menos duas populações de melhoramento distintas; estabelecimento de um banco de dados de valores de melhoramento para pelo menos dois loci de até 10 centimorgans para cada população de melhoramento; classificação dos valores de melhoramento dos alelos de cada população de melhoramento; e seleção de uma população de melhoramento com um valor de melhoramento composto mais alto.

[0020] Áreas adicionais de aplicabilidade serão mais particularmente descritas abaixo em relação à descrição detalhada. Deve ser entendido que a descrição e exemplos específicos são destinados para fins de ilustração somente e não são destinados a limitar o escopo da presente descrição.

DESCRIÇÃO DOS DESENHOS

[0021] A figura 1 é um diagrama de fluxo genérico ilustrando o processo molecular de sequenciamento de ácido nucleico de alto rendimento.

[0022] A figura 2 ilustra um método para redução da complexidade dos moldes de ácidos nucleicos para digestão seletiva.

[0023] A figura 3 ilustra um método para redução da complexidade visada a partir do transcriptoma.

[0024] A figura 4 ilustra um método para redução da complexidade visada pela amplificação de pelo menos uma região genômica de interesse.

[0025] A figura 5 ilustra um método para redução da complexidade visada, incluindo etiquetagem da amostra, pela extensão/ligação alelo específica.

[0026] A figura 6 ilustra um método para a multiplexação de amostras usando etiquetas de DNA anexadas aos ácidos nucleicos molde através de ligação.

[0027] A figura 7 ilustra um método da multiplexação de amostras usando etiquetas de DNA anexadas aos ácidos nucleicos molde através de PCR.

[0028] A figura 8 ilustra um fluxo de trabalho para sequenciamento de ácido nucleico de alto rendimento.

[0029] A figura 9 ilustra um método para preparação de amostras para seleção direcionada por sequência para um SNP e uma indel.

[0030] A figura 10 é um gráfico de dispersão dos resultados de genotipagem com o objetivo de seleção direcionada por sequência usando sequenciamento de alto rendimento para o SNP Fad3b como descrito no Exemplo 1.

[0031] A figura 11 é um gráfico de dispersão dos resultados de genotipagem com o objetivo de seleção direcionada por sequência usando sequenciamento de alto rendimento para a indel Fad3c como descrito no Exemplo 1.

[0032] A figura 12 ilustra uma estratégia para adicionar etiquetas de DNA de amostra com extensão/ligação alelo-específica como descrito no Exemplo 4.

[0033] A figura 13 ilustra a taxa de êxito das impressões digitais usando tecnologia de sequenciamento de alto rendimento para 1536 SNPs em 96 variedades de soja como descrito no Exemplo 4.

DESCRIÇÃO DETALHADA

[0034] As definições e métodos fornecidos definem a presente invenção e guiam aqueles versados ordinários na técnica na prática da presente invenção. A menos que de outra maneira observados, os termos devem ser entendidos de acordo com o uso convencional por aqueles versados na técnica relevante. Definições de termos comuns em biologia molecular também podem ser encontradas em Albers et al., Molecular Biology of The Cell, 5th Edition, Garland Science Publishing, Inc: New York, 2007; Rieger et al., Glossary of Genetics: Classical and Molecular, 5th edition, Springer-Verlag: New York, 1991; King et al, A Dictionary of Genetics, 6th ed, Oxford University Press: New York, 2002; e Lewin, Genes IX, Oxford University Press: New York, 2007. A nomenclatura de bases de DNA como apresentadas em CFR 37 § 1.822 é usada.

[0035] Um "alelo" refere-se a uma sequência alternativa em um locus particular; o comprimento de um alelo pode ser tão pequeno como 1 base nucleotídica. A sequência alélica pode ser denotada como sequência de ácido nucleico ou como sequência de aminoácido que é codificada pela sequência de ácido nucleico.

[0036] Um "locus" é uma posição em uma sequência genômica que é normalmente encontrada por um ponto de referência; por exemplo, uma sequência de DNA curta que é um gene, ou parte de um gene ou região intergênica. Um locus pode referir-se a uma posição nu- cleotídica em um ponto de referência em um cromossomo, tal como uma posição da extremidade do cromossomo. A lista ordenada de loci conhecidos para um genoma particular é chamada mapa genético. Uma variante da sequência de DNA em um dado locus é chamada um alelo e a variação em um locus, isto é, dois ou mais alelos, constitui um polimorfismo. Os sítios polimórficos de qualquer sequência de ácido nucleico podem ser determinados por comparação das sequências de ácidos nucleicos em um ou mais loci em duas ou mais entradas de germoplasma.

[0037] Como usado neste pedido, uma "sequência de ácido nu- cleico" compreende uma região contígua de nucleotídeos em um locus dentro do genoma. Além disso, uma sequência de ácido nucleico, como usado neste pedido, pode compreender um ou mais haplótipos, porções de um ou mais haplótipos, um ou mais genes, porções de um ou mais genes, um ou mais QTL, e porções de um ou mais QTL. Além disso, uma pluralidade de sequências de ácidos nucleicos pode compreender um ou mais haplótipos, porções de um ou mais haplótipos, um ou mais genes, porções de um ou mais genes, um ou mais QTL, e porções de um ou mais QTL. A sequência pode originar-se de um molde de DNA ou RNA, direta ou indiretamente (isto é, cDNA obtido da transcrição reversa de mRNA).

[0038] Como usado neste pedido, "polimorfismo" significa a presença de uma ou mais variações de uma sequência de ácido nucleico em um ou mais loci em uma população de um ou mais indivíduos. A variação pode compreender mas não é limitada a uma ou mais modificações de bases, a inserção de um ou mais nucleotídeos ou a deleção de um ou mais nucleotídeos. Um polimorfismo pode resultar de processos randômicos na replicação de ácido nucleico, através de muta- gênese, em consequência de elementos genômicos móveis, da variação de número de cópia e durante o processo de meiose, tais como crossing over desigual, duplicação de genoma e quebras e fusões cromossômicas. A variação pode ser comumente encontrada, ou pode existir em baixa frequência dentro de uma população, o primeiro tendo maior utilidade no melhoramento vegetal geral e o segundo pode ser associado com a variação fenotípica rara mas importante. Polimorfismos úteis podem incluir polimorfismos de nucleotídeo único (SNPs), inserções ou deleções em sequência de DNA (Indels), repetições de sequência simples da sequência de DNA (SSRs) um polimorfismo de comprimento de fragmento de restrição e uma etiqueta de SNP. Um marcador genético, um gene, uma sequência derivada de DNA, um haplótipo, uma sequência derivada de RNA, um promotor, uma região 5' não traduzida de um gene, uma região 3' não traduzida de um gene, microRNA, siRNA, um QTL, um marcador satélite, um transgene, mRNA, ds mRNA, um perfil transcricional e um padrão de metilação podem compreender polimorfismos. Além disso, a presença, ausência, ou variação no número de cópias dos precedentes podem compreender um polimorfismo.

[0039] Como usado neste pedido, "estimativa de efeito de ácido nucleico" significa uma estimativa de efeito predita para uma sequência de ácido nucleico refletindo a associação com um ou mais traços fenotípicos, em que as ditas associações podem ser feitas de novo ou pela utilização de dados de associação de traço da sequência histórica de ácidos nucleicos.

[0040] Como usado neste pedido, "valor de melhoramento" significa um cálculo com base em estimativas de efeito de sequência de ácidos nucleicos e valores de frequência de sequência de ácidos nuclei- cos, o valor de melhoramento de uma sequência de ácido nucleico específica em relação a outras sequências de ácidos nucleicos no mesmo locus (isto é, janela haplotípica), ou através de loci (isto é, janelas haplotípicas), também pode ser determinado. Em outras palavras, a modificação na média da população pela fixação da dita sequência de ácido nucleico é determinada. Além disso, no contexto de avaliação do efeito de substituição de uma região específica no genoma, pela intro- gressão ou por um evento transgênico, os valores de melhoramento fornecem a base para comparação de sequências de ácidos nucleicos específicas para efeitos de substituição. Também, em culturas híbridas, o valor de melhoramento de sequências de ácidos nucleicos pode ser calculado no contexto da sequência de ácido nucleico no verificador usado para produzir o híbrido.

[0041] Como usado neste pedido, "genótipo" é a sequência de ácido nucleico real em um locus em uma planta individual. Ao contrário de um marcador genético, tal como um SNP, onde o genótipo compreende um nucleotídeo único, o genótipo identificado com a presente invenção é uma pluralidade de nucleotídeos, onde o comprimento do genótipo é contingente no comprimento da sequência de ácido nuclei- co. Notavelmente, um ensaio de marcador genético como conhecido na técnica (por exemplo, detecção de SNP através de TaqMan) detecta somente dois alelos. Uma vantagem da presente invenção é a capacidade de investigar diretamente os quatro nucleotídeos (adenina, A; timina, T; citosina, C; e guanina, G) simultaneamente em qualquer posição nucleotídica. Isto é, para qualquer posição do par de bases, haverá duas vezes a informação usando sequenciamento de ácido nu- cleico direto contra ensaios de marcador genéticos. Isto pode ser muito importante na determinação se duas linhagens compartilham DNA que é idêntico por descendência. Com um genótipo de SNP, somente pode-se avaliar se um par de bases de ácidos nucleicos alternativo existe em um locus de nucleotídeo único. Por exemplo, poderia investigar se duas linhagens têm um C ou um T em um locus de nucleotí- deo único e encontram que uma linhagem tem um C mas a outra não. Entretanto, diferente da avaliação direta da sequência no locus de nu- cleotídeo único, o ensaio de marcador genético não distinguirá uma reação falha ou se uma base alternativa, tal como uma adenina ou guanidina, está presente naquele locus. Por isso, a presente invenção fornece a maior certeza se uma dada região é idêntica por descendência pela observação da sequência de ácido nucleico daquela região.

[0042] Como usado neste pedido, uma sequência de ácido nuclei- co pode compreender 1 ou mais nucleotídeos (por exemplo, 2 ou mais nucleotídeos, 25 ou mais nucleotídeos, 250 ou mais nucleotídeos, 1.000 ou mais nucleotídeos, até 20.000 ou mais nucleotídeos). Em certas modalidades, fragmentos de sequência de ácidos nucleicos adjacentes podem ser ligados in vitro ou alinhados in silico com objetivo de obter uma sequência de ácido nucleico mais longa. Como usado neste pedido, uma sequência de ácido nucleico de cada uma de duas ou mais plantas individuais da mesma região genômica, que pode ou não estar associada com um ou mais valores de traço fenotípico, for-nece a base para decisões relacionadas a atividades de melhora de germoplasma, em que um ou mais loci podem ser avaliados. Saber se duas sequências em um locus são completamente idênticas ou se contêm combinações de loci idênticas e não idênticas pode ajudar na determinação se o loci tem o mesmo valor de traço, são ligadas aos mesmos traços ou são idênticas por descendência. Por isso, em outro aspecto, uma ou mais sequências de ácidos nucleicos de uma ou mais plantas individuais que são associadas com um valor de traço fenotípi- co podem fornecer a base para decisões relacionadas a atividades de melhora de germoplasma.

[0043] Como usado neste pedido, o termo "haplótipo" significa uma região cromossômica dentro de uma janela haplotípica. Tipicamente, as combinações de impressão digital marcadoras únicas em cada janela haplotípica definem e diferenciam haplótipos individuais daquela janela. Como usado neste pedido, um haplótipo é definido e diferenciado por uma ou mais sequências de ácidos nucleicos em um ou mais loci dentro de uma "janela haplotípica".

[0044] Como usado neste pedido, o termo "janela haplotípica" significa uma região cromossômica que é estabelecida por análises estatísticas conhecidas àqueles versados na técnica e está em desequilíbrio de ligação. Na técnica, identidade por estado entre dois indivíduos puros (ou dois gametas) em um ou mais loci marcadores moleculares localizados dentro desta região é tomado como evidência da identidade por descendência da região inteira, em que cada janela haplotípica inclui pelo menos um marcador molecular polimórfico. Como usado neste pedido, janelas haplotípicas são definidas por dois ou mais ge- nótipos de sequência de ácidos nucleicos. Janelas haplotípicas podem ser mapeadas ao longo de cada cromossomo no genoma e não necessariamente precisam ser contíguas. Janelas haplotípicas não são fixadas per se e, dada a quantidade aumentando continuamente de informação sobre sequência de ácido nucleico, esta invenção antecipa o número e o tamanho de janelas haplotípicas para desenvolver-se, com o número do aumento de janelas e sua respectiva redução de tamanhos, dessa forma resultando em um grau de confiança que aumenta continuamente na averiguação de identidade por descendência com base na identidade por estado de genótipos. Janelas haplotípicas são úteis no delineamento das sequências de ácidos nucleicos de interesse porque estas regiões genômicas tendem a ser herdadas como blocos de ligação e dessa forma são informativas para mapeamento de associação e para rastreamento através de múltiplas gerações.

[0045] Como usado neste pedido, "fenótipo" significa as características detectáveis de uma célula ou organismo que podem ser influenciadas pelo genótipo.

[0046] Como usado neste pedido, "marcador" significa uma característica detectável que pode ser usada para discriminar entre orga- nismos. Exemplos de tais características podem incluir marcadores genéticos, composição proteica, níveis proteicos, composição de óleo, níveis de óleo, composição de carboidrato, níveis de carboidrato, composição de ácido graxo, níveis de ácido graxo, composição de amino- ácido, níveis de aminoácido, biopolímeros, produtos farmacêuticos, composição de amido, níveis de amido, amido fermentável, rendimento de fermentação, eficiência de fermentação, rendimento energético, compostos secundários, metabólitos, características morfológicas e características agronômicas. Como usado neste pedido, "marcador genético" significa a sequência de ácido nucleico polimórfica ou característica de ácido nucleico.

[0047] Como usado neste pedido, "ensaio de marcador" significa um método para detectar um polimorfismo em um locus particular usando um método particular, por exemplo, mensuração de pelo menos um fenótipo (tal como cor de semente, cor de flor, ou outro traço visualmente detectável), polimorfismo de comprimento de fragmento de restrição (RFLP), extensão de base única, eletroforese, alinhamento de sequência, hibridização de oligonucleotídeo alelo-específica (ASO), DNA polimórfico amplificado randômico (RAPD), tecnologias baseadas em microarranjo e tecnologias de sequenciamento de ácidos nucleicos, etc.

[0048] Como usado neste pedido, "sequência consenso" significa uma sequência de DNA construída que identifica polimorfismos de nu- cleotídeo único e Indel em alelos em um locus. Sequência consenso pode ser baseada em qualquer fita de DNA no locus e determina a base nucleotídica de qualquer de cada SNP no locus e as bases nucleo- tídicas de todas as Indels no locus.

[0049] Dessa forma, embora uma sequência consenso possa não ser uma cópia de uma sequência de DNA real, uma sequência consenso é útil para desenhar precisamente iniciadores e sondas para polimorfismos reais no locus.

[0050] Como usado neste pedido, "ligação" refere-se à frequência relativa na qual os tipos de gametas são produzidos em um cruzamento. Por exemplo, se o locus A tem genes "A" ou "a" e locus B tem genes "B" ou "b" e um cruzamento entre o parental I com AABB e o parental B com aabb produzirá quatro gametas possíveis onde os genes são segregados em AB, Ab, aB e ab. A hipótese nula consiste em que haverá segregação igual independente em cada um de quatro genóti- pos possíveis, isto é, sem nenhuma ligação, 1/4 dos gametas será de cada genótipo. A segregação de gametas em genótipos que se diferenciam de 1/4 é atribuída à ligação.

[0051] Como usado neste pedido, "desequilíbrio de ligação" é definido no contexto da frequência relativa de tipos de gameta em uma população de muitos indivíduos em uma geração única. Se a frequência do alelo A for p, a for p', B for q e b for q', então a frequência esperada (sem desequilíbrio de ligação) do genótipo AB é pq, Ab é pq', aB é p'q e ab é p'q'. Qualquer desvio da frequência esperada é chamado de desequilíbrio de ligação. Dois loci são ditos estar "geneticamente ligados" quando estão em desequilíbrio de ligação.

[0052] Como usado neste pedido, "locus de traço quantitativo (QTL)" significa um locus que controla até certo ponto numericamente traços representáveis que são normalmente continuamente distribuídos.

[0053] Como usado neste pedido, "redução de complexidade" se refere a métodos para reduzir a complexidade de uma amostra de ácido nucleico, tal como por digestão de enzima de restrição, transcrição reversa, amplificação direcionada por métodos de PCR, ou amplificação randômica por métodos de PCR. Redução de complexidade pode ser realizada em ácidos nucleicos genômicos totais ou um subconjunto dos mesmos. Em um aspecto preferencial, um método com resultados reprodutíveis será usado. Métodos para redução da complexidade estão incluídos em WO 06/137734, WO 06/137733 e EP 0534858 que são especificamente incorporados neste pedido por referência em sua totalidade.

[0054] Como usado neste pedido, "etiqueta de DNA" significa um segmento curto de DNA usado como um identificador de uma amostra de ácido nucleico. Uma etiqueta de DNA, também conhecida como um código de barras molecular, pode variar de aproximadamente 2 a aproximadamente 20 pares de base em comprimento e pode ser adicionada durante a redução de complexidade da amostra(s) molde de ácido nucleico. Para exemplos, conjuntos de etiquetas de DNA estão disponíveis na Patente U.S. N° 7.157.564. A etiqueta pode ser identificada através de métodos de sequenciamento ou microarranjo como descrito em EP 1724348. Em outras modalidades, tais como no caso de etiquetsa de massa de oligonucleotídeos, métodos de espectrofo- tometria de massa foram usados para diferenciar etiquetas (Zhang et al. PNAS 2007 104:3061-3066). Além disso, códigos de barras moleculares foram desenvolvidos para detecção por outras plataformas de visualização, incluindo ressonância de plásmons de superfície, espec- troscopia fluorescente, ou Raman, como descrito em Pedido de Patente U.S. 2007/0054288. Em outra modalidade, etiquetas em esporão de RNA ou proteína foram usadas as quais são distintas de moléculas da amostra alvo e são coanalisadas com uma pluralidade de amostras com o objetivo da discriminação de amostra, métodos os quais estão incluídos em WO 03/052101. Em uma modalidade preferencial desta invenção, a identidade da etiqueta é avaliada pelo sequenciamento diretamente antes ou diretamente após o sequenciamento de um locus de traço. Deste modo, a sequência da etiqueta conjugada à sequência do locus e pode ser usada para manter uma ligação entre a sequência de locus e origem da amostra. Em outra modalidade, a etiqueta pode ser combinatória ou hierárquica. Por exemplo, uma porção da etiqueta pode indicar que múltiplos ácidos nucleicos são da mesma amostra e outra porção da etiqueta pode indicar que os ácidos nucleicos foram derivados de diferente subamostras. O número de níveis hierárquicos ou combinações de marcações é somente limitado pela quantidade do sequenciamento que pode ser dedicado à etiqueta de DNA contra o locus de traço.

[0055] Como usado neste pedido, uma "amostra etiquetada" significa uma amostra de ácido nucleico a qual a mesma etiquetagem foi anexada a cada ácido nucleico individual na amostra. Como usado neste pedido, uma amostra etiquetada inclui amostras etiquetadas com uma etiquetagem hierárquica ou combinatória, em que pelo menos uma porção da etiquetagem é idêntica e anexada a cada sequência de ácido nucleico na amostra.

[0056] Como usado neste pedido, uma "etiquetagem alelo específica" é uma etiqueta de DNA que corresponde a um alelo particular na sequência alvo. Em uma modalidade preferencial, somente a etiqueta alelo-específica, em vez do polimorfismo mais algumas etiquetas ligadas a DNA, precisam ser sequenciadas para serem capazes de geno- tipar o polimorfismo correspondente.

[0057] Como usado neste pedido, "sequenciamento de ácido nu- cleico" significa a determinação da ordem de nucleotídeos em uma amostra de ácidos nucleicos, em que os ácidos nucleicos incluem moléculas de RNA e DNA. "Sequenciamento de ácido nucleico de alto rendimento" significa uma abordagem automatizada e massivamente paralela para determinação de nucleotídeos em uma amostra de ácidos nucleicos em que exemplos de tecnologia de sequenciamento de ácido nucleico de alto rendimento incluem, mas não são limitados a plataformas fornecidas por 454 Life Sciences, Agencourt Bioscience, Applied Biosystems, LI-COR Biosciences, Microchip Biotechnologies, Network Biosystems, NimbleGen Systems, Illumina e VisiGen Biotechnologies, compreendendo mas não limitado a formatos, tais como arranjos de contas paralelas, sequenciamento por síntese, sequenci- amento por ligação, eletroforese capilar, microchips eletrônicos, "biochips", microarranjos, microchips paralelos e arranjos de molécula única, como revisto pelo Serviço (Science 2006 311: 1544-1546).

[0058] Como usado neste pedido, "alinhar" ou "alinhamento" de duas ou mais sequências de ácidos nucleicos é a comparação das sequências de ácidos nucleicos encontradas no mesmo locus. Vários métodos de alinhamento são conhecidos na técnica e estão incluídos na maior parte dos pacotes populares de bioinformática.

[0059] Como usado neste pedido, o termo "iniciador" significa uma fita única de oligonucleotídeo sintético, preferencialmente de aproximadamente 10 a aproximadamente 120 nucleotídeos, que podem ser sintetizados quimicamente ou montados a partir de vários oligonucleo- tídeos quimicamente sintetizados. Como usado neste pedido, os iniciadores podem ser usados para iniciar reações de sequenciamento e reações de polimerase, tal como em reações de preenchimento de lacuna e PCR. Como usado neste pedido, um iniciador hibridizará sob as condições de ensaio especificamente a uma sequência alvo desejada. Como usado neste pedido, iniciadores podem ser usados para introduzir uma etiqueta de DNA, introduzir bases quimicamente modificadas, tais como bases marcadas com biotina, ou introduzir uma sequência de hibridização que pode ser posteriormente usada para captura, tal como captura de uma matriz de sequenciamento ou uma superfície contendo avidina.

[0060] Como usado neste pedido, o termo "adaptadores" significa uma molécula de ácido nucleico dupla fita de uma composição conhecida, tipicamente aproximadamente 10 a 120 pares de bases no comprimento, que são desenhados tal que possam ser ligados, por exem- plo, através do uso de uma DNA ligase, a uma ou ambas extremidades de uma segunda molécula(s) de ácido nucleico. Adaptadores podem ser desenhados para serem ligados à extremidade cega de um ácido nucleico (adaptadores de extremidade cega) ou pelo primeiro anelamento a uma sequência de ressalto específica e então ligados. Nesta modalidade, adaptadores podem ser usados para fornecer sítios iniciadores, etiquetar um ácido nucleico com uma etiqueta de DNA, fornecer sequências que permitem a hibridização para os fins de cap-tura e adicionar sequências de ácidos nucleicos quimicamente modificadas, tais como adaptadores contendo biotina.

[0061] Como usado neste pedido, o termo "ligação" significa a reação bioquímica catalisada pela enzima ligase em que duas moléculas de DNA são ligadas covalentemente.

[0062] Como usado neste pedido, "amplificação de DNA" significa a síntese in vitro de DNA fita dupla através do uso de uma DNA poli- merase. Tipicamente, isto é realizado em um ensaio de reação de po- limerase em cadeia (PCR) mas também pode incluir outros métodos, tais como uma reação de preenchimento de lacuna, reparo de erros de pareamento, reação de Klenow, etc. Amplificação de DNA é usada para fornecer quantidades detectáveis ou excessivas de um DNA específico. Também pode ser usada para incorporar em um ácido nucleico alvo, sondas hibridizadas, adaptadores e iniciadores anelados que podem incluir funcionalidade ou informação específica.

[0063] Como usado neste pedido, o termo "transgene" significa moléculas de ácidos nucleicos na forma de DNA, tais como cDNA ou DNA genômico, e RNA, tal como mRNA ou microRNA, que pode ser fita única ou dupla.

[0064] Como usado neste pedido, o termo "puro" significa uma linhagem que foi melhorada por homogeneidade genética.

[0065] Como usado neste pedido, o termo "híbrido" significa uma progênie de acoplamento entre pelo menos dois parentais geneticamente dissimilares. Sem restrição, exemplos de esquemas de acasalamento incluem cruzamentos únicos, cruzamentos único modificado, cruzamento único duplo modificado, cruzamento de três vias, cruzamento de três vias modificado e cruzamento duplo em que pelo menos um parental em um cruzamento modificado é a progênie de um cruzamento entre linhagens irmãs.

[0066] Como usado neste pedido, o termo "verificador" significa uma linhagem usada em um cruzamento teste com outra linhagem em que o verificador e as linhagens testadas são de agrupamentos de germoplasma diferentes. Um verificador pode ser isogênico ou não isogênico.

[0067] Como usado neste pedido, o termo "milho" significa Zea mays ou milho e inclui todas as variedades vegetais que podem ser melhoradas com milho, incluindo espécies de milho selvagens. Mais especificamente, plantas de milho das espécies Zea mays e as subespécies Zea mays L. ssp. mays podem ser genotipadas usando as composições e métodos da presente invenção. Em um aspecto adicional, a planta de milho é do grupo Zea mays L. subsp. mays Indentata, de outra maneira conhecida como milho dentado. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Indurata, de outra maneira conhecida como milho duro. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Saccharata, de outra maneira conhecida como milho doce. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Amylacea, de outra maneira conhecida como milho de farinha. Em um aspecto adicional, a planta de milho é do grupo Zea mays L. subsp. mays Everta, de outra maneira conhecida como milho de pipoca. Zea ou plantas de milho que podem ser genotipadas com as composições e métodos descritos neste pedido incluem híbridos, puros, parcialmente puros, ou membros de popu-lações definidas ou indefinidas.

[0068] Como usado neste pedido, o termo "soja" significa Glycine max e inclui todas as variedades vegetais que podem ser melhoradas com soja, incluindo espécies de soja selvagens. Mais especificamente, as plantas de soja das espécies Glycine Max e as subespécies Glycine max L. ssp. max ou Glycine max ssp. formosana podem ser genotipa- das usando as composições e métodos da presente invenção. Em um aspecto adicional, a planta de soja é da espécie Glycine soja, de outra maneira conhecida como soja selvagem, pode ser genotipada usando estas composições e métodos. Alternativamente, o germoplasma de soja derivado de qualquer uma de Glycine max, Glycine max L. ssp. max, Glycine max ssp. Formosana, e/ou Glycine soja podem ser geno- tipadas usando composições e métodos fornecidos neste pedido.

[0069] Como usado neste pedido, o termo "compreendendo" significa "incluindo mas não limitado a".

[0070] Como usado neste pedido, o termo "linhagem de elite" significa qualquer linhagem que resultou de melhoramento e seleção para desempenho agronômico superior. Uma planta de elite é qualquer planta de uma linhagem de elite.

[0071] Conforme a presente invenção, os Requerentes descobriram métodos para tomar decisões de melhoramento genotipicamente nas sequências de ácidos nucleicos per se. Por exemplo, os métodos da presente invenção fornecem por análise direta, com base em sequência em vez de usar marcadores genéticos como instrumentos indiretos para seleção de um locus de interesse. Além disso, os métodos da presente invenção permitem uma flexibilidade melhorada na utilização de informação de ácido nucleico em um programa de melhoramento, em que o genoma inteiro de uma planta ou animal pode ser investigado sem depender de marcadores genéticos predeterminados e o desenvolvimento de ensaios de detecção de marcador genético. Além disso, qualquer comprimento da sequência de qualquer locus pode ser utilizado para 1) determinar associações genótipo-traço, 2) discriminar entre duas ou mais linhagens, 3) predizer o desempenho de linhagem ou desempenho do híbrido e, por último, 4) fornecer base para decisões em atividades relacionadas à melhora de germoplasma.

[0072] Melhoramento molecular muitas vezes é tratado como seleção assistida por marcador (MAS) e melhoramento assistido por marcador (MAB), em que MAS se refere a tomar decisões de melhoramento com base em genótipos marcadores moleculares de pelo menos um locus e MAB é um termo geral que representa o uso de marcadores moleculares no melhoramento vegetal. Nestes tipos de programas de melhoramento molecular, alelos de marcador genético podem ser usados para identificar plantas que contêm o genótipo desejado em um locus de marcador, vários loci, ou um haplótipo, e, por isso, seria esperado transferir o genótipo desejado, junto com um fenóti- po desejado associado, à sua progênie. Marcadores são altamente úteis no melhoramento vegetal porque, uma vez estabelecido, não são sujeitos a interações ambientais ou epistáticas. Além disso, certos tipos de marcadores são ajustados para detecção de alto rendimento, permitindo identificação rápida em uma relação custo-eficácia.

[0073] Descoberta de marcador e desenvolvimento em culturas fornecem a estrutura inicial de aplicações para MAB (Patente U.S. N° 5.437.697; Pedidos de Patente U.S. 2005000204780, 2005000216545, 2005000218305 e 2006000504538). O "mapa genético" resultante é a representação da posição relativa de loci caracterizados (marcadores de DNA ou qualquer outro locus para o qual os alelos podem ser identificados) ao longo dos cromossomos. A medida da distância neste mapa é relativa à frequência de eventos de cruzamentos entre cromá- tides irmãs na meiose. Como um conjunto, marcadores polialélicos têm servido como um instrumento útil para tomar impressões digitais de plantas para informar o grau de identidade de linhagens ou variedades (Patente U.S. N° 6.207.367). Estes marcadores formam a base para determinar associações com fenótipo e podem ser usados para dirigir o ganho genético. A implementação de MAS, em que as decisões de seleção são baseadas em genótipos marcadores, é dependente da capacidade de detectar diferenças genéticas subjacentes entre indivíduos.

[0074] Por causa de diferenças alélicas nestes marcadores moleculares, QTL pode ser identificado por avaliação estatística dos genó- tipos e fenótipos de populações segregantes. Processos para mapear QTL são bem descritos (WO 90/04651; Patentes U.S. Nos. 5.492.547, 5.981.832, 6.455.758; revisto em Flint-Garcia et al. 2003 Ann. Rev. Plant Biol. 54:357 - 374). Uso de marcadores para inferir o fenótipo nestes casos resulta no aperfeiçoamento de um programa de melhoramento pela substituição da fenotipagem onerosa, tempo-intensiva pela genotipagem. Abordagens de marcador permitem a seleção ocorrer antes da planta alcançar maturidade, dessa forma poupando tempo e levando ao uso mais eficiente de lotes. De fato, a seleção pode ocorrer até no nível de semente para que somente as sementes preferenciais sejam plantadas (Pedidos de Patente U.S. 2005000213435 e 2007000680611). Além disso, programas de melhoramento podem ser desenhados para dirigir explicitamente a frequência de fenótipos específicos, favoráveis visando genótipos particulares (Patente U.S. N° 6.399.855). A fidelidade destas associações pode ser monitorada continuamente para assegurar a capacidade preditiva mantida e, dessa forma, as decisões de melhoramento informadas (Pedido de Patente U.S. 2005/0015827).

[0075] Este processo tem se desenvolvido para a aplicação de marcadores como um instrumento para a seleção de "plantas novas e superiores" através da introgressão de loci preferenciais como deter minado por análises estatísticas (Patente U.S. N° 6.219.964). Intro- gressão assistida por marcador envolve a transferência de uma região cromossômica, definida por um ou mais marcadores, de um germo- plasma para um segundo germoplasma. A etapa inicial naquele processo é a localização da região genômica ou transgene pelo mapeamento genético, que é o processo de determinação da posição de um gene ou região genômica em relação a outros genes e marcadores genéticos através de análise de ligação. O princípio básico do mapeamento de ligação consiste em que quanto mais próximos dois genes estão em um cromossomo, é mais provável que sejam herdados juntos. Resumidamente, um cruzamento é geralmente feito entre dois parentais geneticamente compatíveis mas divergentes em relação aos traços de interesse. Marcadores genéticos podem então ser usados para permitir a segregação destes traços na progênie do cruzamento, muitas vezes um retrocruzamento (BC1), F2, ou população pura re- combinante.

[0076] Historicamente, marcadores genéticos não foram apropriados para distinguir a identidade por condição ou por descendência. Foi muito tempo reconhecido que genes e sequências genômicas podem ser idênticos por condição (isto é, idênticos por origens independentes; IBS) ou idênticos por descendência (isto é, através de herança histórica de um progenitor comum; IBD) que tem imensa ligação com os estudos de desequilíbrio de ligação e, por último, estudos de mapeamento (Nordborg et al. 2002 Trends Gen. 18:83-90). Notavelmente, as classes de marcadores mais novas, tais como SNPs (polimorfismos de nucleotídeo único), são mais diagnósticos de origem. A probabilidade que um determinado SNP de alelo seja derivado de origens independentes nas populações existentes de uma espécie particular é muito baixa. Polimorfismos que ocorrem em genes ligados são randomica- mente classificados em uma taxa lenta, mas previsível, descrita pelo decaimento do desequilíbrio de ligação ou, alternativamente, a abordagem do equilíbrio de ligação. Consequências desta descoberta científica bem estabelecida são que longos intervalos de DNA de codificação, definidos por uma combinação específica de polimorfismos, são únicos e extremamente improváveis de existir em duplicata exceto através de desequilíbrio de ligação, que é indicativo da recente coan- cestralidade de um progenitor comum. A probabilidade que uma região genômica particular, como definido por alguma combinação de alelos, indique a identidade absoluta da sequência genética interveniente inteira é dependente do número de polimorfismos ligados nesta região genômica, barrando a ocorrência de mutações recentes no intervalo. Tais loci são também tratados como janelas haplotípicas. Cada hapló- tipo dentro daquela janela é definido por combinações específicas de alelos; o maior número de alelos, o maior número de potenciais hapló- tipos, e maior a certeza que a identidade por condição é um resultado da identidade por descendência naquela região. A presente invenção permite a determinação direta de IBD usando informação da sequência de ácido nucleico direta, em vez de inferida pela informação sobre marcador.

[0077] Durante o desenvolvimento de novas linhagens, haplótipos ancestrais são mantidos através do processo e são tipicamente pensados como ‘blocos de ligação' que são herdados como uma unidade através de uma linhagem. Além disso, se um haplótipo específico tem um efeito ou fenótipo conhecidos, é possível extrapolar seu efeito em outras linhagens com o mesmo haplótipo. Atualmente, os haplótipos são identificados e rastreados no germoplasma usando um ou mais marcadores diagnósticos para aquela janela haplotípica. A presente invenção fornece um método para identificar diretamente haplótipos usando informação sobre a sequência de ácido nucleico. Além disso, pelo uso de informação de sequência direta, mais polimorfismos den- tro de qualquer região genômica podem ser identificados contra somente a utilização de marcadores genéticos, dessa forma resultando na identificação de haplótipos adicionais. Também se pode avaliar melhor haplótipos que podem compartilhar identidade por descendência. Por discriminação haplotípica em um nível mais profundo, maior fidelidade nas associações haplótipo-fenótipo podem ser obtidas. Em outro aspecto, germoplasma exótico pode ser investigado para novos hapló- tipos pelo uso de informação sobre sequência direta, dessa forma permitindo a identificação e subsequente utilização de haplótipos únicos.

[0078] Em outra abordagem, regiões de IBD podem ser investigadas através de pelo menos um agrupamento de germoplasma a fim de avaliar a diversidade genética. Por exemplo, variantes alélicas foram investigadas para inferir gargalos genéticos na domesticação de plantas de cultura (revisto em Doebley et al. Cell 2006 127:1309-1321). Entretanto, usar uma plataforma de marcador para investigar diversidade pode ser limitante uma vez que um marcador único investiga somente uma única posição na sequência.

[0079] Além disso, uma teoria de heterose prediz que as regiões de IBD entre as linhagens masculinas e femininas usadas para produzir um híbrido reduzirão o desempenho do híbrido. Identidade por descendência tem sido historicamente inferida a partir de padrões de ale- los marcadores em linhagens diferentes, em que uma série idêntica de marcadores em uma série de loci adjacentes pode ser considerada idêntica por descendência se improvavelmente ocorrer independentemente por acaso. A análise de impressões digitais de marcador em linhagens masculinas e femininas pode identificar regiões de IBD. Na presente invenção, o genoma pode ser diretamente investigado por pelo menos um locus dentro do genoma para avaliar IBD entre linhagens. O conhecimento destas regiões pode informar a escolha de pa- rentais híbridos, desde que evitando IBD em híbridos provavelmente melhore o desempenho. Este conhecimento também pode informar programas de melhoramento em que cruzamentos podem ser desenhados para produzir pares de linhagens puras (um macho e uma fêmea) que mostram pouco ou nenhum IBD.

[0080] Em um aspecto da presente invenção, heterose é avaliada em pelo menos uma região genômica, em que a heterozigozidade entre parentais em um cruzamento como determinado em uma base alé- lica pode ser presumido conferir uma vantagem fenotípica. Em outro aspecto da presente invenção, métodos são fornecidos para avaliar heterose em termos de sintenia genômica, em que não colinearidade de pelo menos um locus pode resultar em uma vantagem heterótica e desempenho melhorado no híbrido.

[0081] Marcadores foram usados tradicionalmente para tomar as impressões digitais de linhagens e dessa forma fornecer estimativas da pureza genética, facilitar operações QA/QC, e avaliar a diversidade genética. A presente invenção melhora protocolos de marcador tradicionais pelo fornecimento de métodos para avaliar diretamente sequências de pares de bases, em vez de estimar a identidade de sequência subjacente de uma posição de base única como com protocolos de marcador tradicionais. Por exemplo, um marcador de SNP bialé- lico típico fornece a informação sobre somente uma posição de par de bases e somente pode distinguir-se entre 2, em vez de 4, nucleotí- deos.

[0082] Os métodos da presente invenção tiram vantagem de descobertas recentes em sequenciamento de alto rendimento para fornecer novos métodos para melhoramento molecular. Metodologias de sequenciamento de alto rendimento (HT) foram recentemente desenvolvidas pelas quais a informação pode ser gerada para 100 MB ou mais de sequência em uma máquina de sequenciamento de corrida única. É contemplado que qualquer tecnologia de sequenciamento HT comercialmente disponível, ou qualquer outra plataforma de sequenci- amento de ácido nucleico comercialmente disponível que possa ser desenvolvida no futuro, pode ser empregada desde que a plataforma seja capaz de determinar a sequência de uma molécula de ácido nu- cleico única. Exemplos não limitantes de tecnologias de sequencia- mento HT comercialmente disponíveis são fornecidos por 454 Life Sciences (Branford, CT), Agencourt Bioscience (Beverly, MA), Applied Biosystems (Foster City, CA), LI-COR Biosciences (Lincoln, NE), Nim- bleGen Systems (Madison, WI), Illumina (San Diego, CA), e VisiGen Biotechnologies (Houston, TX) (ver também, www.solexa.com, www.454.com ou www.abi.com). Tecnologias de sequenciamento HT comercialmente disponíveis também são revistas no Serviço (Science 2006 311: 1544-1546), que é incorporada neste pedido por referência em sua totalidade. Em essência, o Analisador de Genoma Illumina, 454 Flex e a Tecnologia ABI Solid são capazes de determinar a sequência de uma molécula de DNA única embora aquela molécula possa ser amplificada no processo. Alguns destes exemplos empregam o sequenciamento por síntese embora isto não seja um pré-requisito. Plataformas de sequenciamento HT preferenciais gerarão 100 megabases, 1 gigabase ou até mais informação sobre a sequência por corrida. Plataformas de sequenciamento HT altamente preferenciais determinarão simultaneamente a sequência no número máximo de moléculas de DNA individuais. Tais sistemas são ditos ser altamente para-lelos. Por essa razão, a plataforma Analisadora de Genoma Illumina é geralmente preferencial porque pode sequenciar muitas outras moléculas de DNA gerando somente uma pequena leitura por molécula. Plataformas que geram leituras mais longas em menos sequências funcionarão mas podem apresentar desafios adicionais para eficiência de tempo e custo.

[0083] Determinação direta dos nucleotídeos polimórficos tem vantagens-chave sobre tecnologias de marcador. Embora as tecnologias de marcador sejam geralmente robustas, ainda podem informar incorretamente uma sequência subjacente, ser sujeitos ao ruído, e ser sujeitos à falha. Além disso, um marcador pode não transpor a região genômica real de interesse e, dependendo do grau de ligação à região genômica de interesse, perde o valor em populações de melhoramento devido à recombinação e perda da ligação. Determinação direta das sequências de ácidos nucleicos supera as limitações inerentes de um sistema com base em marcador pelo sequenciamento por não somente o nucleotídeo(s) de interesse, mas as sequências circundantes tam-bém. Além disso, a presente invenção fornece métodos para detecção de polimorfismo "indireta" em que são usadas etiquetas alelo- específicas que são imediatamente adjacentes ao SNP (Figura 5), portanto a reação de sequenciamento somente precisa ser concluída até a etiqueta, que é especialmente útil para tecnologias que geram leituras curtas. Sequenciamento indireto ainda supera as falhas de tendência de marcadores típicos a serem ligados, versus compreensão de polimorfismos causais uma vez que a etiqueta é essencialmente fisicamente ligada ao SNP. O uso de sequenciamento de ácido nucleico também fornece mais informação de sequência sobre os loci que se correlacionam aos traços de importância, que auxiliarão melhoradores a entenderem e utilizarem melhor os loci ou traços. Além disso, a determinação direta de sequências de ácidos nucleicos pode eliminar a necessidade de sequenciamento positivo extenso para desenvolvi-mento de marcador.

[0084] Em uma modalidade, o método da presente invenção compreende o sequenciamento do genoma inteiro de uma planta, comparação do genoma sequenciado com o genótipo de uma segunda planta e então tomada de uma decisão de cruzá-los, selecionar um ou ambos para promover, ou testar a combinação dos dois. Alternativamente, a informação sobre o genoma inteiro pode ser usada para desenvolver linhagens pelo agrupamento de linhagens que compartilham similaridades e separação de linhagens com base em diferenças genéticas para utilizar heterose. A sequência de genoma inteiro fornece a listagem completa de nucleotídeos polimórficos e listagem completa de haplótipos.

[0085] A tecnologia de sequenciamento HT como descrita no domínio público está permitindo ainda que inerentemente limitada em sua aplicação a genotipagem vegetal, até com a capacidade para sequência de 100 megabases ou até de 1 gigabase de sequência por amostra. A limitação resulta da necessidade da sequência de 10.000 de milhares de indivíduos ou linhagens necessárias para suportar um programa de melhoramento moderno. O grande número de indivíduos ou linhagens é necessário para identificar recombinantes raros entre dois loci ou subpopulação com frequência mais alta de alelos favoráveis em múltiplos loci. A capacidade de sequenciar os genomas inteiros de tal grande número de indivíduos é ainda impraticável. Um meio de reduzir o genoma a um menor número de regiões polimórficas in-formativas é necessário bem como um meio de combinar amostras de múltiplos indivíduos em um menor número de corridas ou reações de sequenciamento. Um aspecto desta invenção é o uso de um método reprodutível para reduzir a complexidade de um genoma inteiro a um subconjunto representativo de sequências que podem ser analisadas, comparadas e usadas para decisões de melhoramento vegetal. Um aspecto adicional desta invenção é a capacidade de aplicar a etique- tagem de DNA para que múltiplas amostras possam ser combinadas em uma corrida única de sequenciamento. As sequências das amostras combinadas que são determinadas em paralelo em uma corrida única então podem ser desenroladas e rastreadas de volta para a planta individual ou agrupamento vegetal que eles originaram.

[0086] Em um aspecto, a presente invenção fornece subconjuntos de DNA genômico ou RNA total para sequenciamento de ácido nuclei- co tal que uma amostra de representação reduzida seja obtida para estreitar o alvo de sequenciamento, isto é, para regiões de codificação ou regiões incluindo pelo menos um polimorfismo de interesse. Estes subconjuntos podem ser mencionados muitas vezes como amostras ou bibliotecas de complexidade reduzida.

[0087] Em outro aspecto desta invenção, a amostra de representação reduzida é visada ou limitada a uma ou mais regiões selecionadas, ou loci, no genoma. Os loci selecionados podem ser selecionados com base em uma ou mais associações com um ou mais traços ou características de desempenho ou podem ser um subconjunto representativo de todos os loci dentro de um genoma, tal como um subconjunto uniformemente espaçado ao longo dos cromossomos e que estão segregando na população de melhoramento alvo. Um subconjunto preferencial de loci são loci polimórficos. Um locus polimórfico é definido por um ou mais nucleotídeos que variam entre um par ou múltiplos indivíduos ou linhagens. Qualquer tipo do locus polimórfico pode ser usado com esta tecnologia incluindo, mas não limitado a polimorfismos de comprimento de sequência, polimorfismos de comprimento de sequência repetitiva, polimorfismos de sítio de restrição e polimorfismos de nucleotídeo único. Polimorfismos de nucleotídeo único são detectados em uma modalidade preferencial desta invenção. A sequência de um locus visado pode ser determinada por iniciação do locus para sintetizar um oligonucleotídeo complementar e então diretamente se- quenciar o oligonucleotídeo complementar. As regiões visadas podem ser sintetizadas através de uma reação de preenchimento de lacuna, reação de extensão de iniciador, uma reação de polimerase em cadeia ou uma combinação destas reações. Alternativamente, no caso de loci polimórficos visados, enzimas de reparo, erro de pareamento ou ribo- zimas ou outras enzimas específicas para nucleotídeo podem ser usadas para reparar especificamente um oligonucleotídeo complementar que é mal pareado no nucleotídeo polimórfico. Uma vez que o nucleo- tídeo complementar tenha sido estendido, amplificado, reparado ou preenchido na lacuna, a sequência oligonucleotídica gerada in vitro pode ser determinada e representa a sequência do locus polimórfico. Quaisquer destes métodos podem ser empregados para determinar diretamente a sequência nucleotídica de uma ou ambas as fitas de uma ou muitas regiões nucleotídicas. Uma vez que as metodologias de sequenciamento de alto rendimento podem gerar mais do que 100 MB de informação de sequência em uma única corrida, os oligonucleo- tídeos a partir de grande número de loci podem ser combinados e se- quenciados simultaneamente tal que as sequências de grande número de loci possam ser determinadas em paralelo em uma reação de se- quenciamento. Em tal modalidade, a invenção fornece métodos de alto rendimento e custo-eficácia para determinação direta de nucleotídeos polimórficos ou não polimórficos.

[0088] Em outro aspecto, uma amostra de representação reduzida pode ser preparada que consiste em uma classe específica de fragmentos do genoma. Em uma modalidade preferencial, uma amostra é preparada usando enzimas de restrição. Com o objetivo de comparar pelo menos duas plantas de uma espécie, cada amostra é preparada por digestão com uma ou mais endonucleases de restrição, fracionamento dos fragmentos de DNA digeridos com base no tamanho da sequência nucleotídica e comparação da sequência de fragmentos em uma fração. Mais particularmente, o método de identificação de pelo menos um locus em DNA genômico compreende a digestão de DNA genômico total de pelo menos duas variantes de uma espécie eucarió- tica com uma endonuclease sensível à metilação para fornecer um agrupamento de fragmentos de DNA digeridos. O comprimento de nu- cleotídeo médio dos fragmentos é menor para regiões de DNA caracterizadas por uma porcentagem mais baixa de citosina 5-metilada. Tais fragmentos são separáveis, por exemplo, por eletroforese em gel, com base no tamanho do nucleotídeo. Uma fração de DNA menor do que o tamanho de nucleotídeo médio é separada do agrupamento de DNA digerido. Quando comparado com a sequência de codificação, a sequência repetitiva com maior probabilidade compreenderá citosina 5-metilada, por exemplo, em segmentos -CG- e -CNG- da sequência. Em um aspecto preferencial do método, DNA genômico de pelo menos duas variedades puras diferentes de uma planta de cultura é digerido com uma endonuclease sensível à metilação selecionada a partir do grupo consistindo em Aci I, Apa I, Age I, Bsr F I, BssH II, Eag I, Eae I, Hha I, HinP1 I, Hpa II, Msp I, MspM II, Nar I, Not I, Pst I, Pvu I, Sac II, Sma I, Stu I e Xho I para fornecer um agrupamento de DNA digerido que pode ser fisicamente separado, por exemplo, por eletroforese em gel. As frações de tamanho comparável de DNA são obtidas de DNA digerido de cada uma das ditas variedades e então sequenciadas.

[0089] Em outra modalidade, RNA pode ser usado como uma representação reduzida do genoma, isto é, o subconjunto do genoma que é expresso. O RNA pode ser RNA poliA, RNA pequeno ou outras frações de RNA que podem ser usadas diretamente após extração ou experimentalmente manipuladas para reduzir ainda mais a complexidade ou melhorar a reprodutibilidade. Antes do sequenciamento, o RNA é convertido por métodos de transcrição reversa em cDNA que pode ser diretamente sequenciado ou experimentalmente manipulado para reduzir ainda mais a complexidade ou melhorar a reprodutibilida- de.

[0090] Em uma modalidade preferencial desta invenção, múltiplas amostras de ácidos nucleicos podem ser combinadas em uma amostra múltipla, isto é, agrupamento, e sequenciadas em paralelo na mesma corrida para maximizar o rendimento da amostra por corrida de se- quenciamento. Para alcançar isto, uma etiqueta de DNA, compreendendo um ou mais nucleotídeos únicos para aquela amostra, é adicionada ao ácido nucleico preparado a partir de uma amostra individual. As etiquetas de DNA típicas compreendem 1 a 10 nucleotídeos, mas podem ser estendidas a qualquer comprimento desde que a etiqueta não interfira na capacidade de determinar a sequência da amostra. Por exemplo, uma etiqueta de DNA de 2 nucleotídeos pode ser usada para separar uma mistura de 16 amostras. Etiquetas de DNA de 3, 4, 5 ou 6 nucleotídeos podem ser usadas para separar misturas de 64, 256, 1024 ou 4096 amostras, e assim por diante. Etiquetas de DNA mais curtas colocam menos restrições no comprimento de leitura da sequência, mas limitam o número de amostras que podem ser misturadas. Em uma modalidade da invenção, as etiquetas de DNA são simplesmente sintetizadas como parte de um ou de ambos iniciadores de PCR e então incorporadas em uma reação de PCR. Em outro aspecto, a etiqueta de DNA pode ser ligada aos ácidos nucleicos da amostra usando uma DNA ligase. Após incorporar totalmente uma etiqueta de DNA na amostra de ácidos nucleicos, múltiplas preparações de DNA, cada uma com uma etiqueta única, podem ser multiplexadas, isto é, agrupadas ou combinadas. As misturas multiplexadas então são submetidas a uma reação de sequenciamento HT única. O número de amostras que são multiplexadas é baseado no uso ótimo da capacidade de sequenciamento total de uma corrida única de sequenciamento. Parâmetros que influenciam na complexidade de uma mistura de amostra incluem o número de loci que são avaliados, o tamanho dos loci, o conteúdo de informação por corrida da plataforma HT, o tamanho da etiqueta de DNA, a presença, se houver algum, de um adaptador ou sequência de iniciador e o comprimento de leitura de uma dada sequência. O nível da multiplexação pode ser balanceado para alcançar custo ótimo por amostra, redundância por sequência de leitura. O comprimento mínimo de uma sequência de leitura única necessita ser suficiente para ler uma etiqueta de DNA da amostra (por exemplo, 2 a 5 nucleotídeos, dependendo do número de amostras que são agrupadas), uma sequência de etiqueta específica (6 a 20 nucleotídeos) e um ou mais nucleotídeos adjacentes. Após reação de sequenciamento HT, as sequências com a mesma etiqueta de DNA são primeiro separadas logicamente em agrupamentos separados que representam o indivíduo ou linhagem ou agrupamento do qual o DNA foi extraído. As sequências com etiquetas de DNA idênticas então podem ser lidas para determinar a identidade de nucleotídeo dentro dos loci que foram selecionados para ser investigados.

[0091] Nesta invenção, a sequência de ácidos nucleicos pode ser associada a traços de interesse ou ao desempenho vegetal e então usada para fazer seleções de parentais, progênie ou verificadores. Sequências serão úteis se forem geneticamente ligadas à característica de desempenho ou traço. Tipicamente, estão geneticamente ligadas se forem causais para o traço ou característica de desempenho ou forem fisicamente estreitamente ligadas aos loci de traço ou desempenho. No caso de sequências fisicamente ligadas, nenhum conhecimento do gene(s) e/ou variação causal do traço ou informação sobre desempenho é necessário. Somente é necessário determinar a sequên-cia dos nucleotídeos fisicamente ligados. Uma vez que uma sequência estava geneticamente ligada a um traço ou característica de desempenho, a sequência dos ácidos nucleicos pode ser diretamente usada para selecionar parentais, progênie ou verificadores que exemplificarão aquele traço ou desempenho sem a necessidade de medir primeiro a característica de desempenho ou traço. O conhecimento das sequências nucleotídicas também pode ser usado para tomar as impres- sões digitais de uma planta ou linhagem e ser usado para medir a si- milaridade/distância genética entre plantas ou linhagens e construir linhagens. AS linhagens então podem ser usadas para fazer seleções de parentais ou manejar a diversidade em um agrupamento de germo- plasma.

[0092] Em outra modalidade, as plantas podem ser classificadas para um ou mais marcadores, tal como sequências de ácidos nuclei- cos, usando amostragem de semente não destrutiva de alto rendimento. Em um aspecto preferencial, a semente é amostrada desta maneira e somente a semente com pelo menos um genótipo de interesse é promovida. Aparelhos e métodos para amostragem não destrutiva de sementes de alto rendimento foram descritos os quais superariam os obstáculos de amostras estatísticas levando em conta a análise individual da semente. Por exemplo, publicado nos Pedidos de Patente U.S. U.S. 2006/0042527, U.S. 2006/0046244, U.S. 2006/0046264, U.S. 2006/0048247, U.S. 2006/0048248, U.S. 2007/0204366 e U.S. 2007/0207485, que estão incorporados neste pedido por referência em sua totalidade, revelam aparelhos e sistemas de amostragem automatizada de sementes bem como métodos de amostragem, teste e crescimento de sementes.

[0093] Conforme a presente invenção, o conhecimento de sequências de ácidos nucleicos pode ser aplicado para tomar decisões em múltiplas etapas do programa de melhoramento:a) Entre a segregação da progênie, como um método de pré-seleção, para aumentar o índice de seleção e dirigir a frequência de sequências de ácidos nucleicos favoráveis entre populações de melhoramento, em que a pré-seleção é definida como seleção entre a descendência de um cruzamento de melhoramento com base no ge- nótipo destas progênies em um conjunto selecionado de duas ou mais sequências de ácidos nucleicos em um ou mais loci como determinado pelo sequenciamento HT, e utilizar as associações de sequência de ácidos nucleicos ao traço identificadas em cruzamentos de melhoramento prévios. b) Entre a segregação da progênie de uma população de melhoramento, para aumentar a frequência das sequências de ácidos nucleicos favoráveis com objetivo de desenvolvimento de linhagem ou variedade. c) Entre a segregação da progênie de uma população de melhoramento, para aumentar a frequência das sequências de ácidos nucleicos favoráveis antes do mapeamento de QTL dentro desta população de melhoramento. d) Para culturas híbridas, entre linhagens parentais de grupos heteróticos diferentes para predizer o potencial de desempenho de híbridos diferentes.

[0094] Em outra modalidade, a presente invenção fornece um método para melhoramento do germoplasma vegetal pelo acúmulo de sequências de ácidos nucleicos de interesse em um germoplasma compreendendo determinação de sequências de ácidos nucleicos de pelo menos dois loci no genoma de uma espécie vegetal, e associação das sequências de ácidos nucleicos com pelo menos um traço e uso destas estimativas de efeito de sequência de ácidos nucleicos para direcionar decisões de melhoramento. Estas estimativas de efeito de sequência de ácidos nucleicos podem ser derivadas usando associa-ções históricas de sequência de ácido nucleico ao traço ou de novo a partir do mapeamento de populações. As estimativas de efeito de sequência de ácidos nucleicos de um ou mais traços fornecem a base para tomar decisões em um programa de melhoramento. Esta invenção também fornece uma base alternativa para tomada de decisão usando cálculos de valor de melhoramento baseados no efeito estimado e frequência de sequências de ácidos nucleicos no germoplasma.Os valores de melhoramento da sequência de ácidos nucleicos podem ser usados para classificar um conjunto especificado de sequências de ácidos nucleicos. No contexto do conjunto especificado de sequências de ácidos nucleicos, estes valores de melhoramento formam a base para calcular um índice para classificar os alelos tanto dentro como entre os loci.

[0095] Por exemplo, qualquer dado segmento de cromossomo pode ser representado em uma dada população por um número de sequências de ácidos nucleicos que podem variar de 1 (a região é fixa), ao tamanho dos vezes de população, o nível de ploidia daquela espécie (2 em uma espécie diploide), em uma população na qual cada cromossomo tem uma sequência de ácido nucleico diferente. A identidade por descendência entre sequências de ácidos nucleicos transportados por múltiplos indivíduos em uma população não fixa resultará em um número intermediário de sequências de ácidos nucleicos diferentes e possivelmente uma frequência que se diferencia entre as sequências de ácidos nucleicos diferentes. Novas sequências de ácidos nucleicos podem surgir, através da recombinação na meiose entre sequências de ácidos nucleicos existentes em progenitores heterozigotos. A frequência de cada sequência de ácido nucleico pode ser estimada por vários meios conhecidos a um versado na técnica (por exemplo, pela contagem direta, ou pelo uso de um algoritmo EM). Vamos supor que "k" sequências de ácidos nucleicos diferentes, em que uma sequência de ácido nucleico representa pelo menos um nucleotídeo e pode constituir um alelo ou haplótipo, identificado como "ni" (i=1..., k), sejam conhecidas, que sua frequência na população é "fi" (i=1..., k), e para cada uma destas sequências de ácidos nucleicos temos uma estimativa de efeito "Esti" (i=1..., k). Se chamarmos de "valor de melhoramento" (BVi) o efeito sobre aquela população de fixação daquela sequência de ácido nucleico, então este valor de melhoramento corresponde à modi- ficação média para o traço(s) de interesse daquela população entre sua condição original de distribuição haplotípica na janela e uma condição final em que a sequência de ácido nucleico "ni" se encontra em uma frequência de 100%. O valor de melhoramento de ni nesta população pode ser calculado como:

[0096] Um versado na técnica reconhecerá que as sequências de ácidos nucleicos que são raras na população na qual os efeitos são estimados tendem a ser menos precisamente estimadas, esta diferença de confiança pode levar ao ajuste no cálculo. Por exemplo, podem- se ignorar os efeitos de sequências de ácidos nucleicos raras, pelo cálculo do valor de melhoramento da sequência de ácido nucleico melhor conhecida após ajustar a frequência destes (pela sua divisão pela soma da frequência das sequências de ácidos nucleicos melhor conhecidas). Podem ser fornecidos também intervalos de confiança para o valor de melhoramento de cada uma das sequências de ácidos nu- cleicos.

[0097] Este valor de melhoramento vai se modificar de acordo com a população para a qual é calculado, como uma função da diferença de frequências da sequência de ácidos nucleicos. O termo população então pode ser assumido com diferentes significados, abaixo estão dois exemplos de casos especiais. Primeiro, pode ser uma linhagem pura única em que se pretende substituir a sua sequência de ácido nucleico atual nj por uma nova sequência de ácido nucleico ni neste caso BVi=Est—Estj. Segundo, pode ser uma população F2 na qual duas sequências de ácido nucleico parentais ni e nj estão presentes originalmente em igual frequência (50%), neste caso, BVi=1/2(Esti-Estj).

[0098] Estas abordagens estatísticas permitem a estimativas de efeito de sequência de ácidos nucleicos informar decisões de melho- ramento em múltiplos contextos. Outras abordagens estatísticas para calcular valores de melhoramento são conhecidas aos versados na técnica e podem ser usadas na substituição sem se afastar do espírito e escopo desta invenção.

[0099] Além disso, métodos para determinação da significância estatística de uma correlação entre um fenótipo e um genótipo, neste caso uma sequência de ácido nucleico, podem ser determinados por qualquer teste estatístico conhecido na técnica e com algum limiar aceito de significância estatística sendo necessário. A aplicação de métodos particulares e limiares de significância estão entre as habilidades do versado da técnica.

[00100] Estimativas de efeito de sequência de ácidos nucleicos e/ou dos valores de melhoramento de um ou mais traços de interesse fornecem a base para determinar uma ou mais sequências de ácidos nu- cleicos de interesse em comparações de duas ou mais sequências de ácidos nucleicos. Com esta informação a priori, seleções de melhoramento são conduzidas em uma sequência de ácido nucleico, em vez de marcador, base, em que uma primeira planta é cruzada com uma segunda planta que contém pelo menos um locus onde a sequência de ácido nucleico da segunda planta é diferente da sequência de ácido nucleico da primeira planta; e pelo menos uma planta da progênie é selecionada pela detecção da sequência de ácido nucleico ou conjunto de sequências de ácidos nucleicos da primeira planta, em que a planta da progênie compreende em seu genoma uma ou mais sequências de ácidos nucleicos de interesse da primeira planta e pelo menos uma sequência de ácido nucleico de interesse da segunda planta; e a planta da progênie é usada em atividades relacionadas à melhora de ger- moplasma, neste pedido definido como incluindo uso de desenvolvimento linhagem e de variedade vegetal, desenvolvimento de híbrido, seleção de evento transgênico, criação de cruzamentos de melhora- mento, teste e aprimoramento de uma planta por autofertilização, purificação de linhagens ou sublinhagens, uso de planta ou partes da mesma para transformação, uso de planta ou partes das mesmas de candidatos para construtos de expressão e uso de planta ou partes da mesma para mutagênese.

[00101] Em um aspecto, esta invenção fornece sequenciamento de alto rendimento para identificar grandes segmentos de ácidos nuclei- cos, em uma ou mais regiões de um genoma vegetal, que fornecem uma base para comparar duas ou mais entradas de germoplasma. Estas regiões da sequência de ácido nucleico contíguas são indicativas da conservação da identidade genética de todos os genes intervenientes de um progenitor comum. Em casos onde os segmentos de sequência conservados são coincidentes com segmentos nos quais QTL foram identificados é possível deduzir com alta probabilidade que a inferência de QTL possa ser extrapolada para outro germoplasma que tenha uma sequência idêntica naquele locus. Esta informação a priori fornece base para seleção de QTLs favoráveis antes do mapeamento de QTL em uma dada população. Por exemplo, as decisões de melhoramento vegetal podem compreender: a) Seleção entre novas populações de melhoramento para determinar que populações têm a frequência mais alta de sequências de ácidos nucleicos favoráveis, em que as sequências são indicadas como favoráveis com base na coincidência com o mapeamento de QTL prévio; ou b) Seleção da progênie contendo as ditas sequências de ácidos nucleicos favoráveis em populações de melhoramento antes, ou em substituição, ao mapeamento de QTL naquela população, em que a seleção pode ser feita em qualquer etapa do melhoramento e também pode ser usada para dirigir múltiplas gerações de seleção recorrente; ou c) Predição de desempenho da progênie para cruzamentos de melhoramento específicos; ou d) Seleção de linhagens para atividades de melhora de germoplasma com base nos ditos haplótipos favoráveis, incluindo de-senvolvimento de linhagem, desenvolvimento de híbrido, seleção entre eventos transgênicos com base no valor de melhoramento do haplóti- po no qual o transgene foi inserido, produção de cruzamentos de melhoramento, teste e promoção de uma planta por autofertilização, uso de planta ou partes da mesma para transformação, uso de plantas ou partes das mesmas para candidatos a construtos de expressão, e uso de planta ou partes da mesma para mutagênese.

[00102] Um aspecto adicional único desta invenção é a capacidade de seleção de genes específicos ou alelos gênicos, quando são visados por sequenciamento de alto rendimento. Por exemplo, em casos onde a sequência de ácido nucleico é coincidente com segmentos nos quais os genes foram identificados é possível deduzir com alta probabilidade que a inferência genética pode ser extrapolada a outro ger- moplasma que tenha um genótipo idêntico naquele locus. Esta informação a priori fornece a base para selecionar genes favoráveis ou ale- los genéticos com base no sequenciamento de ácido nucleico dentro de uma dada população.

[00103] Por exemplo, decisões de melhoramento vegetal podem compreender: a) Seleção entre novas populações de melhoramento para determinar que populações têm a frequência mais alta de sequências de ácidos nucleicos favoráveis, em que sequências são indicadas como favoráveis com base na coincidência com o mapeamento genético prévio; ou b) Seleção da progênie contendo as ditas sequências de ácidos nucleicos favoráveis em populações de melhoramento, em que a seleção é efetivamente permitida no nível gênico, em que a seleção pode ser feita em qualquer etapa de endogamia e também pode ser usada para dirigir múltiplas gerações para seleção recorrente; ou c) Predição de desempenho da progênie de cruzamentos de melhoramento específicos; ou d) Seleção de linhagens para atividades de melhora de germoplasma com base nos ditos haplótipos favoráveis, incluindo de-senvolvimento de linhagem, desenvolvimento de híbrido, seleção entre eventos transgênicos com base no valor de melhoramento do haplóti- po em que o transgene foi inserido, produção de cruzamentos de melhoramento, teste e promoção de uma planta por autofertilização, uso de planta ou partes da mesma para transformação, uso de plantas ou partes das mesmas para candidatos a construtos de expressão, e uso de planta ou partes da mesma para mutagênese.

[00104] Além disso, em outra modalidade preferencial desta invenção, a informação a priori na frequência de sequências de ácidos nu- cleicos favoráveis em populações de melhoramento permite a pré- seleção. Isto é, linhagens parentais são selecionadas com base na informação de associação histórica genótipo-fenótipo com o objetivo de dirigir a frequência de ácido nucleico favorável para múltiplos traços simultaneamente. Na pré-seleção, os melhoradores podem predizer a contribuição fenotípica de múltiplos traços de qualquer linhagem com base na informação sobre a impressão digital daquela linhagem, que equivale a uma composição de sequências predefinidas. Esta abordagem de seleção de sequência de multitraço economiza um programa de melhoramento pela iniciando a seleção na etapa inicial de escolher cruzamentos parentais e também reduz a necessidade da fenotipagem onerosa, demorada da progênie.

[00105] Uma sequência preferencial fornece uma propriedade preferencial a uma planta parental e à progênie do parental quando sele- cionada por meios marcadores ou por meios fenotípicos. O método da presente invenção fornece a seleção de sequências preferenciais, ou sequências de interesse, e o acúmulo destas sequências em uma população de melhoramento.

[00106] Em outra modalidade, esta invenção permite a seleção indireta por decisões de seleção de pelo menos uma sequência de ácido nucleico com base em pelo menos uma estimativa de efeito de sequência de ácido nucleico tal que os fenótipos adicionais sejam indiretamente selecionados devido às estimativas de efeito de sequência de ácidos nucleicos adicionais de outros traços fenotípicos.

[00107] Outra modalidade preferencial da presente invenção deve construir valor adicional pela seleção de uma composição de sequências de ácidos nucleicos em que cada sequência tem um fenótipo associado estimado que não é negativo com respeito ao rendimento, ou não é positivo com respeito à maturidade, ou é nulo com respeito à maturidade, ou entre os 50 por cento melhores com respeito a um traço agronômico, transgene e/ou múltiplo índice de traço quando comparados com qualquer outra sequência de ácido nucleico no mesmo locus no grupo de germoplasma, ou entre os 50 por cento melhores com respeito a um traço agronômico, transgene e/ou múltiplo índice de traço quando comparados com quaisquer outros loci através do genoma inteiro no grupo de germoplasma, ou sequência de ácido nucleico que está presente com uma frequência de 75 por cento ou mais em uma população de melhoramento ou grupo de germoplasma pode ser tomado como evidência de seu alto valor, ou qualquer combinação destes.

[00108] Esta invenção antecipa um empilhamento de sequências de ácidos nucleicos de pelo menos dois loci em plantas ou linhagens pelo cruzamento de plantas ou linhagens parentais contendo sequências de ácidos nucleicos diferentes, isto é, genótipos diferentes. O valor da planta ou linhagem compreendendo em suas sequências de ácidos nucleicos empilhadas do genoma de dois ou mais loci pode ser estimado por um valor de melhoramento composto, que depende de uma combinação do valor dos traços e do valor da sequência(s) de ácido nucleico à qual os traços são ligados. A presente invenção antecipa ainda que o valor de melhoramento composto de uma planta ou linhagem pode ser melhorado pela modificação dos componentes de um ou cada uma das sequências de ácidos nucleicos. Adicionalmente, a presente invenção antecipa que o valor adicional pode ser incorporado no valor de melhoramento composto de uma planta ou linhagem pela seleção de pelo menos uma sequência de ácido nucleico recipiente com uma estimativa de efeito de sequência de ácido nucleico preferencial ou, em conjunto com a frequência da dita sequência de ácido nucleico no agrupamento de germoplasma, valor de melhoramento ao qual uma ou quaisquer outras sequências de ácidos nucleicos são ligados, ou pela seleção de plantas ou linhagens para empilhar duas ou mais sequências de ácidos nucleicos de dois ou mais loci por melhoramento.

[00109] Outra modalidade desta invenção é um método para aumentar populações de melhoramento pelo acúmulo de uma ou mais sequências de ácidos nucleicos em um ou mais loci, em um germo- plasma. Os loci incluem informação genética e fornecem traços fenotí- picos à planta. Variações na informação genética podem resultar na variação do traço fenotípico e o valor do fenótipo pode ser medido. O mapeamento genético das sequências de ácidos nucleicos leva em conta uma determinação da ligação através de sequências. A sequência de ácido nucleico de interesse é nova no genoma da planta de progênie e pode servir por si mesma como um marcador genético para um locus de interesse. Notavelmente, esta sequência de ácido nuclei- co também pode ser usada como um identificador de um gene ou QTL. Por exemplo, no caso de múltiplos traços ou efeitos de traço as- sociados com a sequência de ácido nucleico, somente um marcador seria necessário com objetivos de seleção. Adicionalmente, o locus de interesse pode fornecer um meio para seleção de plantas que têm o locus ligado.

[00110] Em outra modalidade, pelo menos um ácido nucleico preferencial da presente invenção é empilhado com pelo menos um transgene. Em outro aspecto, pelo menos um evento transgênico é promovido com base na ligação ou inserção em um ácido nucleico preferencial, como descrito no Pedido de Patente U.S. publicado em U.S. 2006/0282911, que é incorporado neste pedido por referência em sua totalidade.

[00111] Ainda em outra modalidade, a presente invenção reconhece que os ácidos nucleicos preferenciais identificados pelos métodos apresentados neste pedido podem ser promovidos como genes candidato para inclusão em construtos de expressão, isto é, transgenes. Ácidos nucleicos de interesse podem ser expressos em células vegetais pela ligação operacionalmente a um promotor funcional em plantas. Em outro aspecto, ácidos nucleicos de interesse podem ter sua expressão modificada por supressão gênica mediada por RNA dupla fita, também conhecida como interferência de RNAs("RNAi"), que inclui a supressão mediada por pequenos RNAs de interferência ("siRNA"), pequenos RNAs de interferência transatuantes ("ta-siRNA"), ou mi- croRNAs ("miRNA"). Exemplos de metodologia de RNAi adequada para uso em plantas são descritos detalhadamente nas publicações de pedidos de patente americana 2006/0200878 e 2007/0011775.

[00112] Métodos são conhecidos na técnica para montagem e introdução de construtos em uma célula de tal maneira que a molécula de ácido nucleico para um traço seja transcrita em uma molécula mRNA funcional que é traduzida e expressa como um produto proteico. Para a prática da presente invenção, composições convencionais e métodos para preparação e uso de construtos e células hospedeiras são bem conhecidos por um versado na técnica, ver, por exemplo, Molecular Cloning: A Laboratory Manual, 3rd Edition, Volumes 1, 2, and 3 (2000) J. F. Sambrook, D. W. Russell, and N. Irwin, Cold Spring Harbor Laboratory Press. Métodos para construção de construtos de transformação particularmente ajustados para transformação vegetal incluem, sem restrição, aqueles descritos nas Patentes U.S. N— 4.971.908, 4.940.835, 4.769.061 e 4.757.011, todas as quais são neste pedido incorporadas por referência em sua totalidade. Métodos de transformação para introdução de unidades de expressão em plantas são co-nhecidos na técnica e incluem eletroporação como ilustrado na Patente U.S. N° 5.384.253; bombardeio de microprojétil como ilustrado nas Patentes U.S. Nos 5.015.580; 5.550.318; 5.538.880; 6.160.208; 6.399.861; e 6.403.865; transformação de protoplasto como ilustrado na Patente U.S. N° 5.508.184; e transformação mediada por Agrobacterium como ilustrado nas Patentes U.S. Nos 5.635.055; 5.824.877; 5.591.616; 5.981.840; e 6.384.301.

[00113] A presente invenção também fornece a classificação de loci de plantas de progênie de interesse e uso da estimativa de efeito de ácido nucleico como base de seleção para uso em um programa de melhoramento para aumentar o acúmulo de sequências de ácidos nu- cleicos preferenciais.

[00114] Usando este método, a presente invenção contempla que as sequências de ácidos nucleicos de interesse são selecionadas a partir de uma grande população de plantas. Adicionalmente, estas sequências de ácidos nucleicos podem ser usadas nos métodos de melhoramento descritos para acumular outros loci benéficos e preferenciais e manter estes em uma população de melhoramento para aumentar o germoplasma total da planta. Plantas consideradas para uso no método incluem mas não são limitadas a, milho, soja, algodão, trigo, arroz, canola, colza, beterraba, sorgo, painço, alfafa, culturas de forragem, culturas de semente oleaginosa, culturas de grão, culturas de fruta, plantas ornamentais, culturas de hortaliças, culturas de fibra, culturas de tempero, culturas de noz, culturas de turfa, culturas de açúcar, culturas de bebida, culturas de tubérculo, verduras e culturas florestais.

[00115] Em resumo, esta invenção descreve a nova combinação de sequenciamento de alto rendimento e metodologias de melhoramento molecular para permitir o uso da informação de sequência de ácido nucleico direta para executar o melhoramento vegetal molecular. A invenção também inclui meios de visar seletivamente sítios nucleotídicos polimórficos e amostras de etiqueta de DNA antes da determinação da sequência. Tomada em conjunto, esta invenção permite ao melhorador vegetal usar a informação de sequência na seleção parental, seleção de progênie, escolhendo combinações de verificador, desenvolvendo linhagens, tomando as impressões digitais de amostras, classificando por diversidade haplotípica e para construção de bancos de dados de associações de sequência a traço e dados de desempenho.

Exemplos Exemplo 1: Seleção Direcionada por Sequência

[00116] Um objetivo importante de qualquer programa de melhoramento é incorporar economicamente ou de outra maneira traços importantes em uma linhagem ou população de melhoramento. A capacidade para determinar diretamente a sequência da região ligada ao traço ou determinar diretamente as sequência(s) dos loci que são causais do traço permitirá ao melhorador determinar que indivíduos ou linhagens em uma população provavelmente exibem o traço de interesse e dessa forma informam decisões de avanço. Um fluxo de trabalho para sequenciamento de alto rendimento é representado na Figura 1. O presente exemplo demonstra um método da invenção para fazer a seleção direcionada por sequência. O método é diferenciado da seleção assistida por marcador tradicional em que usa a informação direta sobre sequência de ácido nucleico para a seleção em vez de um marcador.

[00117] O óleo de soja ácido de baixo teor linolênico é de interesse comercial porque não resulta em gorduras trans durante o processamento e uso e por isso é mais saudável para o consumo humano. Um gene que é essencial para a biossíntese de ácido linolênico é o gene fad3. Nas sojas, há pelo menos três genes fad3 e mutações em dois dos genes, fad3b e fad3c, podem resultar em baixo teor de ácido lino- lênico. Iniciadores e sondas exemplares para a detecção de mutações nestes genes são apresentados no Pedido de Patente U.S. publicado 20060107348, que é incorporado neste pedido por referência em sua totalidade.

[00118] Em um aspecto, uma primeira etapa da seleção direcionada por sequência pode ser redução da complexidade do genoma, em que diferentes estratégias são exemplificadas nas Figuras 2 a 5. Isto é, uma biblioteca de representação reduzida pode ser obtida por digestão e purificação seletivas, usando enzimas conhecidas na técnica (Figura 2). Em outros aspectos, a biblioteca pode ser visada a partir do trans- criptoma (Figura 3). Ainda em outros aspectos, regiões contendo SNP são isoladas usando extensão/ligação alelo-específica (Figura 5).

[00119] Ainda em outros aspectos, as regiões genômicas visadas por sequência são seletivamente amplificadas (Figura 4). No presente exemplo, a região indel Fad3c foi amplificada usando iniciadores específicos para inserção e deleção. Este método é útil quando a região de interesse compreende uma indel e é especialmente útil na classificação de transgenes. Alternativamente, a região que transpõe o ácido nucleico de interesse é amplificada. No presente exemplo, uma segunda estratégia de redução de complexidade foi empregada, na qual o ensaio de SNP para a região Fad3b foi usado para amplificar a região contendo o SNP com o objetivo de sequenciamento. Em geral, esta abordagem é especialmente útil para utilizar bibliotecas existentes de ensaio de SNP baseado em PCR e usando os conjuntos de iniciador conhecidos como um instrumento na redução de complexidade. A presente invenção antecipa usar SNPs fornecidos pelos Pedidos de Patente U.S. publicados U.S. 2005/0204780, U.S. 2005/0216545, U.S. 2005/0218305 e U.S. 2006/0504538, como ambos os alvos do se- quenciamento bem como do uso na redução de complexidade do ge- noma como descrito neste pedido.

[00120] Uma segunda etapa que pode ser útil para a seleção direcionada por sequência é o uso de etiquetas de DNA para permitir a multiplexação da amostra. No presente exemplo, a cada amostra em um conjunto múltiplo foi destinada uma etiqueta de DNA única, isto é, uma etiqueta de sequência que se diferencia por pelo menos um par de bases de outros códigos de barras no conjunto. Em um aspecto preferencial, a percentagem de bases C e G é equilibrada para minimizar o viés no processo de sequenciamento. A etiqueta de DNA pode variar em tamanho de aproximadamente 2 a aproximadamente 20 bp. Nos presentes exemplos, com 384 amostras de PCR, representando 192 entradas de germoplasma analisadas tanto para o SNP Fad3b como para a indel Fad3c, sequências de 6 bp foram usadas e cada amostra foi sequenciada para ambos SNP e regiões indel.

[00121] Em um aspecto, as etiquetas de DNA são adicionadas aos iniciadores de PCR como mostrado na Figura 7. Alternativamente, podem ser incorporadas na extensão/ligação alelo-específica como mostrado na Figura 5, com o código de barra ligado aos produtos de ex- tensão/ligação alelo-específica ou adicionados aos produtos usando PCR. No presente exemplo, as etiquetas de DNA foram incluídas nos iniciadores de PCR. A figura 9 ilustra um esquema do molde resultante que será usado para o sequenciamento, mostrando ambos SNP Fad3b e indel Fad3c. Especificamente, um par de oligonucleotídeos foi sintetizado para ajudar na determinação de sequência do locus de fad3b. Um iniciador oligonucleotídico de sentido direto é sintetizado para incluir uma etiqueta de DNA de 6 nucleotídeos (Tabela 1) e uma sequência que combina a sequência nucleotídica que é 5' para a mutação fad3b que é conhecida por afetar a função gênica. Para os objetivos desta invenção, uma mutação é o mesmo que um nucleotídeo polimórfico e representa um locus polimórfico. Um iniciador oligonucle- otídico de sentido reverso é sintetizado para uma sequência complementar à região 3' da mutação fad3a. Um segundo par de iniciadores de PCR de sentido direto e reverso é gerado de maneira semelhante para combinar com uma mutação que deleta o gene fad3c que também é conhecido por reduzir o ácido linolênico no óleo de soja. Uma vez que a deleção estende-se além dos limites do gene fad3, um par de iniciadores é desenhado dentro da região de codificação dos genes para determinar se a sequência do gene fad3c está presente e um segundo conjunto de iniciadores é desenhado para transpor a deleção do locus fad3c, se o gene estiver ausente. A distância entre os pares de nucleotídeo é desenhada para estar entre 10 e 200 nucleotídeos e a mutação adjacente à extremidade do iniciador de sentido direto, por isso mais próxima da etiqueta de DNA. Mais similar a distância entre os iniciadores, mais provavelmente a amplificação de PCR do molde será equilibrado através de múltiplos loci, entretanto, distâncias mais longas podem ser necessárias em alguns exemplos para encontrar intervalos de nucleotídeos apropriados para o desenho de iniciador robusto, por exemplo, destituído de sequências repetitivas, estrutura de sequência não existente e conteúdo de GC balanceado. A mesma etiqueta de DNA pode ser usada para o iniciador de sentido direto nos três pares de iniciadores. Os três pares representaram um conjunto de genotipagem ou impressão digital que pode ser usado para uma amostra. Especificamente, os seguintes pares de iniciador foram utilizados no presente exemplo: Fad3B (SNP NS0193115), 192 iniciadores de sentido direto ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais CATTGGCACCCATGTTATCC; Iniciador de sentido reverso Fad3B único CAAGCAGAAGACGGCATACGAGCTCTT- CCGATCT mais GACTTAGATCACATAGGCAGACATAC; Inserção de Fad3C, 192 iniciadores de sentido direto ACACTCTTTCCCTACA- CGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais TAAG- TGACACTGGAGATGTGG; deleção de Fad3C, 192 iniciadores de sentido direto ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais CAGAAAGTATTGGTAAAGTACTGGTA; Iniciador de sentido reverso Fad3C único CAAGCAGAAGACGGCA- TACGAGCTCTTCCGATCT mais TAAATATTCCATTGAGGCCCACTA, em que quantidade molar igual de iniciadores foi misturada. Tabela 1: Etiquetas de DNA de 6 nucleotídeos exemplares para as 192 variedades genotipadas no presente exemplo.

[00122] 192 conjuntos de genotipagem adicionais foram então ge rados onde cada conjunto é idêntico exceto que a etiqueta de DNA no iniciador de sentido direto dos três pares de oligonucleotídeos é trocada por uma etiqueta única da lista de 4096 etiquetas possíveis. As sequências de mutações fad3b e fad3c foram então determinadas para uma população de 192 variedades de soja da seguinte maneira. Uma semente única de cada uma das 192 linhagens foi escolhida para remover uma porção do tecido da semente mantendo a viabilidade da semente como descrito, por exemplo, em U.S. 2006/0046264 e U.S. 2007/0204366, cada uma das quais são incorporadas neste pedido por referência.

[00123] Para preparar o molde para o sequenciamento, DNA foi preparado para cada uma das amostras de tecido e então 10 ng foram dispensados em 2 placas de microtítulo de 96 poços. A cada poço, uma master mix de PCR foi adicionada junto com Taq polimerase, de acordo com recomendações do fabricante (Roche, ABI). Finalmente, 100 μM de um conjunto de iniciador de genotipagem selecionado, incluindo etiquetas de DNA correspondes, foram adicionados a cada po- ço. A placa foi aquecida a 95°C por nove minutos pa ra desnaturar o DNA. Vinte ciclos de PCR foram então completados usando as seguintes condições: 94°C por 30 s, 55°C por 30 s, 72°C p or 2 min, seguidos por uma extensão final de 10 minutos a 72°C.

[00124] Após a PCR, todas as 192 linhagens foram combinadas em um poço único que então foi usado para uma reação de sequencia- mento HT, de acordo com orientações do fabricante (Analisador de Genoma Illumina). Resumidamente, quantidades iguais de 384 produtos de PCR foram misturadas e posteriormente purificadas usando métodos de purificação de PCR conhecidos na técnica. Aproximadamente 5 a 10 ng do molde purificado foram amplificados com PCR enriquecida por especificações do Analisador de Genoma Illumina. A PCR enriquecida também adiciona o adaptador requerido à reação de PCR de ponte a jusante se os adaptadores já não foram incorporados nos iniciadores. O produto de PCR enriquecido é purificado, novamente usando métodos de purificação de PCR conhecidos na técnica, e o molde resultante é sequenciado por especificações do Analisador de Genoma Illumina.

[00125] As sequências obtidas da reação de sequenciamento foram depositadas de acordo com a sequência de etiqueta de DNA. Dentro de cada compartimento, as sequências foram analisadas pelo alinhamento aos iniciadores de sentido direto de SNP e de indel para determinar se a mutação conhecida, qualquer outra variação ou nucleotí- deos de tipo selvagem estavam presentes próximas do oligonucleotí- deo complementar 3'. Os genótipos de SNP foram chamados com base na posição do SNP nas sequências (ver Figura 10 para gráfico de dispersão resultante). Os genótipos indel foram determinados pelos pareamentos às sequências dos dois iniciadores de sentido direto (ver Figura 11 para gráfico de dispersão resultante). Contagens de parea- mento de sequência podem ser traçadas para lidar com fundos. Fer-ramentas de marcação aprimoradas podem ser usadas/desenvolvidas para a normalização/calibração e mais confiáveis chamadas de genó- tipo. Se ambas as sequências mutante e de tipo selvagem fossem identificados, a amostra foi predita para ser heterozigota. Se somente as sequências nucleotídicas que corresponderam a sequências de tipo selvagem estivessem presentes, então a amostra foi classificada como ácido linolênico normal. Se as sequências mutantes conhecidas fossem identificadas, então as amostras foram classificadas como ácido linolênico baixo. Identificação e classificação das sequências no locus de fad3b, no locus de fad3c e no locus de deleção de fad3c permitem a um melhorador classificar plantas para caracterizar o genótipo associado ao ácido linolênico baixo e então decidir que variedades de ácido linolênico baixo testar para aprimorar o rendimento.

Exemplo 2: Introgressão direcionada por sequência

[00126] Uma ferramenta poderosa em melhoramento vegetal é o retrocruzamento. Retrocruzamento permite a um melhorador extrair uma ou mais das melhores características em uma linhagem doadora e sistematicamente introgredi-las em uma linhagem parental recorrente. Em essência, a(s) região(ões) genômica em um ou mais loci de DNA doador selecionados são sistematicamente introgredidas em um genoma parental recorrente, substituindo os ácidos nucleicos nos loci correspondentes no genoma parental recorrente. Os tipos de características que são tipicamente introgredidas entre linhagens incluem, mas não são limitadas a, transgenes, resistência à doença, resistência à praga, traços de qualidade, traços agronômicos, etc. Tradicionalmente, este processo pode tomar cinco ou mais gerações para obter os traços de interesse em uma progênie que também mostra equivalência ao parental recorrente e tem desempenho agronômico do parental recorrente. Se o desempenho da linhagem convertida não se igualar ao desempenho predito do parental recorrente mais o novo traço, muitas vezes pode ser muito difícil entender o problema e como corrigi-lo.

[00127] A sequência direcionada por retrocruzamento (SDBC) pode acelerar muito o processo e resultar em um resultado mais quantificá- vel. Usando sequências, a progênie a partir de cada geração de retro- cruzamento é examinada para ambas as sequências de ácidos nuclei- cos do parental doador que codificam ou são ligadas às características de interesse e sequências nucleicas no genoma parental recorrente. O exame considera ambas as diferenças (polimorfismos) e identidade entre as sequências. A progênie de retrocruzamento é selecionada e promovida com base em sua composição de sequência de ácido nu- cleico, que inclui tanto a codificação de sequências de ácido nucleico ou ligada ao traço alvo quanto a porcentagem mais alta de sequências de ácidos nucleicos que combinam com a sequência parental recorrente. Pelo direcionamento do processo com sequência em vez de informação sobre marcador, o processo pode ser concluído em menos gerações, com uma recuperação mais alta do parental recorrente.

[00128] Um exemplo particular de SDBC é a introgressão direcionada de um transgene a partir de uma linhagem doadora para uma linhagem parental recorrente e um exemplo de um transgene que codifica resistência à herbicida, também conhecida como o gene CP4 bac- teriano, que é uma parte crítica da sequência requerida para o traço Roundup Ready®. Neste exemplo, uma linhagem doadora é fixada ou homozigota para o gene CP4 e é desejável para introgredir o CP4 em uma linhagem parental recorrente. O melhorador plantou 15 sementes do parental recorrente ao lado de 15 sementes de uma linhagem do parental doadora CP4. Quatro cruzamentos são feitos pela polinização das espigas doadoras com o pólen do parental recorrente. A semente resultante é a semente F1. Um triplete é plantado com uma linhagem parental recorrente plantada entre duas fileiras de semente Fl obtida de uma ou duas espigas de melhor aparência de Fl. No momento da antese, o parental recorrente é usado para polinizar 4 das F1 em cada uma das fileiras flanqueadoras (total de 8 cruzamentos). As duas melhores espigas BC1 são colhidas de cada fileira e a semente de BC1 é expandida. Em média, é esperado que a semente BC1 contenha 25% do genoma de doador e 75% do genoma parental recorrente, entretanto, o conteúdo exato de qualquer planta individual varia dentro de uma distribuição normal. Os esforços de retrocruzamentos subsequentes seriam aumentados pela seleção do subconjunto de sementes com o genoma parental recorrente mais alto e que contêm o transgene. A semente BC1 também estaria segregando o transgene CP4. O se- quenciamento é usado para identificar qual das 93 plantas BC1 tinha quantidade mais alta de sequências de ácidos nucleicos parentais re-correntes e continha o transgene. O subconjunto desejável pode ser identificado inspecionando a sequência em vários loci, por exemplo, 96, onde um dos loci é o locus CP4.

[00129] A semente de cada um dos parentais, a expansão de F1 e de cada uma das 93 BC1 é plantada em fileiras e as plantas cultivadas. Na etapa V4 (4° estágio da folha), um pedaço de folha é tomado de cada planta e colocado em um poço único de um bloco de 96 poços. O DNA é preparado de acordo com o método descrito em Della- porta et al., 1983 Planta Mol Biol Rep 1: 19-21, que é incorporado por referência neste pedido em sua totalidade. O DNA de cada um dos 96 loci é preparado ainda usando uma amplificação inicial. Neste exemplo, a amplificação é usada para incorporar a etiqueta de DNA e adaptadores mas outros métodos são conhecidos e aplicáveis. Um iniciador de sentido direto específico para um locus é desenhado contendo 18 nucleotídeos na extremidade 3' que hibridizaria na 5' do locus alvo. A extremidade 5' do iniciador de sentido direto também continha 15 nu- cleotídeos que se pareavam com os 15 nucleotídeos 3' de um iniciador de PCR de sentido direto universal. De modo semelhante, um iniciador de PCR de sentido reverso é desenhado onde 18 bases na extremidade 3' complementares aos nucleotídeos 3' do locus alvo. O iniciador de sentido reverso também continha 15 pares de bases na extremidade 5' que se pareavam com a extremidade 3' de um iniciador de sentido reverso universal. Neste exemplo, os loci alvos são 6 a 10 nucleotídeos, entretanto podem variar de somente 2 nucleotídeos a várias centenas ou mais. Este processo é repetido para cada um dos 96 loci onde um dos loci é o locus CP4. Noventa e cinco dos loci são selecionados para recobrir cada braço de cada cromossomo e incluíram alguns marcadores extras que flanqueiam o locus CP4.

[00130] Além do iniciadores específicos para o gene, iniciadores universais também são desenhados. O iniciador universal de sentido reverso é sintetizado para conter os 15 nucleotídeos na extremidade 5' do iniciador de sentido direto específico do gene. O iniciador universal de sentido reverso é sintetizado para hibridizar aos nucleotídeos de PCR universais no iniciador específico de sentido reverso do gene e além disso, continha uma etiqueta de 5 nucleotídeos na extremidade 5'. Noventa e seis (96) iniciadores de sentido reverso universais diferentes são sintetizados com cada iniciador contendo uma sequência de etiqueta única escolhida de 1024 combinações possíveis fornecidas por uma das 4 bases em cada uma das 5 posições nucleotídicas. As amostras são submetidas a PCR usando condições padrão. Os ciclos iniciais de PCR têm o objetivo de incorporar os iniciadores universais e etiqueta de DNA em um número limitado de cópias de cada locus. 96 pares de iniciadores de sentido direto e reverso específicos para o gene são diluídos e então combinados para fazer uma solução equimolar de estoque, multiplexada, em uma concentração final de oligonucleotí- deo total de 10 μmol por litro de solução. Ensaios de PCR continham tampão de PCR 1X, MgCl2 2,5 mM, mistura de dNTP 0,2mM, 1U de Taq DNA polimerase, 1 μM do iniciador de sentido direto universal, 100 nM dos iniciadores multiplexados e 1 μl do extrato de DNA. Além disso, a cada amostra única, um iniciador universal de sentido reverso unicamente etiquetado é adicionado a uma concentração final de 1 μM. A ciclagem é realizada em um ABI 7900 com o seguinte programa de ciclagem: Desnaturação inicial a 94°C por 90 seg undos; seguido por 4 ciclos de 94°C por 30 segundos, 55°C por 30 s egundos e 72°C por 30 segundos; seguido por 22 ciclos de 94°C por 30 segundos e 72°C por 60 segundos. A incorporação da etiqueta de DNA através de PCR ou ligação é essencial para o método, entretanto, a amplificação subsequente não é sempre necessária mas pode facilitar as etapas de manejo de amostra a jusante na preparação para o sequenciamento. Após PCR, 2 μl do produto de amplificação são examinados por eletroforese em gel de agarose em géis de agarose 2% posteriormente marcados com o brometo de etídeo para confirmar a presença de um produto único. Os ensaios com uma reação de PCR positiva são combinados em um agrupamento único e purificado usando um conjunto Qiagen (Qiagen, EUA). Os produtos purificados então são submetidos ao sequenciamento de alto rendimento de acordo com o protocolo do fabricante (Analisador de Genoma Illumina 1G Analisador, Illumina, Inc.). Duas leituras são obtidas de cada molécula sequenciada. A primeira leitura é obtida pelo uso de um iniciador que corresponde à sequência de iniciador de PCR universal de sentido direto. Este iniciador de se- quenciamento resultou em uma leitura curta da sequência no locus para o qual o iniciador é desenhado e dentro de uma dada amostra, como identificado pela etiqueta. A etiqueta é lida usando uma corrida curta em um iniciador de sequenciamento desenhado para hibridizar à sequência de iniciador universal de sentido reverso. Esta segunda sequência de leitura é reiniciada após a leitura da sequência de locus ser completada.

[00131] As sequências obtidas da reação de sequenciamento são depositadas de acordo com a sequência de etiqueta de DNA. Isto é feito pelo corte da segunda sequência de leitura abaixo da etiqueta de DNA e então sobrecarregando as etiqueta dentro de uma corrida uma à outra. Dentro de cada compartimento de amostra, as sequências são agrupadas para combinar múltiplas leituras do mesmo locus. As sequências em um dado locus então são comparadas (usando BLAST) à sequência esperada do parental recorrente e do parental doador e do gene CP4. Se todas as sequências de leitura parearam ao parental recorrente, o locus é indicado como fixado para o parental recorrente. Se todas as sequências parearam ao doador parental, o locus é fixado para o doador parental e um ou mais retrocruzamentos adicionais seriam necessários para reintroduzir os ácidos nucleicos parentais recor-rentes para aquele locus na população. Se ambas as sequências de parental recorrente e parental doador são observadas, o locus é chamado heterozigoto e a linhagem pode ser auto ou retrocruzada para fixação do parental recorrente. Esta lógica é seguida para os 95 loci e para o locus de CP4. A progênie com o maior número de loci parentais recorrentes e que continha o locus de CP4 é aprimorada por retrocru- zamento adicional a fim de continuar a introgressão adicional e fixação de ácidos nucleicos parentais recorrentes em todos os loci exceto no doador de ácidos nucleicos no locus de CP4.

[00132] A presente invenção antecipa ainda o uso dos métodos descritos neste pedido para introgressão de duas ou mais regiões ge- nômicas, que podem ser transgênicas ou convencionais (isto é, QTL). Exemplo 3: Impressão Digital Molecular Usando sequenciamento HT (Sequência direcionada por Impressão Digital)

[00133] Sequências nucleotídicas são a última avaliação e mensu- ração de constituição genética de plantas individuais e similaridades genéticas entre variedades/linhagens vegetais. As impressões digitais moleculares com base em perfis nucleotídicos podem fornecer a in- formação geral através do genoma que pode ser usado, entre outras aplicações, para avaliar a diversidade de germoplasma, auxiliar a seleção de parentais e verificadores de desempenho superior, investigar novos agrupamentos de germoplasma para alvos potenciais de intro- gressão, investigar agrupamentos de germoplasma novos ou existentes para regiões genômicas associadas com pelo menos um fenótipo de interesse, bem como proteger propriedades intelectuais do germo- plasma. Se duas linhagens forem suficientemente diversas, estão provavelmente em grupos heteróticos diferentes. Isto é, podem completar uma a outra, e, quando hibridizadas, ter uma alta probabilidade de gerar um cruzamento de melhoramento produtivo ou uma combinação híbrida. Por outro lado, a similaridade entre linhagens pode sugerir um cruzamento subótimo potencial. Além disso, a similaridade de impressão digital fornece uma base para avaliação da infração de propriedade intelectual.

[00134] Impressões digitais moleculares podem concentrar-se em regiões selecionadas do genoma e revelar a informação de sequência em loci específicos incluindo, mas não limitadas àquelas que são causais ou ligadas a traços de importância econômica. A presença ou ausência de sequências nucleotídicas particulares ou variantes particulares de sequência nucleotídica em um ou mais loci pode ser associada com traços de interesse, e usada para predizer o desempenho destes traços, e selecionar linhagens de alto desempenho em vez de fenoti- pagem direta. Impressões digitais moleculares podem ser geradas com base em sequências genômicas inteiras, que é caro e demorado, e muitas vezes não prático. A complexidade genômica pode ser reduzida usando vários métodos antes do sequenciamento para produzir impressões digitais que são baseadas em uma pequena representação (regiões selecionadas ou loci) do genoma. A presente invenção fornece uma abordagem mais eficiente e custo-eficiente do que a téc- nica atual, que envolve a detecção com base em PCR de uma pluralidade de polimorfismos genéticos. Neste pedido, regiões/loci polimórfi- cos selecionados são amplificados por PCR e então diretamente geno- tipados usando sequenciamento HT. PCR multiplex pode ser usada para amplificar tantos como centenas de milhares de tais regiões/loci simultaneamente. Amostras multiplexadas pelo uso de etiqueta de DNA podem ter vantagem adicional da informação de sequência mas- siva gerada por corrida por metodologias de sequenciamento HT.

[00135] Para impressão digital molecular, a primeira etapa deve selecionar as regiões polimórficas ou loci a serem usados para gerar impressões digitais moleculares com base em sequência nucleotídica. SNPs são uma fonte de loci candidatos embora não sejam a única fonte. O número de loci usados é determinado por muitos fatores incluindo, mas não limitados aos objetivos e orçamentos dos projetos bem como a estrutura dos genomas sob investigação.

[00136] Por exemplo, selecionamos 384 SNPs de milho para demonstrar o processo de impressão digital molecular embora a capacidade de uma corrida de sequenciamento HT única permita o uso de um conjunto muito maior de SNPs. Um canal único de célula de fluxo de Analisador de Genoma Illumina pode gerar aproximadamente 6 milhões de sequências de leitura por corrida de sequenciamento. Por isso, aproximadamente 300.000 loci podem ser genotipados simultaneamente com aproximadamente redundância de sequência de 20X. Se um menor número de loci for necessário, ~3,000 loci de 96 amostras diferentes podem ser sequenciados ao mesmo tempo pela multiplexa- ção de amostras (ver abaixo). Estes 384 SNPs são escolhidos de um maior agrupamento de SNPs com base em características incluindo até a distribuição no genoma de milho e valores de conteúdo de informação de polimorfismo (PIC) mais de 3,0 em uma tentativa de maximizar o conteúdo de informação. Uma porção dos SNPs é ligada a ca-racterísticas importantes relacionadas ao desempenho em milho.

[00137] A segunda etapa é para amplificar os loci selecionados usando PCR multiplex. Um par de oligonucleotídeos é sintetizado para cada SNP, com um deles pareando com a sequência nucleotídica que é 5' ao nucleotídeo polimórfico no SNP e outro complementar à região 3' do nucleotídeo polimórfico. Para resultados ótimos de sequencia- mento, embora não necessário, os dois oligonucleotídeos são separados por um comprimento que combina com o tamanho de fragmento sugerido por metodologias de sequenciamento HT (50 a 150 nucleotí- deos para o Analisador de Genoma Illumina), com um deles adjacente mas não sobrepondo o nucleotídeo polimórfico. Para aumentar a eficiência de PCR multiplex, os oligonucleotídeos para os 384 loci são desenhados para que interfiram um com outro pelo menos e que os 384 produtos de PCR resultantes tenham tamanho e conteúdo de GC similar. PCR em duas etapas com oligonucleotídeos bipartidos que contém uma sequência genoma-específica e um iniciador de PCR universal também podem ajudar a aumentar a eficiência de multiplexação de PCR. Quando PCR de duas etapas é usada, a metodologia de se- quenciamento HT empregada tem que ser capaz de sequenciar através do iniciador de PCR universal e oligonucleotídeos genoma- específicos para alcançar o nucleotídeo(s) polimórfico de interesse. De outra maneira, os produtos de PCR têm que ser processados para assegurar aquela leitura de sequenciamento no nucleotídeo(s) polimórfi- co. Outra opção seria usar o iniciador de sequenciamento como parte do iniciador de PCR universal (ver exemplo 2) para reduzir o número de nucleotídeos entre o iniciador de sequenciamento e o nucleotí- deo(s) a ser sequenciado.

[00138] Embora seja possível juntar loci "as you go" com base no objetivo do experimento e/ou os informativos do locus individual em uma dada população da amostra, para impressão digital molecular dos loci selecionados são normalmente usados como um conjunto fixo. Os 384 pares de oligonucleotídeos (um para cada locus escolhido) são diluídos em água e agrupados a uma concentração final de 5 nM de cada oligonucleotídeo.

[00139] DNA é preparado a partir de cada linhagem de milho sendo tomada as impressões digitais usando protocolos de extração padrão. Aproximadamente 100 ng de cada DNA (variação dependendo do número de loci usados e o tamanho do genoma) são dispensados em placas de microtítulo de 96 ou 384 poços dependendo do número de linhagens em um experimento e formato de multiplexação da amostra. Neste exemplo, tomamos as impressões digitais de 96 linhagens puras de milho. A cada poço, uma master mix de PCR é adicionada junto com DNA polimerase de alta fidelidade de acordo com os protocolos de PCR padrão. Finalmente, a mistura dos 384 pares de oligonucleotí- deos é adicionada a cada poço a uma concentração final de 0,5 nM por oligonucleotídeo e um volume final de 10 μL. Um exemplo de perfil de PCR seria 94°C por 1 min, 55°C por 2 min, e rampa de 55°C a 72°C em 7 min por 25 ciclos, seguidos por 72°C por 7 min. Qualquer protocolo de PCR pode ser usado enquanto produtos específicos o suficiente de todos os loci selecionados são gerados para sequenciamento HT. Para minimizar erros de amplificação por PCR e amplificação desigual entre loci, amplificação é controlada pela redução do número de ciclos e/ou quantidade de oligonucleotídeos. A meta é gerar a quantidade de produtos de PCR que são equivalentes ao DNA inicial sugerido pelas metodologias de sequenciamento HT.

[00140] Os produtos de PCR então são purificados de acordo com as exigências de sequenciamento HT antes de serem ligados aos adaptadores de sequenciamento. O DNA genômico molde usado em PCR não competirá com os produtos de PCR significativamente nas reações de sequenciamento a jusante devido ao grande tamanho do DNA genômico. Para resultados ótimos, o DNA molde pode ser removido dos produtos de PCR usando métodos que são conhecidos na técnica. De fato, se as colunas de purificação Qiagen são usadas para purificar os produtos de PCR para ligação, a maioria do DNA genômi- co será removida. Neste exemplo, conjuntos de PCR de purificação Qiagen (formato 96 poços, de acordo com instruções do fabricante) são usados para purificar os produtos de PCR e remover o DNA ge- nômico molde (DNA genômico liga-se às colunas muito estreitas devido ao seu tamanho e é difícil de eluir).

[00141] Finalmente, os produtos de PCR são ligados aos adaptadores de sequenciamento para sequenciamento HT em Analisador de Genoma Illumina. Outras metodologias são conhecidas na técnica e estão dentro do espírito e escopo desta invenção. De fato, se iniciadores universais são usados em um esquema de PCR de duas etapas e as sequências de adaptador são usadas como iniciadores universais, a ligação de produtos de PCR a adaptadores não é necessária uma vez que já são introduzidos através de PCR.

[00142] Para ter vantagem da informação de sequência massiva gerada pela tecnologia de sequenciamento do Analisador de Genoma Illumina, múltiplas amostras são agrupadas em reações de sequenci- amento e então desenroladas usando sequências de etiqueta de DNA. Etiquetas de DNA são normalmente 2 a 6 nucleotídeos (16 a 4096 etiquetas únicas para multiplexação) embora as sequências mais longas sejam desejadas para que as amostras sejam distintas por mais de uma diferença de nucleotídeo para reduzir o erro. O nível de multiple- xação da amostra é determinado pelo número de leituras de sequenci- amento gerado por corrida, o número de loci usados e o nível desejado de redundância, entre outros fatores. As etiquetas de DNA podem ser introduzidas em moldes de sequenciamento (produtos de PCR neste caso) usando vários métodos incluindo aquele no exemplo 2, isto é, incluindo as sequências de etiqueta de DNA em iniciadores de PCR. Ou versões diferentes dos adaptadores podem ser sintetizadas, com cada versão que tem uma das sequências de etiqueta de DNA únicas adicionadas na extremidade 3'; então cada versão é usada para uma das amostras em um conjunto de multiplexação. Neste exemplo, foi usado o conjunto de 96 adaptadores fornecidos por Analisador de Genoma Illumina, e cada adaptador, de acordo com instruções do fabricante, é ligado ao produto de PCR em um dos 96 poços na placa de PCR que equivale a uma das 96 amostras em um formato de multiple- xação de amostra. Os produtos ligados nos 96 poços então são combinados em um poço único, e usados para a reação de sequenciamen- to HT de acordo os protocolos de sequenciamento do Analisador de Genoma Illumina. A mesma mistura de oligonucleotídeo de 384 SNPs pode ser usada para amplificar mais amostras, e produtos de PCR de cada placa de 96 amostras podem ser ligados às 96 versões dos adaptadores e agrupados em um poço para o sequenciamento HT. Cada célula de fluxo do Analisador de Genoma Illumina pode processar até 8 agrupamentos por corrida de sequenciamento.

[00143] As sequências obtidas das reações de sequenciamento HT são primeiro depositadas de acordo com as sequências de etiqueta de DNA, destinando sequências às 96 amostras em um agrupamento. Dentro de cada compartimento, as sequências são ainda agrupadas com base nas sequências dos oligonucleotídeos que são adjacentes ao nucleotídeo(s) polimórfico e usadas para amplificar os produtos de PCR. Deve haver 384 grupos de sequências em cada compartimento, com cada um correspondendo a cada um dos 384 loci SNP. As sequências então são analisadas para determinar que alelo está presente em cada um dos 384 loci em cada uma das 96 amostras.

[00144] A informação de sequência é usada para determinar a presença ou ausência de uma sequência nucleotídica particular ou uma variante particular da sequência nucleotídica em um locus que pode ser usado para correlacionar o desempenho de traços economicamente importantes. Uma vez que a associação é estabelecida, com uma sequência particular ou variante de sequência que é a causa ou é justamente ligada ao traço(s) de interesse, a sequência pode ser usada para predizer o desempenho destes traços e selecionar parentais, verificadores ou progênies de alta performance em vez de fenotipagem direta. As sequências ou variantes de sequência também podem ser usadas para estimar, e com o objetivo de aumentar, a frequência de sequências favoráveis ou variantes de sequência.

[00145] Às vezes, as combinações de várias sequências nucleotídi- cas ou variantes de sequências nucleotídicas em múltiplos loci são mais preditivas de certos traços. Usando a sequência ou combinações de variantes em loci estreitamente ligados, isto é, definindo haplótipos em janelas haplotípicas predeterminadas, é mais informativo e prediti- vo do que tratar dos loci individualmente. Outra vantagem de usar combinações de sequências em loci ligados consiste em que somente um subconjunto de loci é necessário para ter a informação do genoma total porque os cromossomos são herdados em blocos em desequilíbrio de ligação (janelas haplotípicas) e informação de sequência em loci selecionados (loci de etiquetagem) de um bloco pode dar a informação para todos os loci no bloco.

Exemplo 4: Impressão Digital Molecular de Sojas Usando sequencia- mento HT (Sequência direcionada por Impressão Digital)

[00146] A presente invenção fornece uma abordagem mais eficiente e custo-eficiente do que a técnica atual, que envolve a detecção com base em PCR de uma pluralidade de polimorfismos genéticos. Neste pedido, de regiões/loci polimórficos de soja selecionados foram amplificados e então diretamente genotipados usando sequenciamento HT. No presente exemplo, 1536 loci foram avaliados usando tecnologia de sequenciamento HT no Analisador de Genoma Illumina. O presente exemplo também fornece métodos para sequenciamento indireto, em que etiquetas alelo-específicas foram incorporadas no molde correspondente para que somente a etiqueta tenha que ser sequenciada para inferir o polimorfismo.

[00147] Como representado nas figuras 2 a 5, há múltiplas estratégias para redução de complexidade genômica. Com o objetivo de tomar as impressões digitais, cada um pode desejar empregar um ou mais dos métodos para redução de complexidade conhecidos na técnica. No presente exemplo, ensaios para SNP baseados em PCR existentes foram utilizados para polimorfismos alvo conhecidos usando iniciadores de PCR correspondentes ao SNPs como mostrado na Figura 4 (impressão digital direta) ou extensão/ligação alelo-específica como ilustrado na Figura 5 (impressão digital indireta). Utilizar uma biblioteca SNP existente é particularmente vantajoso para referenciar um ou mais bancos de dados com a informação histórica de genótipo com um conjunto principal de SNPs.

[00148] Após, a incorporação de etiquetas de DNA é usada a fim de permitir a multiplexação da amostra. No presente exemplo, a cada amostra em um conjunto multiplex foi destinada uma etiqueta de DNA única, isto é, uma etiqueta de sequência que se diferencia por pelo menos um par de bases de outros códigos de barras no conjunto. Em um aspecto preferencial, a porcentagem de bases C e G é balanceada para minimizar o viés no processo de sequenciamento. A etiqueta de DNA pode variar no comprimento de aproximadamente 2 a aproximadamente 20 bp. No presente exemplo, com 96 amostras (amostras de germoplasma), 5 sequências de bp foram usadas para etiquetas de DNA com cada etiqueta de DNA que se diferencia por 2 ou mais nu- cleotídeos (Tabela 2). Estas etiquetas de DNA de amostra foram in-corporadas nas etiquetas alelo-específicas e estes oligonucleotídeos alelo-específicos foram adicionados aos projetos de extensão/ligação alelo-específicos usando PCR.

[00149] Em outros aspectos, as etiquetas alelo-específicas podem ser adicionadas aos produtos de extensão/ligação usando uma reação de ligação.Tabela 2: Etiquetas de DNA de 5 nucleotídeos exemplares em 96 poços

[00150] Este exemplo de impressão digital incluiu 1536 SNPs de soja, em que cada SNP foi tratado como bialélico e dessa forma tinha dois oligonucleotídeos alelo-específicos (etiqueta alelo-específica mais a etiqueta de DNA da amostra) e um oligonucleotídeo locus-específico (Figura 7). O oligonucleotídeo locus-específico compreendeu uma sequência de adaptador universal na extremidade 3', neste pedido GTCTGCCTATAGTGAG, embora a sequência de adaptador universal também possa ser parte do iniciador necessário para o sequenciamen- to a jusante (isto é, o iniciador Illumina PCR 2.1). Os oligonucleotídeos alelo-específicos foram aproximadamente 15 nucleotídeos em comprimento, com temperaturas de fusão balanceadas.

[00151] Para preparar o molde para o sequenciamento, DNA foi preparado para cada uma das amostras teciduais como descrito acima. Para gerar os produtos de extensão/ligação alelo-específicos, as etiqueta alelo-específicas e oligonucleotídeos locus-específicos foram misturados com o molde, com um aquecimento inicial a 70°C, então resfriado gradualmente, seguido por 15 minutos a 45°C para reações de DNA polimerase e ligase, como representado na Figura 5.

[00152] Após extensão/ligação, os produtos foram purificados usando contas magnéticas como conhecido na técnica. Uma PCR subsequente foi conduzida para adicionar etiqueta de DNA da amostra, que foi adicionada ao lado da etiqueta alelo-específica como ilustrado na Figura 12. 96 (x2) iniciadores de sentido direto foram usados, correspondendo a 96 amostras de germoplasma. Além disso, o iniciador de sequenciamento genômico do Analisador de Genoma Illumina foi adicionado à extremidade 5', em que a extremidade 5' da sequência de leitura: ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais códigos de barra de amostra 5-nt (96 versões) mais 15/16-nt códigos de alelo (2 versões). Um iniciador de sentido reverso único foi usado, que equivale à sequência de adaptador universal, e o iniciador de PCR 2.1 do Analisador de Genoma Illumina foi adicionado à extremidade 5' deste iniciador de sentido reverso, em que a extremidade 3' das sequências de leitura: CAAGCAGAAGACGGCATACGAGCTCTT- CCGATCT mais CTCACTATAGGCAGAC. Master mix de PCR foi adi- cionada a 5 μL de produtos de extensão/ligação, junto com 0,3 U de DNA polimerase de alta fidelidade de acordo com o protocolo de PCR padrão, com uma concentração de reação final de iniciadores de 0,16 μM, dNTPs 0,1 mM em um volume final de 25 μL. A placa foi aquecida a 95°C por nove minutos para desnaturar o DNA. Quinze ciclos de PCR então foram completados usando as seguintes condições: 94°C por 30 s, 50°C por 30 s, 72°C por 2 min, seguidos por uma extensão final de 10 min a 72°C.

[00153] Aproximadamente 5 a 10 ng do molde purificado foram amplificados com PCR enriquecida por especificações do Analisador de Genoma Illumina. A PCR enriquecida também adiciona o adaptador necessário para reação de PCR ponte a jusante se os adaptadores já não foram incorporados nos iniciadores. O produto da PCR enriquecida é purificado, novamente usando métodos de purificação de PCR conhecidos na técnica, e o molde resultante é sequenciado por especificações do Analisador de Genoma Illumina.

[00154] As sequências obtidas da reação de sequenciamento foram depositadas de acordo com a sequência de etiqueta de DNA e sequência de etiqueta alelo-específica. A figura 13 mostra a taxa de êxito dos marcadores e amostras de soja, com quase 90% dos marcadores e entradas de germoplasma que têm uma taxa de chamada entre 90 e 100%. O presente exemplo usou etiquetas alelo-específicas que oferecem uma vantagem no desenrolamento da sequência tal que o ge- nótipo de uma amostra possa ser destinado com base nos 20 primeiros pares de bases uma vez que os 5 primeiros pares de bases identificaram a amostra de germoplasma e os 15 pares de bases seguintes representaram o alelo. Em outras modalidades, a etiqueta de DNA pode ser tão curta como 2 pares de bases e a etiqueta alelo-específica pode ser tão curta como dois pares de bases para reduzir ainda a sequência de leitura necessária ao genótipo. Em uma modalidade prefe- rencial, os métodos da presente invenção antecipam inferir o genótipo com base em somente uma etiqueta de 2 pares de bases, dependendo do grau de multiplexação. Ainda em outro aspecto, os métodos da presente invenção antecipam inferir o genótipo com base em um par de base única.

[00155] A capacidade de gerar simultaneamente grandes quantidades de dados de impressão digital, ligados com a flexibilidade para saturar regiões específicas com a sequência contígua ou utilizar sítios polimórficos conhecidos de dados de impressão digital através de um haplótipo, cromossomo, ou até genoma fornece um instrumento valioso para atividades de melhora de germoplasma, trabalho experimental para identificar regiões genômicas de interesse, garantia de qualidade e controle, e monitoramento de proteção de IP.

Exemplo 5: Sequenciamento para redução de complexidade usando iniciadores randômicos etiquetados com DNA

[00156] Um aspecto desta invenção é a capacidade de sequenciar simultaneamente múltiplos moldes de ácidos nucleicos que podem compreender amostras de indivíduos diferentes ou indivíduos agrupados bem como múltiplos loci.

[00157] Neste exemplo, foi utilizado iniciadores randômicos (hexâ- meros a decâmeros dependendo do projeto) marcados com um sistema de codificação. O sistema de codificação consistirá de uma série de sequências nucleotídicas não nativas variando de dois nucleotídeos à metade do comprimento do iniciador randômico. Misturas de iniciadores randômicos marcados com pelo menos duas etiquetas de DNA serão criadas para amplificar e identificar qualquer número de geno- mas ou porções de genomas. As sequências amplificadas então são determinadas por qualquer número de métodos de sequenciamento incluindo, mas não limitados a sequenciamento de Sanger usando ABI 3730 ou plataforma similar, pirossequenciamento usando um 454 ou plataforma similar, e sequenciamento por síntese usando um instrumento de sequenciamento Analisador de Genoma Illumina ou plataforma similar. É antecipado que este método seja usado em novas tecnologias de sequenciamento quando aparecerem.

[00158] Este aspecto da presente invenção permitirá a pesquisadores agrupar amostras de DNA que poupam recursos monetários e de tempo valiosos no sequenciamento. Para avaliar múltiplos genomas ou regiões genômicas simultaneamente, cada molde será amplificado independentemente com um conjunto diferente de iniciadores randômi- cos etiquetados com DNA. O comprimento do iniciador randômico deve ser ditado pelo nível de complexidade do genoma; as sequências mais repetidas, mais longo o iniciador será a fim de excluir seletivamente estas regiões. Uma vez que os genomas são amplificados, podem ser purificados por métodos padrão específicos para uma dada tecnologia de sequenciamento. Para produzir etapas posteriores mais fáceis, os iniciadores randômicos também podem ser marcados com uma molécula de captura, tal como biotina.

[00159] Após amplificação, o DNA purificado pode ser sequenciado por quaisquer métodos de sequenciamento de ácido nucleico e comparados para identificar diversidade genômica e que genomas específicos contribuem para a diversidade. A presente invenção pode ser usada sem as etiquetas de DNA mas então uma vez agrupada para o sequenciamento não há nenhum modo de "desagrupar" as sequências e avaliação adicional através de sequenciamento ou reações de geno- tipagem específicas são necessárias.

[00160] Este método fornece um método altamente novo de aplicar etiqueta de sequência para sequenciamento genômico multiplex e ge- notipagem.

Exemplo 6: Exploração de alelos raros.

[00161] O uso de dados de sequência de ácidos nucleicos direta permite a detecção de alelos raros ou haplótipos no genoma de uma planta. Isto é particularmente importante para utilizar regiões genômi- cas raras mas importantes em um programa de melhoramento, tal como um locus de resistência à doença do germoplasma exótico ou mal adaptado, em que os alelos raros são definidos como ocorrendo em baixa frequência no agrupamento de germoplasma e potencialmente sendo anteriormente não detectado no agrupamento de germoplasma. O presente exemplo fornece métodos para detecção de alelo raro, desenho experimental (isto é, seleção de germoplasma exótico, germo- plasma com fenótipo de interesse conhecido, classificação de gp não elite), e utilidade (isto é, programas de introgressão de variantes raras benéficas de traços específicos e/ou expandir diversidade de germo- plasma em um ou mais agrupamentos de germoplasmas específicos tal como por zona de maturidade).

[00162] O grupo de germoplasma compreendendo pelo menos 2 entradas de germoplasma é fornecido. Fatores não limitantes que influenciam na inclusão em um projeto de sequenciamento de pelo menos um locus incluem a origem ou geografia de germoplasma, pelo menos um genótipo de interesse, pelo menos um fenótipo de interesse, desempenho em cruzamentos de híbridos, desempenho de um transgene e outras observações do germoplasma ou previsões que relacionam o germoplasma e seu desempenho.

[00163] Usando os métodos e abordagens apresentadas neste pedido, pelo menos um par de bases é sequenciado por pelo menos 2 entradas de germoplasma. Usando métodos conhecidos na técnica por alinhamento de sequência e avaliação in silico, diferenças e similaridades são identificadas e ligadas à fonte de entrada de germoplas- ma. Seguinte à identificação de alelos de interesse, decisões de seleção podem ser tomadas.

[00164] No caso de exploração de alelo raro, o alelo raro pode ser associado com um fenótipo conhecido. Além disso, a identificação do alelo raro pode fornecer a base para fenotipagem adicional, estudos de associação e outros ensaios para avaliar o efeito do alelo raro no fenótipo vegetal e desempenho de melhoramento. Além disso, a sequência de ácido nucleico direta do alelo raro pode ser imediatamente utilizada para uso como um marcador através de métodos conhecidos na técnica e descritos neste pedido para detectar este alelo raro em entradas de germoplasma adicionais, ser usada como uma base para seleção, e facilitar introgressão do alelo raro em entradas de germo- plasma sem o alelo raro. Em outros aspectos, o alelo raro é isolado e o ácido nucleico isolado é transformado em uma planta usando métodos conhecidos na técnica a fim de conferir um fenótipo preferencial à planta recipiente. A planta recipiente pode ser posteriormente usada como um doador para programas de conversão para cruzar com o germoplasma de elite com objetivos de integração de traço.

[00165] A identificação de alelos raros é útil para utilizar o potencial genético total de qualquer agrupamento de germoplasma, isto é, conjunto de 2 ou mais entradas de germoplasma. Isto é útil para determinar a estratégia de cruzamento de melhoramento, aumentar a diversidade entre 2 ou mais agrupamentos de germoplasma, avaliar agrupamentos heteróticos e informar decisões de melhoramento. Sequenci- amento de alto rendimento tanto acelera a identificação dos alelos como permite a detecção simultânea de alelos raros e identificação de marcadores associados.

Claims

1. Método de melhoramento assistido por marcador, caracterizado pelo fato de que compreende: fornecimento de uma população de melhoramento compreendendo pelo menos duas plantas e obtenção de uma pluralidade de amostras de DNA vegetal das mesmas; amplificação e etiquetagem de pelo menos um locus selecionado compreendendo um polimorfismo de cada uma da referida pluralidade de amostras de DNA vegetal com um iniciador específico de locus e pelo menos uma etiqueta de DNA para preparar uma pluralidade de amostras de DNA amplificadas etiquetadas, em que cada amostra de DNA obtém uma etiqueta de DNA única; combinação de pelo menos duas das amostras de DNA amplificadas etiquetadas para criar um grupo de amostras de DNA amplificadas etiquetadas; sequenciamento do referido grupo de amostras de DNA eti-quetadas; comparação da informação de sequência do dito grupo de amostras de DNA etiquetadas com uma sequência consenso para identificar a presença ou ausência do referido locus compreendendo o referido polimorfismo, em que as amostras de DNA individuais são identificadas pelo etiqueta de DNA; e seleção de uma ou mais progênies da população de melhoramento com base na presença do pelo menos um locus selecionado compreendendo o referido polimorfismo na referida amostra de DNA vegetal.

2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a planta é selecionada do grupo consistindo em uma cultura de forragem, cultura de semente oleaginosa, cultura de grão, cultura de fruta, plantas ornamentais, cultura de hortaliças, cultura de fibra, cultura de tempero, cultura de noz, cultura de turfa, cultura de açúcar, cultura de bebida, cultura de tubérculo, cultura de raiz, e cultura florestal.

3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o traço fenotípico é selecionado a partir do grupo consistindo em tolerância à herbicida, resistência à doença, resistência a inseto ou praga, metabolismo de ácido graxo, proteína ou carboidrato alterado, rendimento de grão aumentado, óleo aumentado, conteúdo nutricional aumentado, taxas de crescimento aumentadas, tolerância a estresse aumentada, maturidade preferencial, propriedades organolép- ticas aumentadas, características morfológicas alteradas, esterilidade, outros traços agronômicos, traços para usos industriais, ou traços melhorados de apelo ao consumidor.

4. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a sequência de ácidos nucléicos analisada é uma etiqueta alelo-específica.

5. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o polimorfismo é selecionado do grupo que consiste em polimorfismos de um único nucleotídeo (SNPs), inserções ou dele- ções na sequência de DNA (Indels), repetições de sequência simples da sequência de DNA (SSRs), um polimorfismo de comprimento de fragmento de restrição, e uma variação no número de cópias.

6. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o referido sequenciamento é uma única reação de sequenciamento de alto rendimento.

7. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o referido pelo menos um locus selecionado compreende 96 loci selecionados amplificáveis por 96 iniciadores específicos de locus ou 384 loci selecionados amplificáveis por 384 iniciadores específicos de locus.

8. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a referida pluralidade de amostras de DNA de planta compreende 96, 192 ou 386 amostras diferentes.