BR112017012891B1 - Método de seleção de indivíduos - Google Patents

Método de seleção de indivíduos Download PDF

Info

Publication number
BR112017012891B1
BR112017012891B1 BR112017012891-8A BR112017012891A BR112017012891B1 BR 112017012891 B1 BR112017012891 B1 BR 112017012891B1 BR 112017012891 A BR112017012891 A BR 112017012891A BR 112017012891 B1 BR112017012891 B1 BR 112017012891B1
Authority
BR
Brazil
Prior art keywords
individuals
populations
breeding
population
estimation
Prior art date
Application number
BR112017012891-8A
Other languages
English (en)
Other versions
BR112017012891A2 (pt
Inventor
Frank Technow
Liviu Radu Totir
Original Assignee
Pioneer Hi-Bred International, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Hi-Bred International, Inc filed Critical Pioneer Hi-Bred International, Inc
Publication of BR112017012891A2 publication Critical patent/BR112017012891A2/pt
Publication of BR112017012891B1 publication Critical patent/BR112017012891B1/pt

Links

Classifications

    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • A01H1/04Processes of selection involving genotypic or phenotypic markers; Methods of using phenotypic markers for selection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Developmental Biology & Embryology (AREA)
  • Environmental Sciences (AREA)
  • Botany (AREA)
  • Physiology (AREA)
  • Ecology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Exposure And Positioning Against Photoresist Photosensitive Materials (AREA)

Abstract

método de seleção de indivíduos. é revelado um modelo de regressão de genoma inteiro bayesiano multinível e seu desempenho de predição comparado àquele do modelo bayesa popular aplicado a cada população separadamente (nenhuma combinação) e ao conjunto de dados combinados (combinação completa). no caso de tamanhos populacionais pequenos (por exemplo, < 50), a combinação parcial aumentou a precisão da predição em comparação a nenhuma combinação ou combinação completa para populações representadas no conjunto de estimação. a combinação parcial com modelos multiníveis pode fazer uso ótimo de informação em conjuntos de estimação de várias populações.

Description

Antecedentes
[001] O tamanho do conjunto de estimação é um determinante importante da precisão da predição genômica. Os programas de melhoramento de plantas são caracterizados por um elevado grau de estruturação, particularmente em populações. Isso dificulta o estabelecimento de conjuntos grandes de estimação para cada população.
[002] O uso da seleção genômica no melhoramento de animais e plantas baseia-se na capacidade de gerar valores de melhoramento genômicos estimados (GEBV, do inglês “genomic estimated breeding values”) precisos. Um determinante importante da precisão da predição é o tamanho do conjunto de estimação. No melhoramento de animais, a montagem de conjuntos grandes de estimação de raça única é relativamente simples para raças leiteiras como Holstein Friesian, onde a seleção genômica é utilizada com maior sucesso até o momento. No entanto, no caso de algumas raças de bovinos leiteiros e, particularmente, no caso de raças de bovinos de corte, a montagem de conjuntos de estimação de raça única de tamanho suficiente frequentemente não é possível. A criação de conjuntos de estimação de várias raças ao combinar dados obtidos de várias raças é, portanto, de grande interesse e objeto de pesquisa ativa.
[003] Uma situação similar existe no melhoramento de plantas, que é caracterizado por um elevado grau de estrutura induzida pelo criador. Essa estrutura resulta da importância de se manter grupos heteróticos distintos para o aproveitamento máximo de heterose, do uso de populações de melhoramento biparentais distintas e a necessidade de programas de melhoramento especializados que visam características ou ambientes específicos. Isso necessita que os recursos de fenotipagem e genotipagem disponíveis a um programa de melhoramento sejam alocados a várias populações, o que pode impedir a criação de conjuntos grandes de estimação para cada população. Vários estudos, portanto, investigaram o mérito de conjuntos de estimação combinados que combinam populações ou até mesmo grupos heteróticos.
[004] No entanto, a combinação de conjuntos de estimação é complicada devido às diferenças em propriedades genéticas entre as populações, tais como as relacionadas ao desequilíbrio de ligação, frequências alélicas ou estrutura da relação. Pode ser esse o motivo pelo qual o uso de conjuntos de estimação combinados falharam em aumentar a precisão da predição em algumas aplicações no melhoramento de plantas e animais.
Descrição das Figuras
[005] A FIG. 1 é uma visualização gráfica do modelo multiníveis (A) e do modelo BayesA convencional (B).
[006] A FIG. 2 é uma visualização gráfica da estratégia de teste para avaliação da precisão da predição. O conjunto de estimação compreende A1 e A2 das populações P 1 e P 2 (conjunto n). A precisão da predição das linhagens de populações representadas no conjunto de estimação (rn) foi computada a partir de A1 e A2, a precisão da predição de linhagens de populações não representadas no conjunto de estimação de linhagens em P3 e P 4 (conjunto n).
Descrição Detalhada
[007] Foi proposto usar conjuntos de estimação separados para cada população, mas derivar precedentes específicos de posição genômica usando dados de outras populações. Desse modo, propriedades genômicas únicas de cada população poderiam ser explicadas enquanto se utiliza informação de outras populações. Uma abordagem similar mais formal é a combinação parcial, facilitada por modelos Bayesianos multiníveis. Em modelos multiníveis, efeitos de marcadores específicos são estimados para cada população. No entanto, as médias precedentes desses efeitos de marcadores específicos, que poderiam ser interpretados como efeitos de marcadores gerais ou inespecíficos, são estimadas a partir de dados de todas as populações, simultaneamente com os efeitos de marcadores inespecíficos. Como os efeitos de marcadores específicos são reduzidos em direção aos efeitos gerais, os primeiros são ainda informados por dados das outras populações até um certo grau. A combinação parcial parece, portanto, ser um meio-termo entre nenhuma combinação (efeitos de marcadores específicos estimados a partir de dados da população específica apenas) e combinação completa (efeitos de marcadores comuns estimados a partir de conjuntos de estimação combinados).
[008] A combinação de populações aumenta o tamanho do conjunto de estimação, mas ignora as características genéticas exclusivas de cada uma. Uma possível solução é a combinação parcial com modelos multiníveis, que permite estimar efeitos de marcadores específicos para populações ao mesmo tempo levando em consideração informação das populações.
[009] Os objetivos foram (i) demonstrar o uso de modelos de regressão de genoma inteiro Bayesianos multiníveis para a predição genômica e (ii) investigar cenários nos quais a combinação parcial poderia ser superior a nenhuma combinação ou combinação completa de conjuntos de estimação. Essas investigações se basearam em dois conjuntos de dados de melhoramento de milho publicamente disponíveis e foram fundamentadas por um estudo de simulação.
Materiais e Métodos Modelo de regressão de genoma inteiro multinível
[0010] O modelo estatístico ajustado aos dados é onde yij é o valor fenotípico observado do iésimo indivíduo da jésima população e μij seu previsor linear. Os dados fenotípicos yij foram centrados para média zero e escalonados para variância de unidade. A função de densidade normal, que é usada como modelo de dados, é denotada como N com denotando a variância residual. O intercepto comum foi β0. Finalmente, ujk denota o efeito aditivo do késimo marcador de polimorfismo de nucleotídeo único (SNP, do inglês “single nucleotide polymorphism”) bialélico na população j. O genótipo do indivíduo i da população j no marcador k foi representado por zijk e denota o número de alelos de referência, centrado por duas vezes a frequência do alelo de referência. O alelo selecionado como alelo de referência dependia do conjunto de dados e é descrito abaixo. Os efeitos ujk foram apenas estimados quando o marcador correspondente k era polimórfico na população j. Senão era igualado a 0 e tratado como uma constante.
[0011] Uma exibição gráfica da montagem de distribuição precedente hierárquica é mostrada na Figura 1A. O precedente de ujk é onde uk é o efeito geral do késimo marcador e o parâmetro de variância Y k2 quantifica os desvios dos efeitos específicos Ujk de uk. A diminuição em direção a uk é mais forte quanto menor é . Ambos os parâmetros u k e estão, eles próprios, associados com distribuições precedentes e estimados a partir dos dados. Para uk isso é .Aqui, o parâmetro de variância o k2 controla a quantidade de diminuição em direção ao 0. Está associado com um precedente qui-quadrado inverso escalonado com grau de liberdade de 4,001 e parâmetro de escala . O precedente para u k corresponde, portanto, ao precedente de "BayesA".
[0012] No caso do parâmetro de variância , que é um precedente de distribuição normal em yk com parâmetro médio m e desvio padrão d, deixado truncado em zero. A média da distribuição truncada N(m, d2, 0 < a,b = “), que é uma função de m, d e os pontos de truncamento a e b, pode ser interpretada como o desvio "típico" dos efeitos de marcadores específicos ujk de uk. Valores mais altos da média de indicam maiores desvios e vice versa. Esse parâmetro pode ser, portanto, usado para quantificar a divergência populacional.
[0013] Um precedente uniforme Uni(0,001, 0,5) é usado para os hiperparâmetros, m e d. O precedente para o intercepto β0 é uma distribuição normal com média 0 e uma variância muito grande. No caso da variância residual , um precedente de distribuição uniforme no intervalo [0, 1] em foi especificado, que está de acordo com recomendações para precedentes não informativos em componentes de variância.
[0014] Amostras da distribuição posterior foram selecionadas com amostragem de Gibbs, implementada no ambiente de amostragem JAGS de Gibbs. O número total de amostras usado para inferência foi 1000, selecionado de uma cadeia única com comprimento de 510000. As primeiras 10000 amostras foram descartadas como burn in e cada 500-ésima amostra subsequente armazenada. Essas configurações garantiram convergência e um tamanho de amostras eficaz (ESS, do inglês “effective sample size”) de > 100 para todos os parâmetros (ESS de uk e ujk foram tipicamente > 500).
[0015] O ESS foi calculado com o pacote R CODA, que foi também usado para monitorar a convergência usando gráficos diagnósticos.
Modelo de regressão de genoma inteiro convencional
[0016] O método de regressão de genoma inteiro Bayesiano "BayesA” foi utilizado, com modificações relacionadas com o hiperparâmetro S2 (veja a Figura 1B para uma representação gráfica). O modelo linear é que é igual ao modelo (1), exceto pelo índice populacional j ser excluído dos efeitos de marcadores uk. No caso de nenhuma combinação, o modelo foi aplicado a cada população por vez, para combinação completa com o conjunto de dados coletivos. Para oe 2, um precedente qui-quadrado inverso escalonado impróprio com grau de liberdade de -1 e escala igual a zero foi utilizado. Isso é equivalente a um precedente uniforme em oe, como é usado para o modelo multinível, mas faz uso da conjugância.
[0017] O amostrador de Gibbs de BayesA foi implementado como uma rotina C compatível com o ambiente do programa estatístico R. Novamente, o número total de amostras usado para inferência foi 1000, selecionado de uma cadeia única de comprimento de 510000, com burn in de 10000 e intervalos de afinamento de 500.
Procedimento de estimativa, predição e teste
[0018] Digamos que n denote o conjunto de P populações representadas no conjunto de estimação e o conjunto de indivíduos de uma população em n como Ap, onde p é indicador das populações em n. Uma representação gráfica é apresentada na Figura 2. Além disso, denotemos os indivíduos de uma população em n que não estão em Ap como Ap e o conjunto de populações que não estão em n como n. As populações em n serão chamadas de populações "novas". O conjunto de estimação compreendeu, portanto, todos os indivíduos que pertenciam a Ap , para p E π. O conjunto de teste usado para calcular a precisão da predição compreendeu indivíduos em Ap de populações em π e todos os indivíduos das populações em π. As observações fenotípicas de indivíduos de teste foram mascaradas no procedimento de estimação. A separação de populações em π e π e de indivíduos dentro de uma população em Ap e Ap foi realizada aleatoriamente.
[0019] Dentro de cada população, a precisão da predição foi computada como a correlação entre GEBVs e os valores fenotípicos observados de indivíduos no conjunto de teste. As médias das precisões de predição dentro de populações foram subsequentemente obtidas para populações em π e π. Essas precisões de predição dentro de populações médias serão doravante chamadas de rπ e r~. Portanto, rπ e r- correspondem à precisão de predição para populações representadas e não representadas no conjunto de estimação, respectivamente.
[0020] Ao usar a combinação parcial, GEBVs de indivíduos em A foram previstos usando as médias posteriores dos efeitos de marcadores estimados para a população correspondente (ou seja, Ujk). GEBVs de indivíduos de populações em π foram previstos usando as médias posteriores dos efeitos de marcadores (inespecíficos) gerais uk.
[0021] Ao utilizar a combinação completa, GEBVs de todos os indivíduos no conjunto de teste foram previstos a partir das médias posteriores dos efeitos de marcadores uk estimados a partir do conjunto de dados coletivos com o modelo (4).
[0022] Finalmente, quando nenhuma combinação é utilizada, GEBVs de indivíduos em Ap foram previstos usando as médias posteriores dos efeitos de marcadores uk obtidos após aplicação do modelo (4) aos dados de estimação do conjunto correspondente A . A abordagem de nenhuma combinação não fornece uma forma direta de prever GEBVs de indivíduos de populações em n. Portanto, r-^ não foi avaliada para a abordagem de nenhuma combinação.
Aplicação a populações de milho de mapeamento associativo aninhado (NAM, do inglês “nested association mapping”)
[0023] O conjunto de dados de NAM foi obtido de http://www.panzea.org. Compreendeu 4699 linhagens isogênicas recombinantes (RILs, do inglês “recombinant inbred lines”) de 25 cruzamentos biparentais entre um conjunto geneticamente diverso de linhagens isogênicas de milho e a linhagem B73 como genitor comum. O tamanho médio da população foi de 188. As RILs foram genotipadas com 1106 marcadores SNP polimórficos cobrindo o genoma inteiro. O alelo não B73 foi definido como o alelo de referência. Todos os SNP eram bialélicos e o alelo de referência correspondeu, portanto, ao mesmo nucleotídeo em todas as 25 populações. Para facilitar as computações, um conjunto afinado de 285 marcadores foi usado, selecionado de modo a ter, em média, um marcador por intervalo de 5 cM. Uma densidade de um marcador por intervalo de 10 cM é suficiente para a predição genômica na população NAM. As características dias até à formação de sedas (DS), altura da espiga (AE), comprimento da espiga (CE), resistência à mancha foliar (SLB, do inglês “southern leaf blight”), medições de amido no infravermelho próximo (AP) e ângulo das folhas superiores (AFS) foram analisadas e fenotipadas em testes de campo de vários ambientes. Os registros fenotípicos usados para o ajuste dos modelos eram médias para os fenótipos de ambiente único. O número de ambientes foi 10, 11, 8, 3, 7 e 9 para DS, AE, CE, SLB, AP e AFS, respectivamente. As características selecionadas representam as principais categorias de características disponíveis: componente de rendimento (CE), agronômica (AE), resistência a doença (SLB), florescimento (DS), qualidade (AP) e morfologia (AFS).
[0024] Para investigar o efeito do número total de linhagens N, número de populações P e número de linhagens por população Np no conjunto de estimação na precisão da predição e o desempenho relativo das abordagens de combinação, as seguintes combinações de P e Np foram consideradas: P = 5 e Np = 50 e 100, P = 10 e Np = 25, 50 e 100, P = 20 e Np = 12,5, 25, e 50. Para P = 20 e Np = 12,5, obtivemos amostras de 19 populações com 12 indivíduos e uma com 22, o que resulta num Np médio de 12,5. As combinações P e Np resultaram, portanto, em N de 250, 500 ou 1000. Para cada combinação de característica, P e Np, 50 conjuntos de dados de estimação-teste foram gerados por repetição da amostragem de π e Ap como descrita acima. Durante o experimento, as três abordagens de combinação foram aplicadas aos mesmos conjuntos de dados. A variação da amostragem entre diferentes conjuntos de dados não entra, portanto, nas comparações entre as abordagens de combinação.
Aplicação a populações de milho biparentais interconectadas (BI)
[0025] Esse conjunto de dados foi obtido do suplemento de Riedelsheimer et al. (2013). Compreendeu 635 linhagens duplo- haplóides (DH) de cinco populações biparentais com um tamanho médio de 127. As populações foram derivadas de cruzamentos entre quatro linhagens isogênicas de European Flint. Para todas as linhagens DH, 16741 marcadores SNP polimórficos para as populações estavam disponíveis. Genótipos de marcadores faltando foram substituídos por duas vezes a frequência do alelo de referência, que foi o alelo com a menor frequência. Ao analisar os dados, utilizamos um conjunto afinado de 285 marcadores. Como o conjunto de dados não incluiu um mapa dos marcadores, os marcadores foram selecionados aleatoriamente.
[0026] As linhagens DH foram fenotipadas em testes de campo de vários ambientes para gravidade de podridão da espiga por Giberela (PEG), uma doença fúngica causada por Fusarium graminearum, teor de desoxinivalenol (DON, uma importante micotoxina produzida pelo fungo), comprimento da espiga (CE), fileiras de grãos (FG) e grãos por fileira (GpF). Uma descrição mais detalhada desse conjunto de dados pode ser encontrada em Riedelsheimer et al. (2013) e Martin et al. (2012).
[0027] Como descrito acima, as populações foram aleatoriamente divididas em Ap e Ap. No entanto, como havia apenas cinco populações no total, nenhuma população de n foi excluída. O conjunto n estava, portanto, vazio e r-n não foi avaliada.
[0028] Os conjuntos A compreenderam 25%, 50% e 75% das linhagens em cada população, o que correspondeu a um Np médio de 31, 63 e 95, respectivamente. Para cada característica e valor percentual de indivíduos de estimação, 100 conjuntos de dados de estimação-teste gerados, cada vez também com reamostragem do subconjunto de 285 marcadores.
Aplicação a um conjunto de dados simulado
[0029] Um estudo de simulação foi conduzido para investigar especificamente o desempenho das abordagens de combinação com níveis crescentes de diferenças em efeitos de QTL dentre populações. As bases da simulação foram os genótipos de marcadores das linhagens nas populações NAM. Para simular valores genéticos, 20 locos de marcadores foram aleatoriamente selecionados como QTL, que foram subsequentemente removidos do conjunto de marcadores observados. Os efeitos gerais aditivos aq foram obtidos de uma distribuição normal padrão. Subsequentemente, os efeitos de QTL população-específicos ajq foram amostrados de N(aq,Tq2) . O parâmetro de variância T2 foi selecionado de modo que o desvio padrão relativo (DPr), ou seja, Tq/aq , fosse igual a 2, 1, 0,5, 0,25 e 0,0. Quanto maior o DPr, menos similares são os efeitos de QTL população- específicos. Valores genéticos verdadeiros foram obtidos ao somar os efeitos de QTL ajq de acordo com os genótipos de QTL de cada indivíduo. Finalmente, valores fenotípicos foram simulados por adição de uma variável de fundo de distribuição normal aos valores genéticos verdadeiros. A variância da variável de fundo foi selecionada de modo que a hereditariedade das populações fosse igual a 0,70. A média na hereditariedade familiar aumentou necessariamente com DPr decrescente, e era 0,53, 0,58, 0,64, 0,68 e 0,70 com DPr de 2, 1, 0,5, 0,25 e 0,0, respectivamente.
[0030] O conjunto n compreendeu P = 10 populações e os conjuntos Ap tinham tamanho Np = 25. Para cada valor de DPr, foram gerados 50 conjuntos de dados de estimação-teste. As posições e efeitos de QTL foram aleatoriamente gerados novamente para cada conjunto de dados. Nesse caso também, um conjunto afinado de 285 marcadores foi usado. Como os valores genéticos verdadeiros eram conhecidos, rn e rf foram computados como a correlação entre os valores genéticos verdadeiros e GEBVs.
Resultados Populações de milho NAM
[0031] As tendências eram tipicamente mantidas entre as características. Os resultados apresentados e discutidos aplicam-se, portanto, a todas as características, salvo mencionado em contrário.
[0032] O aumento de Np enquanto N é mantido constante (ou seja, tendo-se menos populações, mas populações maiores, no conjunto de estimação) em geral aumentou rn e diminuiu r- (Tabela 1). No entanto, o aumento de rn foi muito mais pronunciado do que a diminuição de rn.
[0033] Ao aumentar Np com P constante ou ao aumentar P com Np constante, tanto rn como r- aumentaram (Tabela 1). No entanto, enquanto no primeiro caso, rn e r- aumentaram com magnitudes similares, o aumento de rn foi muito menor do que o aumento de rn no segundo caso, em particular quando Np era elevado. Conforme a definição, não se espera que a precisão de nenhuma combinação mude desde que Np permaneça constante.
[0034] No caso de P baixo e Np elevado, por exemplo, P = 5 e Np = 100, nenhuma combinação atingiu a maior rn e combinação completa a menor (Tabela 1). No caso de P elevado e Np baixo, por exemplo, P = 20 e Np = 25, a combinação parcial atingiu a maior rπ. Aqui, nenhuma combinação resultou na menor rn . A única exceção para isso foi a característica DS, onde nenhuma combinação teve uma rn igual ou maior do que as combinações parcial e completa, também para Np baixo.
[0035] As combinações parcial e completa atingiram precisões de predição rn praticamente idênticas para populações novas (Tabela 1). Em geral, r- de uma abordagem de combinação particular foi consideravelmente menor do que a rn correspondente. As diferenças entre rn e r- tenderam a ser maiores para Np elevado. Tabela 1: Precisões de predição dentro de populações médias em populações de milho NAM. Os valores mostrados são as precisões de predição dentro de populações médias para indivíduos de teste, sendo as médias obtidas para 50 divisões aleatórias de dados de estimação-teste. Os erros padrão foram < 0,013. P fornece o tamanho do conjunto n, ou seja, o número de populações representado no conjunto de estimação, a coluna Np fornece o número de indivíduos de cada população em n que foram usados para a estimação, ou seja, os tamanhos dos conjuntos Ap. As características foram: dias até à formação de sedas (DS), altura da espiga (AE), comprimento da espiga (CE), resistência à mancha foliar (SLB), medições de amido no infravermelho próximo (AP) e ângulo das folhas superiores (AFS).
Populações de milho BI
[0036] A precisão da predição rπ aumentou com um aumento de Np, para todas as características e abordagens de combinação (Tabela 2). Obtendo-se as médias para as características, o aumento foi maior para nenhuma combinação, onde a precisão aumentou de uma média de 0,35 em Np = 31 para 0,48 em Np = 95. As precisões para as abordagens de combinação parcial e completa aumentaram de 0,39 e 0,38, respectivamente, em Np = 31 para 0,48 em Np = 95.
[0037] Em Np = 31, a combinação parcial teve a maior rn para as características CE, GpF, e a combinação completa para as características DON e FG. Para PEG, ambas tiveram a mesma precisão. A abordagem de nenhuma combinação teve a menor rn, exceto para CE e GpF, onde teve a mesma precisão que a combinação completa. Para o Np mais alto de 95, as diferenças em precisão entre as abordagens de combinação diminuíram. A combinação parcial ainda teve a maior precisão para CE e GpF e igual à combinação completa para DON e PEG. Apesar de nunca ser melhor do que a combinação parcial, nenhuma combinação teve maior precisão da predição do que a combinação completa para CE e GpF. Tabela 2: Precisões de predição dentro de populações médias em populações de milho biparentais interconectadas. Os valores mostrados são as precisões de predição dentro de populações médias para indivíduos de teste, sendo as médias obtidas para 100 divisões aleatórias de dados de estimação-teste. Os erros padrão foram < 0,01. Np denota o número médio de indivíduos por população no conjunto de estimação. As características foram comprimento da espiga (CE), teor de desoxinivalenol (DON), gravidade de podridão da espiga por Giberela (PEG), fileiras de grãos (FG) e grãos por fileira (GpF).
Populações de milho simuladas
[0038] Para todas as abordagens de combinação, rπ aumentou com diminuição do DPr (Tabela 3). O aumento para nenhuma combinação, no entanto, foi comparativamente pequeno e resultou do aumento da hereditariedade dentro de famílias com diminuição do DPr. O desempenho relativo das abordagens de combinação também dependeu do DPr. No caso do maior valor de DPr considerado, nenhuma combinação teve a maior rn, e no caso do valor intermediário de DPr de 1,0, a combinação parcial. No caso dos menores valores de DPr, as combinações completa e parcial atingiram Un similarmente elevada.
[0039] Além disso, □- tanto para a combinação parcial como para a combinação completa aumentou fortemente com diminuição do DPr e as diferenças em relação à Un diminuíram (Tabela 3). As combinações parcial e completa atingiram □n quase idêntica.
[0040] A média do precedente de distribuição normal truncado N(m,d2 , 0 < a,b = “) para o parâmetro □□aumentou com aumento do DPr. Seus valores médios foram 0,0111, 0,0153, 0,0190, 0,0269 e 0,0296 para DPr de 0,0, 0,25, 0,5, 1,0 e 2,0, respectivamente. Tabela 3: Precisões de predição médias para populações de milho simuladas. Os valores mostrados são as precisões de predição dentro de populações médias para indivíduos de teste, sendo as médias obtidas para 50 divisões aleatórias de dados de estimação-teste. Os desvios padrão foram < 0,015. DPr é o desvio padrão relativo de efeitos de QTL população-específicos simulados.
Discussão Comparação das abordagens de combinação
[0041] A combinação parcial permite a estimação de efeitos de marcadores população-específicos ao mesmo tempo que ainda facilita o “empréstimo” de informação entre populações. É, portanto, um meio-termo entre nenhuma combinação, que modela as características únicas de cada população, mas ignora informação compartilhada, e a combinação completa, na qual a situação é a oposta.
[0042] Quando os tamanhos populacionais Np são suficientemente grandes, o empréstimo de informação de outras populações não é necessário para atingir elevada precisão de predição de novos indivíduos da mesma população (rn). Um aumento adicional dos conjuntos de estimação ao combiná-los com outras populações poderia então ser até prejudicial. Isso explica porque nenhuma combinação foi a abordagem mais precisa quando Np era grande (por exemplo, >= 50), particularmente na população NAM, e porque se beneficiou mais dos aumentos em Np. Portanto, a combinação de conjuntos de estimação é mais promissora se Np for pequeno devido ao orçamento ou outras limitações. Observou-se que a combinação era mais precisa do que nenhuma combinação quando Np era pequeno (por exemplo, < 50). A superioridade de qualquer uma das duas abordagens de combinação em comparação a nenhuma combinação também aumentou com o aumento de P , pois a informação de mais populações estava disponível, a qual não se utiliza no caso de nenhuma combinação. Portanto, espera-se que a combinação seja mais vantajosa quando P for relativamente alto e Np baixo. Se a combinação parcial ou completa é a melhor abordagem também dependerá então da similaridade das populações combinadas. Quanto maior for a similaridade, melhor se espera que seja o desempenho da combinação completa, pois a capacidade de se estimar efeitos de marcadores população-específicos se torna menos importante. Nessa situação, a combinação parcial poderia até ser uma desvantagem, pois requer a estimação de muito mais efeitos, o que poderia resultar em problemas associados com a não identificabilidade. Os genitores das populações BI vêm do mesmo programa de melhoramento, enquanto que os genitores não comuns das populações NAM foram selecionados para serem os mais diversos e compreendem germoplasma de milho temperado, tropical e especial (doce e pipoca). A acomodação de características únicas das populações é, portanto, mais importante em NAM do que BI, o que poderia explicar porque a combinação completa era sempre inferior à combinação parcial na primeira, mas frequentemente igual ou até mesmo superior na última, e porque também nenhuma combinação nunca atingiu a maior precisão de predição em BI, até mesmo para Np elevado.
[0043] O desempenho relativo das abordagens de combinação foi muito estável entre as características no conjunto de dados de NAM, com a exceção de DS. No caso dessa característica, a abordagem de nenhuma combinação foi geralmente superior, até mesmo com P elevado e Np baixo. Buckler et al. (2009) encontraram evidência de uma série alélica no QTL identificado para DS na população NAM. Portanto, enquanto as posições dos QTL são conservadas entre populações, seus efeitos diferem fortemente. As possíveis razões são a presença de vários alelos ou QTL por interação de fundo genético. Nessa situação, não se espera que a combinação de dados tenha uma vantagem sobre nenhuma combinação. Esse exemplo também mostra que decisões sobre combinar ou não dados precisam ser tomadas em relação a cada característica e deverão incorporar conhecimento anterior sobre a arquitetura genética, quando disponível.
[0044] A dependência do desempenho relativo das abordagens de combinação na similaridade de efeitos genéticos entre populações também foi reforçada pelos resultados do estudo de simulação. Aqui, também se observou que a média de N(m, , 0 < a,b = “), a distribuição precedente de □□, que quantifica os desvios de efeitos de marcadores específicos ujk do efeito geral uk, aumentou com o aumento de diferenças simuladas entre efeitos de QTL população-específicos. Esperava-se isso, mas demonstra que os dados eram informativos para os hiperparâmetros de nível elevado. Obtendo-se as médias para P e Np, essa média foi maior para DS e AFS em NAM (resultados não mostrados). Isso poderia refletir as diferenças notadas entre os efeitos de QTL população-específicos para DS. A característica AFS, no entanto, não divergiu do padrão de precisão de predição observado para o restante das características e não parece haver nenhuma indicação forte de uma série alélica como em DS. Também não havia nenhuma relação óbvia entre a média de N (m,d2 , 0 < a,b = “) e o desempenho das abordagens de combinação em IB (resultados não mostrados).
[0045] A modelagem de características únicas de populações requer que essas populações sejam representadas no conjunto de estimação. A predição de indivíduos de populações novas em n precisa depender, portanto, dos efeitos de marcadores inespecíficos gerais uk, tanto na combinação parcial como na completa. Esperava-se, portanto, que ambas atingissem precisões de predição muito similares para populações novas.
[0046] Esses resultados demonstram que a combinação parcial é capaz de modelar as características únicas de populações dentro do conjunto de estimação sem fazer cedências em relação à capacidade de predição de indivíduos de populações novas.
[0047] Esse estudo exemplificou o uso de modelos multiníveis para a combinação parcial no contexto de várias populações, um cenário de elevada relevância para o melhoramento de plantas e animais. No entanto, o conceito pode ser facilmente aplicado a uma grande variedade de cenários. Exemplos são a combinação de dados para vários ambientes ou testadores “top cross”, como é de relevância particular no melhoramento de plantas. A extensão dos modelos para mais de dois níveis é também simples, por exemplo, para a combinação de várias populações de vários grupos heteróticos ou programas de melhoramento.
Composição do conjunto de estimação
[0048] O aumento do número de indivíduos de uma população no conjunto de estimação (Np) sempre aumentou a precisão da predição para indivíduos não testados da mesma população (rn), independentemente do conjunto de estimação ser adicionalmente aumentado por indivíduos de outras populações (combinação parcial e completa) ou não (nenhuma combinação).
[0049] No entanto, como os programas de melhoramento de plantas precisam operar sob restrições orçamentais, a alocação ótima de recursos é de grande importância para maximizar o potencial da seleção genômica. Com um orçamento fixo para fenotipagem que é proporcional a N, o número de populações P e o número de indivíduos por população Np precisam ser otimizados sob a restrição de que N = P • Np. Tal otimização poderia ser alcançada utilizando-se a teoria básica sobre a resposta à seleção e levando em consideração as diferentes precisões de predição para populações representadas e não representadas no conjunto de estimação (lπ e In, respectivamente). Um fator chave aqui é que rn aumentará com o aumento de Np, mas se aplicará a menos populações devido à diminuição de P. Isso é exacerbado pela diminuição de □- que observamos estar associada com a diminuição de P. Portanto, se o número total de populações for grande, como é tipicamente o caso em programas de melhoramento de plantas, seria provavelmente indesejável ter P muito baixo. No contexto do melhoramento de plantas, esse estudo mostrou que a combinação de dados para populações pode, pelo menos parcialmente, compensar um Np baixo se as populações forem relacionadas e se houver também evidência do mérito de combinar germoplasma muito divergente. A utilização de conjuntos de estimação combinados tem, portanto, o potencial de permitir P elevado sem comprometer muito a rn. Esse estudo mostrou que a combinação parcial com modelos multiníveis pode aumentar adicionalmente esse potencial ao fazer uso ótimo da informação em conjuntos de estimação combinados.

Claims (8)

1. Método de seleção de indivíduos em um programa de melhoramento de plantas e de melhoramento de indivíduos selecionados, em que o referido método é caracterizado por compreender: a. construir um conjunto de dados de estimação otimizado para a predição de genoma inteiro e seleção respectiva por: i. selecionar e combinar conjuntos candidatos predefinidos de populações, em que os referidos conjuntos candidatos predefinidos são selecionados de cruzamentos de melhoramento, e selecionar indivíduos dentro de cada cruzamento de melhoramento para fenotipagem a partir de uma lista compreensiva de indivíduos visados para seleção, em que informação SNP é disponível para todos os indivíduos candidatos; ii. computar, para uma população de cruzamentos de melhoramento e características de melhoramento sob seleção artificial ativa, medidas específicas de similaridade ou divergência genética usando funções objetivas de efeitos de QTL estimados específicos para população e característica; iii. construir conjuntos de dados de estimação otimizados em termos do número de populações combinadas e indivíduos respectivos dentro de cada população; e iv. usar modelos estatísticos para combinação parcial em função de critérios objetivos de similaridade ou divergência genética; b. fenotipar candidatos no conjunto de dados de estimação otimizado; c. genotipar indivíduos de melhoramento para uma pluralidade de marcadores; d. obter valores de melhoramento genômicos estimados para os indivíduos de melhoramento genotipados usando os fenótipos dos candidatos nos conjuntos de dados de estimação otimizados; e. efetuar seleções dentro do conjunto completo de candidatos genotipados para indivíduos de seleção com base nos valores de melhoramento genômicos estimados gerados condicionados aos conjuntos de estimação otimizados por meio de combinação parcial; e f. cruzar pelo menos um dos indivíduos de seleção com pelo menos um dos outros indivíduos de seleção.
2. Método, de acordo com a reivindicação 1, caracterizado pela referida informação SNP para o candidato ser obtida por genotipagem.
3. Método, de acordo com a reivindicação 1, caracterizado pelos referidos indivíduos de melhoramento serem homozigotos.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato dos referidos indivíduos de melhoramento serem plantas.
5. Método, de acordo com a reivindicação 4, caracterizado pela referida planta ser selecionada do grupo consistindo em: milho, soja, girassol, sorgo, canola, trigo, alfafa, algodão, arroz, cevada, milheto, cana-de-açúcar e “switchgrass”.
6. Método, de acordo com a reivindicação 1, caracterizado por ser aplicado ao melhoramento de plantas.
7. Método, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente uma população geneticamente diversa que inclui indivíduos carregando um ou mais transgenes.
8. Método, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente uma população geneticamente diversa que inclui indivíduos com DNA editado com Cas9.
BR112017012891-8A 2014-12-18 2015-12-10 Método de seleção de indivíduos BR112017012891B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462093713P 2014-12-18 2014-12-18
US62/093,713 2014-12-18
PCT/US2015/064881 WO2016100061A1 (en) 2014-12-18 2015-12-10 Improved molecular breeding methods

Publications (2)

Publication Number Publication Date
BR112017012891A2 BR112017012891A2 (pt) 2018-01-30
BR112017012891B1 true BR112017012891B1 (pt) 2024-01-23

Family

ID=56127382

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112017012891-8A BR112017012891B1 (pt) 2014-12-18 2015-12-10 Método de seleção de indivíduos

Country Status (9)

Country Link
US (1) US11980147B2 (pt)
CN (1) CN107205352A (pt)
AR (1) AR103075A1 (pt)
AU (1) AU2015362942B2 (pt)
BR (1) BR112017012891B1 (pt)
CA (1) CA2968120A1 (pt)
CL (1) CL2017001538A1 (pt)
MX (1) MX2017007712A (pt)
WO (1) WO2016100061A1 (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107177691B (zh) * 2017-07-14 2019-11-22 中国农业科学院棉花研究所 用于辅助选择棉花优异亲本遗传背景的snp标记及其检测方法
CN108371105B (zh) * 2018-03-16 2019-10-25 广东省农业科学院水稻研究所 一种基于核心系谱品种的高密度分子标记辅助聚合育种方法
CN108707683B (zh) * 2018-04-16 2021-12-21 张家口市农业科学院 与谷子穗长性状相关的snp标记及其检测引物和应用
CA3123457A1 (en) 2019-03-11 2020-09-17 Pioneer Hi-Bred International, Inc. Methods for clonal plant production
WO2020197891A1 (en) 2019-03-28 2020-10-01 Monsanto Technology Llc Methods and systems for use in implementing resources in plant breeding
CN111223520B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草尼古丁含量的全基因组选择模型及其应用
CN110853711B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草果糖含量的全基因组选择模型及其应用
CN110782943B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草株高的全基因组选择模型及其应用
CN110853710B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草淀粉含量的全基因组选择模型及其应用
CN111243667B (zh) * 2020-03-18 2020-10-16 中国农业科学院北京畜牧兽医研究所 华西牛基因组选择方法
CN114304057B (zh) * 2021-12-23 2022-11-22 深圳市金新农科技股份有限公司 一种针对体尺性状的分子选育方法及其应用

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005000006A2 (en) 2003-05-28 2005-01-06 Pioneer Hi-Bred International, Inc. Plant breeding method
US20080163824A1 (en) 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process
EP1962212A1 (en) 2007-01-17 2008-08-27 Syngeta Participations AG Process for selecting individuals and designing a breeding program
CN102067142A (zh) 2008-02-26 2011-05-18 普渡研究基金会 用于患者基因分型的方法
DE102008000715B9 (de) 2008-03-17 2013-01-17 Sirs-Lab Gmbh Verfahren zur in vitro Erfasssung und Unterscheidung von pathophysiologischen Zuständen
US8321147B2 (en) * 2008-10-02 2012-11-27 Pioneer Hi-Bred International, Inc Statistical approach for optimal use of genetic information collected on historical pedigrees, genotyped with dense marker maps, into routine pedigree analysis of active maize breeding populations
GB201110888D0 (en) 2011-06-28 2011-08-10 Vib Vzw Means and methods for the determination of prediction models associated with a phenotype
JP2015533284A (ja) 2012-10-30 2015-11-24 リコンビネティクス・インコーポレイテッドRecombinetics,Inc. 動物における性成熟の制御
WO2014200348A1 (en) 2013-06-14 2014-12-18 Keygene N.V. Directed strategies for improving phenotypic traits
MX2016008461A (es) * 2013-12-27 2016-10-28 Pioneer Hi Bred Int Metodos de reproduccion molecular mejorados.
WO2015155607A2 (en) 2014-03-13 2015-10-15 Sg Biofuels, Limited Compositions and methods for enhancing plant breeding

Also Published As

Publication number Publication date
AU2015362942A1 (en) 2017-06-08
MX2017007712A (es) 2017-10-27
WO2016100061A1 (en) 2016-06-23
BR112017012891A2 (pt) 2018-01-30
AU2015362942B2 (en) 2022-02-17
CA2968120A1 (en) 2016-06-23
CL2017001538A1 (es) 2018-02-23
AR103075A1 (es) 2017-04-12
US11980147B2 (en) 2024-05-14
US20170359978A1 (en) 2017-12-21
CN107205352A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
BR112017012891B1 (pt) Método de seleção de indivíduos
He et al. Exome sequencing highlights the role of wild-relative introgression in shaping the adaptive landscape of the wheat genome
Wang et al. Effects of marker density and population structure on the genomic prediction accuracy for growth trait in Pacific white shrimp Litopenaeus vannamei
Auinger et al. Model training across multiple breeding cycles significantly improves genomic prediction accuracy in rye (Secale cereale L.)
Ni et al. Whole-genome sequence-based genomic prediction in laying chickens with different genomic relationship matrices to account for genetic architecture
Rincent et al. Maximizing the reliability of genomic selection by optimizing the calibration set of reference individuals: comparison of methods in two diverse groups of maize inbreds (Zea mays L.)
Gattepaille et al. Inferring population size changes with sequence and SNP data: lessons from human bottlenecks
Peiffer et al. The genetic architecture of maize stalk strength
Robinson et al. Partitioning of genetic variation across the genome using multimarker methods in a wild bird population
Luan et al. The accuracy of genomic selection in Norwegian red cattle assessed by cross-validation
Phifer-Rixey et al. The genomic basis of environmental adaptation in house mice
Aulchenko et al. Linkage disequilibrium in young genetically isolated Dutch population
Mulder et al. Imputation of genotypes with low-density chips and its effect on reliability of direct genomic values in Dutch Holstein cattle
Fresnedo-Ramírez et al. QTL mapping of pomological traits in peach and related species breeding germplasm
ES2757827T3 (es) Método para seleccionar genes candidatos estadísticamente validados
Zapata-Valenzuela et al. SNP markers trace familial linkages in a cloned population of Pinus taeda—prospects for genomic selection
US20150089691A1 (en) Methods for increasing genetic gain in a breeding population
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
Thorwarth et al. Genomic prediction ability for yield-related traits in German winter barley elite material
Sorrells Genomic selection in plants: empirical results and implications for wheat breeding
BR112016015033B1 (pt) Método para selecionar indivíduos vegetais
Jiménez-Montero et al. Comparison of methods for the implementation of genome-assisted evaluation of Spanish dairy cattle
Kadam et al. Optimization of training sets for genomic prediction of early-stage single crosses in maize
Korontzis et al. QTL detection in a pedigreed breeding population of diploid potato
Cros et al. Estimation of genealogical coancestry in plant species using a pedigree reconstruction algorithm and application to an oil palm breeding population

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 10/12/2015, OBSERVADAS AS CONDICOES LEGAIS