BR112016015033B1 - Método para selecionar indivíduos vegetais - Google Patents

Método para selecionar indivíduos vegetais Download PDF

Info

Publication number
BR112016015033B1
BR112016015033B1 BR112016015033-3A BR112016015033A BR112016015033B1 BR 112016015033 B1 BR112016015033 B1 BR 112016015033B1 BR 112016015033 A BR112016015033 A BR 112016015033A BR 112016015033 B1 BR112016015033 B1 BR 112016015033B1
Authority
BR
Brazil
Prior art keywords
accuracy
individuals
genomic
population
candidates
Prior art date
Application number
BR112016015033-3A
Other languages
English (en)
Other versions
BR112016015033A2 (pt
Inventor
David Habier
Original Assignee
Pioneer Hi-Bred International, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Hi-Bred International, Inc filed Critical Pioneer Hi-Bred International, Inc
Publication of BR112016015033A2 publication Critical patent/BR112016015033A2/pt
Publication of BR112016015033B1 publication Critical patent/BR112016015033B1/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • A01H1/04Processes of selection involving genotypic or phenotypic markers; Methods of using phenotypic markers for selection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/124Animal traits, i.e. production traits, including athletic performance or the like
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/13Plant traits
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Botany (AREA)
  • Mycology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Developmental Biology & Embryology (AREA)
  • Environmental Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

MÉTODO PARA SELECIONAR INDIVÍDUOS A presente invenção se refere a métodos para melhorar a seleção de indivíduos reprodutivos como parte de um programa de reprodução no qual conjuntos de dados de estimativa otimizados são construídos mediante a seleção de candidatos para fenotipagem, para o qual a informação genotípica também está disponível, a partir de um conjunto de candidatos, inserção dos dados no conjunto de dados de estimativa e então avaliação da acurácia dos valores de reprodução genômica estimados para cada candidato (isto é, a acurácia da predição genômica). O conjunto de dados de estimativa otimizado é então usado como um modelo para determinar os valores de reprodução genômica estimados com base puramente na informação genotípica.

Description

Referências remissivas aos pedidos de depósito correlatos
[0001] Esse pedido reivindica o benefício do pedido provisório US n° 61/921.216, depositado em 27 de dezembro de 2013, que é aqui incorporado na íntegra, a título de referência.
Campo da invenção
[0002] A invenção se refere ao campo da genética e reprodução molecular, particularmente em relação ao uso da predição genômica para fazer seleções como parte de um programa de reprodução animal ou vegetal.
Antecedentes
[0003] A pedição genômica (PG) (Meuwissen et al. 2001, Genetics 157:1819-1829) é usada em reprodução vegetal e animal para prever valores de reprodução ou genéticos para fins de seleção, e em genética humana para prever riscos de doença. Isto consiste em duas etapas. Primeiramente, os indivíduos que são fenotipados para um traço quantitativo e genotipados em marcadores genéticos são usados para estimar os efeitos de marcadores. Estes indivíduos são chamados de indivíduos de treinamento; O conjunto de dados de todos os indivíduos é conhecido como conjunto de dados de treinamento ou de estimativa; E a etapa é chamada de treinamento ou de estimativa. Os efeitos estimados do marcador são então usados em combinação com os genótipos marcadores de um candidato (seleção) para prever seu valor reprodutivo ou risco de doença. Esta etapa é chamada de predição. A acurácia dos valores reprodutivos depende fortemente do grau de relacionamento entre os indivíduos de treinamento e os candidatos à seleção conforme demonstrado em (Habier et al. 2013. Genetics 194:597-607), e o uso de todos os fenótipos pode reduzir a acurácia para certas famílias conforme demonstrado em Habier et al. (2013), supra. Isto pode ser mitigado por meio de métodos estatísticos melhorados que modelam tanto o desequilíbrio de ligação quanto a co-segregação, conforme sugerido por Habier et al. (2013), supra. Entretanto, nenhum modelo estatístico, que utiliza dados observados, pode compensar a acurácia maior que poderia ter resultado de conjuntos de estimativa que correspondem melhor as informações necessárias por conjuntos de predição específicos.
[0004] A predição genômica facilita muito os programas de reprodução, e suas vantagens em relação à seleção assistida por marcadores e à seleção fenotípica tradicional foram evidenciadas for simulações e estudos empíricos (Meuwissen et al. 2001. supra; Bernardo e Yu. 2007. Crop Science 47:10821090; Lorenzana e Bernardo. 2009. Theor Appl Genet 120:151161). No futuro próximo, os programas de reprodução vegetal e animal focarão ainda mais na predição genômica, à medida que a genotipagem de embriões se torna mais praticável e de baixo custo. Consequentemente, são desejáveis métodos para aumentar a acurácia da predição genômica.
Sumário
[0005] São aqui fornecidos Métodos para selecionar indivíduos em um programa de reprodução, sendo que os ditos métodos envolvem construir um conjunto de dados de estimativa otimizado mediante (i) seleção de um candidato para fenotipagem a partir de um conjunto de candidatos e colocação do candidato em um conjunto de dados de estimativa, sendo que a dita informação genotípica para o candidato está disponível; (ii) avaliar a acurácia dos valores de reprodução genômica estimados para o candidato, (iii) mover o candidato para o conjunto de dados de estimativa otimizado somente se a acurácia do valor de reprodução genômica estimado para o candidato for maior que a dos outros candidatos no conjunto de candidatos. = e (v) continuar com as etapas (i) a (iii) até um conjunto de dados de estimativa otimizado ser gerado; fenotipar os candidatos no conjunto de dados de estimativa otimizado; genotipar os indivíduos reprodutivos para uma pluralidade de marcadores; obter valores de reprodução genômica estimados para os indivíduos utilizando os fenótipos e os genótipos dos candidatos no conjunto de dados de estimativa otimizado; e selecionar indivíduos reprodutivos com base nos valores de reprodução genômica estimados.
[0006] O método pode compreender adicionalmente cruzar os indivíduos reprodutivos selecionados. A construção do conjunto de dados de estimativa otimizado pode ser feita usando um computador.
[0007] A informação genotípica para cada candidato pode ser obtida através de genotipagem ou usando simulações Monte Carlo.
[0008] Os indivíduos reprodutivos podem ser homozigotos parcialmente homozigotos ou heterozigotos. Os indivíduos reprodutivos podem ser vegetais ou animais. Se vegetais, os vegetais podem ser selecionados do grupo que consiste em: milho, soja, girassol, sorgo, canola, trigo, alfafa, algodão, arroz, cevada, painço, cana-de-açúcar e gramíneas.
[0009] A acurácia dos valores de reprodução genômica estimados pode ser obtida com o uso de uma fórmula matemática que computa a informação do marcadora partir dos candidatos no conjunto de candidatos e a informação do marcador a partir dos progenitores de uma ou mais populações que formam um alvo de predição. A fórmula matemática usada é dependente do alvo de predição. Se o alvo de predição consiste em uma população, a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados pode ser determinada usando-se a seguinte fórmula:
Figure img0001
em que °β é a variância dos efeitos do SNP, Gi é uma matriz de relacionamento genômico ponderada pelo desequilíbrio de ligação da população (família de irmão completos) i, Vyy1 é o inverso da matriz de variância-covariância dos traços fenótipos de indivíduos no conjunto de dados de estimativa, e Ni é o número de loci de segregação na população i.
[0010] Se o alvo de predição consiste em mais de uma população, a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados pode ser determinada usando a seguinte fórmula:
Figure img0002
que é a média dede acurácia dentro de uma população inata através NI de todas as populações do alvo da predição.
Figure img0003
em que ^e [0,1] é chamado de parâmetro de aversão ao risco na Iso economia do bem-estar social. Se δ = 0, então p gijgij age idêntico a Pgijgij, mas conforme δ aumenta, as populações com alta acurácia são ponderadas mais baixo em favor das populações com menor acurácia. A última fórmula pode ser usada para impedir a discrepância entre a acurácia de diferentes populações se o alvo da predição tornar-se muito maior.
[0011] Se o alvo da predição consiste em um número maior de populações (famílias), a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados pode ser substituída nas duas últimas equações pela confiabilidade de gij para fazer computações mais praticáveis. A equação pode ser definida como:
Figure img0004
Descrição detalhada
[0012] A presente revelação fornece métodos para otimizar a predição genômica através da criação de conjuntos de dados de estimativa otimizados. A ideia é identificar os melhores híbridos para treinamento usando uma fórmula matemática que captura as etapas de treinamento e predição da predição genômica e retorna a acurácia dos valores de reprodução genômica estimados em uma população reprodutiva ou uma média da acurácia em uma população reprodutiva através de todas as populações de um alvo de predição.
[0013] A revelação de cada referência aqui apresentada está por meio desta incorporada a título de referência, em sua totalidade.
[0014] Como usado presente invenção e nas reivindicações em anexo, as formas singulares “um”, “uma”, “o” e “a” incluem referência plural, a não ser que o contexto claramente indique o contrário. Portanto, por exemplo, referência a “uma planta” inclui uma pluralidade de tais plantas, referência a “uma célula” inclui uma ou mais células e equivalentes das mesmas conhecidos àqueles versados na técnica, e assim por diante.
Como usado presente invenção:
[0015] “Acurácia”, como ela pertence aos valores de reprodução genômica estimados, pode ser definida aqui como a correlação entre os valores de reprodução estimados e os reais dentro das populações.
[0016] “Acurácia da predição genômica” é usado de forma intercambiável aqui com acurácia de “valores de reprodução genômica estimados”.
[0017] Como usado aqui, o termo “alelo” se refere a uma variante ou uma forma alternativa de sequência em um locus genético. Nos diploides, os alelos simples são herdados por uma progênie do indivíduo separadamente de cada original em cada locus. Os dois alelos de um dado locus presente em um organismo diploide ocupa locais correspondentes em um par de cromossomos homólogos, embora um versado na técnica compreende que os alelos em qualquer indivíduo particular não representam necessariamente todos os alelos que estão presentes nas espécies.
[0018] Como usado aqui, a expressão “associado com” se refere a uma relação identificável e/ou detectável entre duas entidades. Por exemplo, a expressão “associado com um traço” se refere a um locus, um gene, um alelo, um marcador, um fenótipo, etc. ou a expressão do mesmo, a presença ou a ausência da qual pode influenciar uma extensão, grau e/ou taxa na qual o traço é expresso em um indivíduo ou em uma pluralidade de indivíduos.
[0019] Como usado aqui, o termo “retrocruzamento” e suas variantes gramaticais, se refere a um processo no qual um reprodutor cruza uma progênie do indivíduo de volta para um de seus genitores: por exemplo, uma primeira geração F1 com um dos genótipos parentais do indivíduo F1.
[0020] Como usado aqui, a expressão “população reprodutiva” se refere a uma coleta de indivíduos a partir dos quais uma reprodução potencial individual ou em pares é selecionada. Uma população reprodutiva pode ser uma população segregante.
[0021] Um “conjunto de candidatos” é um conjunto de indivíduos que são genotipados nos loci marcados usados para a predição genômica. Um “candidato” pode ser um híbrido.
[0022] Como usado aqui, o termo “cromossomo” é usado em seu sentido conhecido na arte como uma estrutura genética autorreplicante que contém um DNA genômico e que transporta em sua sequência de nucleotídeos um arranjo linear de genes.
[0023] Como usado aqui, os termos “cultivar” e “variedade” se referem a um grupo de plantas similares que por sua estrutura e/ou características genéticas e/ou desempenho podem ser distinguíveis de outros membros das mesmas espécies.
[0024] Como usado aqui, a expressão “determinar o genótipo” de um indivíduo se refere à determinação de ao menos uma porção de uma constituição genética de um indivíduo e pode, particularmente, se referir a uma determinação da variabilidade genética em um indivíduo que pode ser usada como um indicador ou um preditor de um fenótipo correspondente. A determinação de um genótipo pode compreender determinar um ou mais haplótipos ou determinar um ou mais polimorfismos que apresentam um desequilíbrio de ligação em ao menos um polimorfismo ou haplótipo que tem um valor genotípico. A determinação do genótipo de um indivíduo pode também compreende identificar ao menos um polimorfismo de ao menos um gene e/ou em um locus; identificar ao menos um haplótipo de ao menos um gene e/ou ao menos um locus; ou identificar ao menos um polimorfismo único em ao menos um haplótipo de ao menos gene e/ou ao menos um locus.
[0025] Uma “planta haploide duplicada” é uma planta que se desenvolve pela duplicação de um conjunto haploide de cromossomos. Uma planta haploide duplicada é homozigota.
[0026] Como usado aqui, a expressão “linhagem-elite” se refere a qualquer linhagem que é substancialmente homozigota e resultou da reprodução e seleção para um desempenho agronômico superior.
[0027] Um “conjunto de dados de estimativa” ou um “conjunto de dados de treinamento” é, geralmente, um conjunto de indivíduos que são tanto genotipados para marcadores genéticos como fenotipados para um traço quantitativo ou qualitativo. Esses indivíduos são usados para estimar os efeitos daqueles marcadores. Para nossa otimização, entretanto, esses indivíduos ainda não precisam ser fenotipados porque o real propósito desta abordagem é identificar quais indivíduos devem ser fenotipados.
[0028] Como usado aqui, o termo “gene” se refere a uma unidade hereditária que inclui uma sequência de DNA que ocupa um local específico em um cromossomo e que contém instruções genéticas para um traço ou característica particular em um organismo.
[0029] Como usado aqui, a expressão “ganho genético” se refere a uma quantidade de aumento no desempenho que é obtida através dos programas de aprimoramentos genéticos artificiais. O termo “ganho genético” pode se referir a um aumento no desempenho que é obtido depois de uma geração (consulte Allard, 1960).
[0030] Como usado aqui, a expressão “mapa genético” se refere a uma lista ordenada dos loci geralmente relacionada às posições relativas dos loci em um cromossomo particular.
[0031] Como usado aqui, a expressão “marcador genético” se refere a uma sequência de ácidos nucleicos (por exemplo, uma sequência de ácidos nucleicos polimórficos) que foi identificada como sendo associada com um traço, locus e/ou alelo de interesse e que é indicativo de e/ou que pode ser empregado para verificar a presença ou ausência do traço, locus e/ou alelo de interesse em uma célula ou organismo. Os exemplos de marcadores genéticos incluem, mas não se limitam a, genes, sequências derivadas de DNA ou RNA (por exemplo, subsequências cromossômicas que são específicas para locais particulares em um dado cromossomo), promotores, quaisquer regiões não traduzidas de um gene, microRNAs, RNAs inibitórios curtos (siRNAs; também chamados de RNAs inibitórios pequenos), loci de traços quantitativos (QTLs), trangenes, mRNAs, RNAs de cadeia dupla, perfis transcricionais e padrões de metilação.
[0032] Como usado aqui, “valores de reprodução genômica estimados” (GEBVs) pode se referir a um grau mensurável ao qual uma ou mais haplótipos e/ou genótipos afetam a expressão de um fenótipo associado com um traço e pode ser considerado como uma contribuição do haplótipo(s) e ou do genótipo(s) a um traço.
[0033] A expressão “predição genômica” se refere a métodos para aumentar o ganho genético em uma espécie que emprega marcadores localizados ao longo do genoma das espécies para prever os valores de reprodução genômica estimados (GEBVs) dos indivíduos. A predição genômica não se baseia no uso dos marcadores que foram anteriormente identificados como sendo ligados ao loci (por exemplo, QTLs) associados com qualquer dado traço de interesse. Ao invés disso, cada marcador é geralmente considerado como um QTL putativo e todos os marcadores são combinados pra prever os valores de reprodução genômica estimados (GEBVs) de uma progênie.
[0034] Como usado aqui, o termo “genótipo” se refere a constituição genética de um organismo. A expressão de um genótipo pode dar origem ao fenótipo do organismo (isto é, traços observáveis do organismo). Um genótipo de um indivíduo, quando comparado a um genótipo de referência ou ao genótipo de uma ou mais outros indivíduos, pode fornecer informações valiosas relacionadas aos fenótipos atuais ou previstos. O termo “genótipo” se refere, dessa forma, a um componente genético de um fenótipo de interesse, a uma pluralidade de fenótipos de interesse e/ou a uma célula inteira ou organismo.
[0035] Como usado aqui, haplótipo” se refere a característica coletiva ou características de um número de loci intimamente ligados dentro de um gene, ou grupo de genes, particular que pode ser herdado como uma unidade. Por exemplo, em algumas modalidades, um haplótipo pode compreender um grupo de polimorfismos relacionados intimamente (por exemplo, polimorfismos de nucleotídeo simples ou único; SNPs). Um haplótipo pode também ser uma caracterização de uma pluralidade de loci em um cromossomo simples (ou uma região do mesmo) de um par de cromossomos homólogos, sendo que a caracterização é indicativa de qual loci e/ou alelos estão presentes no cromossomo simples (ou a região do mesmo).
[0036] Como usado aqui, o termo “heterozigoto” se refere a uma condição genética que existe em uma célula ou organismo quando alelos diferentes residem em um loci correspondente nos cromossomos homólogos.
[0037] Como usado aqui, o termo “homozigoto” se refere a uma condição genética que existe quando alelos idênticos residem em um loci correspondente nos cromossomos homólogos. Nota-se que ambos os termos podem se referir a posições de nucleotídeos simples, posições de nucleotídeos múltiplos (contíguos ou não) e/ou loci inteiros nos cromossomos homólogos.
[0038] Como usado aqui, o termo “híbrido”, quando usado no contexto de uma planta, se refere a uma semente e a planta que esta semente desenvolve resulta do cruzamento de ao menos dois parentes geneticamente diferentes da planta.
[0039] Como usado aqui, o termo “inato” se refere a uma linhagem ou a um indivíduo homozigoto substancial ou completamente. Nota- se que o termo pode se referir a indivíduos ou linhagens que são substancial ou completamente homozigotos ao longo de seus genomas inteiros ou que são substancial ou completamente homozigotos em relação às subsequências de seus genomas que são de interesse particular.
[0040] Como usado aqui, o termo “introgressão” e suas variantes gramaticais (incluindo, mas não se limitando a, “introgredir”, “introgredido” e “introgressão”), se refere tanto a processos naturais quanto e artificiais onde uma ou mais regiões genômicas de um indivíduo são movidas para o genoma de outro indivíduo para criar um germoplasma que tenha uma nova combinação de loci genéticos, haplótipos e/ou alelos. Os métodos para introgredir um traço de interesse podem incluir, mas não se limitam a, reproduzir um indivíduo que tenha o traço de interesse em um indivíduo que não tenha e retrocruzar um indivíduo que tenha o traço de interesse em um parente recorrente.
[0041] Como usado aqui, “desequilíbrio de ligação” (LD) se refere a uma medida estatística derivada da intensidade da associação ou co-ocorrência de dois marcadores genéticos distintos. Vários métodos estatísticos podem ser usados para resumir o LD entre dois marcadores, mas na prática apenas dois, os denominados D’ e r2 são amplamente usados (consulte, por exemplo, Devlin & Risch 1995; Jorde, 2000). Como tal, a expressão “desequilíbrio de ligação” se refere a uma mudança da frequência relativa esperada dos tipos de gametas em uma população de muitos indivíduos em uma única geração de forma que dois ou mais loci ajam como loci geneticamente ligados.
[0042] Como usado aqui, a expressão “grupo de ligação” se refere a todos os genes ou traços genéticos que estão localizados no mesmo cromossomo. Dentro de um grupo de ligação, os loci que estão suficientemente perto fisicamente podem exibir um acoplamento nos cruzamentos genéticos. Uma vez que a probabilidade de uma intersecção ocorrer entre dois loci aumenta com a distância física entre os dois loci em um cromossomo, os loci para o qual as localizações estão muito distantes uma da outra, dentro de um grupo de ligação, podem não exibir qualquer ligação detectável nos testes genéticos diretos. O termo “grupo de ligação” é usado na maioria das vezes para se referir ao loci genético que exibe um comportamento acoplado nos sistemas genéticos onde atribuições cromossômicas ainda não foram feitas. Dessa forma, no presente contexto, o termo “grupo de ligação” é sinônimo de uma entidade física de um cromossomo, embora o versado na técnica entenderá que o grupo de ligação pode também ser definido como correspondente a uma região (isto é, menos do que a totalidade) de um dado cromossomo.
[0043] Como usado aqui, o termo “locus” se refere a uma posição em um cromossomo de uma espécie e pode abranger um nucleotídeo único, vários nucleotídeos ou mais do que vários nucleotídeos em uma região genômica particular.
[0044] Como usado aqui, os termos “marcador” e “marcador molecular” são usados de forma intercambiável para se referir a uma posição identificável em um cromossomo cuja herança pode ser monitorada e/ou a um reagente que é usado nos métodos para visualizar as diferenças nas sequências de ácidos nucleicos presentes em tais posições identificáveis nos cromossomos. Um marcador pode compreender uma sequência de ácidos nucleicos detectável ou conhecida. Exemplos de marcadores incluem, mas não se limitam a, marcadores genéticos, composição de proteínas, níveis de peptídeo, níveis de proteína, composição de óleo, níveis de óleo, composição de carboidrato, níveis de carboidrato, composição de ácido graxo, níveis de ácido graxo, composição de aminoácidos, níveis de aminoácidos, biopolímeros, composição de amido, níveis de amido, amido fermentável, rendimento da fermentação, eficiência da fermentação, rendimento de energia, compostos secundários, metabólitos, características morfológicas e características agronômicas. Os marcadores moleculares incluem, mas não se limitam a, polimorfismos de comprimento de fragmento de restrição (RFLPs), DNA polimórfico amplificado aleatoriamente (RAPD), polimorfismo de comprimento do fragmento amplificado (AFLP), polimorfismo de conformação de cadeia simples (SSCPs), polimorfismos de nucleotídeo único (SNPs), inserção/deleção de mutações (indels), sequências simples repetidas (SSR), repetições de microssatélite, regiões amplificadas caracterizadas por sequência (SCARs), marcadores de sequência polimórfica amplificada clivada (CAPs) e marcadores de isozima, tecnologias com base em micro arranjos, marcadores TAQMAN.RTM., ILLUMINA.RTM. GOLDENGATE.RTM. Os marcadores de ensaio, as sequências de ácidos nucleicos ou as combinações dos marcadores aqui descritos, que podem ser empregados para definir um local cromossômico e/ou genético específico.
[0045] Um marcador pode corresponder a um produto de amplificação gerado por amplificação de um ácido nucleico com uma ou mais oligonucleotídeos, por exemplo, por um sistema de reação em cadeia de polimerase (PCR). Como usado aqui, a expressão “corresponde a um produto de amplificação” no contexto de um marcador se refere a um marcador que tem uma sequência de nucleotídeos que é a mesma que ou um complemento reverso de (permitindo mutações introduzidas pela própria reação de amplificação e/ou diferenças alélicas artificiais e/ou ocorrendo naturalmente) um produto de amplificação que é gerado por amplificação de um ácido nucleico com um conjunto particular de oligonucleotídeos. Em algumas modalidades, a amplificação é por PCR e os oligonucleotídeos são PCR iniciadores que são designados para hibridizar as cadeias opostas de uma molécula de DNA genômico a fim de amplificar uma sequência de DNA genômico presente entre as sequências às quais os PCRs iniciadores hibridizam-se no DNA genômico. O segmento amplificado que resulta de uma ou mais rodadas de amplificação usando tais disposições de iniciadores é um ácido nucleico de cadeia dupla, uma cadeia que tem uma sequência de nucleotídeos que compreende, na direção de 5’ a 3’, a sequência de um dos iniciadores, a sequência do DNA genômico localizada entre os iniciadores e o complemento reverso de um segundo iniciador. Tipicamente, o iniciador “forward” é designado para ser o iniciador que tem a mesma sequência que a subsequência (designada arbitrariamente) da cadeia “superior” de um ácido nucleico de cadeia dupla a ser amplificado, de forma que a cadeia “superior” do fragmento amplificado inclui uma sequência de nucleotídeos que é, na direção 5’ a 3’, igual à sequência do iniciador forward -- a sequência localizada entre os iniciadores forward e reverso da cadeia superior do fragmento genômico -o complemento reverso do iniciador reverso. Consequentemente, um marcador que “corresponde a” um fragmento amplificado é um marcador que tem a mesma sequência de uma das cadeias do fragmento amplificado.
[0046] O termo “fenótipo” se refere a qualquer propriedade observável de um organismo, produzida pela interação do genótipo do organismo e o ambiente. Um fenótipo pode abranger uma expressividade variável e penetração do fenótipo. Fenótipos exemplares incluem, mas não se limitam a, fenótipos visíveis, fenótipos fisiológicos, fenótipos de suscetibilidade, um fenótipo celular, um fenótipo molecular e combinações dos mesmos.
[0047] Como usado aqui, o termo “planta” se refere a uma planta inteira, seus órgãos (isto é, folhas, caules, raízes, flores, etc), sementes, células vegetais e a progênie da mesma. O termo “células vegetais” inclui sem limitações as células dentro das sementes, culturas de suspensão, embriões, regiões meristemáticas, tecido de calo, folhas, brotos, gametófitos, esporófitos, pólen e micrósporos. A expressão “parte da planta” se refere a uma parte de uma planta, incluindo as células simples e os tecidos celulares como células de plantas que estão intactas nas plantas, nódulos celulares e culturas de tecido das quais a planta pode ser regenerada. Exemplos de partes de plantas incluem, mas não se limitam a, células simples e tecidos de pólen, óvulos, folhas, embriões, raízes, pontas de raiz, anteras, flores, frutas, caule, brotos e sementes; bem como mudas, enxertos, protoplastos, calos e similares.
[0048] Como usado aqui, o termo “polimorfismo” se refere à presença de uma ou mais variações de uma sequência de ácidos nucleicos em um locus em uma população de um ou mais indivíduos. A variação de sequência pode ser uma base ou bases que são diferentes, inseridas ou deletadas. Os polimorfismos podem ser, por exemplo, polimorfismos de nucleotídeo único (SNP), sequências simples repetidas (SSR) e Indels, que são inserções e deleções. Adicionalmente, a variação pode ser em um perfil transcricional ou em um padrão de metilação. Os locais polimórficos de uma sequência de ácidos nucleicos podem ser determinados por comparação das sequências de ácidos nucleicos em um ou mais loci em duas ou mais entradas de germoplasma. Como tal, em algumas modalidades o termo “polimorfismo” se refere à ocorrência de duas ou mais sequências variantes alternativas determinadas geneticamente (isto é, alelos) em uma população. Um marcador polimórfico é o locus no qual a divergência ocorre. Os marcadores exemplares têm ao menos dois (ou em algumas modalidades mais) alelos, cada um deles ocorrendo em uma frequência maior que 1%. Um locus polimórfico pode ser tão pequeno quanto um par base (por exemplo, um polimorfismo de nucleotídeo único; SNP).
[0049] Como usado aqui, o termo “população” se refere a uma coleta geneticamente heterogênea de plantas que, em algumas modalidades, compartilham uma derivação genética comum.
[0050] Um “alvo de predição” é um conjunto de candidatos à seleção provêm de populações inatas de irmãos completos, onde seus parentais são genotipados nos marcadores genéticos.
[0051] O termo “pre-TC1” se refere ao momento logo após a criação de um inato, como, por exemplo, um haploide duplo e antes dos dados de topocruzamento, isto é, quando os dados dos irmãos completos e dos meio-irmãos podem não estar disponíveis.
[0052] Como usado aqui, o termo “progênie” se refere a qualquer planta que resulte de uma reprodução assistida ou natural de uma ou mais plantas. Por exemplo, a progênie de plantas pode ser gerada por cruzamento de duas plantas (incluindo, mas não se limitando a, o cruzamento de duas plantas não relacionadas, retrocruzamento de uma planta com uma planta parente, intercruzamento de duas plantas, etc.), mas também pode ser gerada por autofecundação de uma planta, criando um inato (por exemplo, um haploide duplo) ou outras técnicas que seriam conhecidas a um versado na técnica. Como tal, uma “progênie de planta” pode ser qualquer planta que produza progênie a partir de uma reprodução sexual ou vegetativa ade uma ou mais plantas parentes ou descendentes das mesmas. Por exemplo, uma progênie de planta pode ser obtida por clonagem ou autofecundação de uma planta parente ou por cruzamento de duas plantas parentais e incluindo autofecundação bem como F1 ou F2 ou ainda outras gerações. Um F1 é uma progênie de primeira geração produzida a partir de parentes, ao menos um dentre os quais é usado pela primeira vez como doador de um traço, enquanto que a progênie de segunda geração (F2) ou gerações subsequentes (F3, F4, e similares) são, em algumas modalidades, espécimes produzidas a partir de autofecundação (incluindo, mas não se limitando a, haploidização dupla), intercruzamentos, retrocruzamentos ou outros cruzamentos de indivíduos F1, indivíduos F2 e similares. Um F1, portanto, pode ser (e em algumas modalidades é) um híbrido resultante de um cruzamento entre dois parentes reprodutivos verdadeiros (isto é, parentes que são reprodutivos verdadeiros são cada um homozigotos para um traço de interesse ou um alelo do mesmo e, em algumas modalidades, são inatos), enquanto que um F2 pode ser (e em algumas modalidades é) uma progênie resultante de uma autopolinização dos F1 híbridos.
[0053] Como usado aqui, a expressão “polimorfismo de nucleotídeo único”, ou “SNP”, se refere a um polimorfismo que constitui uma diferença de par base única entre as sequências de nucleotídeos. Como usado aqui, o termo “SNP” se refere também a diferenças entre duas sequências de nucleotídeos que resultam de alterações únicas de uma sequência em vista da outra que ocorre em um único local na sequência. Por exemplo, o termo “SNP” destina-se a referir não apenas às sequências que diferem em um único nucleotídeo como resultado de uma substituição de ácido nucleico em um quando comparado ao outro, mas também destina-se a se referira sequências que diferem em 1, 2, 3 ou mais nucleotídeos em um único local em uma das sequências quando comparado à outra. Será entendido que no caso de duas sequências que diferem uma da outra apenas em virtude de uma deleção de 1, 2, 3 ou mais nucleotídeos em um único local em uma das sequências quando comparado à outra, esse mesmo cenário pode ser considerado uma adição de 1, 2, 3 ou mais nucleotídeos em um único local em uma das sequências quando comparado à outra, dependendo de qual das duas sequências é considerada a sequência de referência. As inserções e/ou as deleções de locais únicos são, dessa forma, também consideradas como abrangendo o termo “SNP”.
[0054] O termo “teste e prateleira” se refere ao estado no qual os inatos não são selecionados/escolhidos para um teste de campo, mas são mantidos até a data em que seus irmãos completos e/ou meio-irmãos estão disponíveis.
[0055] Como usado aqui, o termo “testador” se refere a uma linhagem usada em um teste em cruz com uma ou mais outras linhagens em que o testador e a(s) linhagem(s) testada(s) não são similares geneticamente. Um testador pode ser uma linhagem isogênica para a linhagem cruzada.
[0056] O termo “topocruzamento” se refere a um cruzamento entre um parental sendo testado e um testador, usualmente uma linhagem homozigota. Um “teste de topocruzamento” é um teste de progênie derivado pelo cruzamento de cada parental com o mesmo testador, usualmente uma linhagem homozigota. O parente sendo testado pode ser uma linhagem inata, um cruzamento ou uma variedade polinizada aberta.
[0057] Como usado aqui, os termos “traço” e “traço de interesse” se referem a um fenótipo de interesse, um gene que contribui para um fenótipo de interesse, bem como a uma sequência de ácidos nucleicos associados com um gene que contribui para um fenótipo de interesse. Qualquer traço que seriar desejável passar ou ser bloqueado nas gerações subsequentes pode ser um traço de interesse.
[0058] Um “traço” pode se referir a uma característica fisiológica, morfológica, bioquímica ou física de uma planta ou material ou células vegetais particulares. Em alguns casos, esta característica é visível ao olho humano ou pode ser medida por técnicas bioquímicas.
[0059] Os traços de interesse exemplares não limitadores no milho incluem rendimento, resistência à doença, traços agronômicos, traços abióticos, composições de núcleo (incluindo, mas não se limitando a composições de amido, proteína e/ou óleo), resistência à insetos, fertilidade, silagem e traços morfológicos. Em algumas modalidades, dois ou mais traços de interesse são passados ou bloqueados (tanto individual quanto coletivamente) na progênie dos indivíduos.
Com referência às modalidades:
[0060] São aqui fornecidos métodos para selecionar indivíduos como parte de um programa de reprodução por otimização da predição genômica, sendo que os ditos métodos compreendem construir um conjunto de dados de estimativa otimizado por seleção dos candidatos para fenotipagem a partir de um conjunto de candidatos; colocar o candidato no conjunto de dados de estimativa; e avaliar a acurácia dos valores de reprodução genômica estimados para cada candidato (isto é, acurácia da predição genômica). A otimização da abordagem se baseia no princípio de que a acurácia dos valores de reprodução depende fortemente da do grau de relacionamento entre os indivíduos de treinamento e os candidatos à seleção (Habier et al. 2013. supra). O conjunto de dados de estimativa otimizado pode ser construído usando um computador.
[0061] Os candidatos podem ser genotipados usando marcadores, mas se não genotipados, as simulações Monte Carlo podem ser usadas para avaliar o potencial de um tipo ou grupo de indivíduos específico para a acurácia da predição genômica. Os candidatos podem ou não ser relacionados às populações no alvo da predição.
[0062] O candidato apenas é movido para o conjunto de dados de estimativa otimizado permanentemente se a acurácia do valor de reprodução genômica estimado para o candidato for maior do que aquela dos outros candidatos no conjunto de candidatos. A acurácia dos valores de reprodução genômica estimados é obtida usando uma fórmula matemática que incorpora as etapas de estimativa e predição da predição genômica e retorna a acurácia dos valores de reprodução genômica estimados, medidas para os indivíduos dentro de uma população, para todas as populações no alvo da predição. Aquela acurácia é conectada ou pertence a um conjunto de dados de estimativa contendo indivíduos a partir do conjunto de candidatos. Dessa forma, a fórmula matemática pode ser considerada como tomando um conjunto de indivíduos a partir de um conjunto de candidatos e as populações do alvo de predição como a entrada, e retornando a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados para os indivíduos do alvo de predição.
[0063] As populações reprodutivas do alvo da predição são descritas em termos matemático-genético, isto é, genótipos marcadores de parentes inatos e as distâncias do mapa genético dos marcadores são usadas para derivar um padrão de desequilíbrio de ligação (LD) entre o local do marcador para cada população no alvo da predição. Como cada cruzamento tem parentes diferentes e cada parente tem genótipos marcadores diferentes, cada população reprodutiva tem um único padrão LD. O uso do LD na fórmula segue naturalmente da derivação da fórmula matemática e das definições do LD e da co-segregação dos estados dos alelos dos pais para os descendentes inatos conforme mostrado nos Exemplos abaixo. A vantagem do uso de apenas genótipos marcadores parentais é que a abordagem de otimização pode ser usada para identificar conjuntos de dados de treinamento ótimos para uma reprodução futura de populações em cruzadas, sendo elas F1 ou F2 derivadas. Além disso, o uso destes padrões de LD evita o problema que é encontrado em outras abordagens de otimização (Maenhout et al. 2010 Theor Appl Genet. 120:415-427; Rincent et al. 2012. Genetics 192:715-728), este está decidindo quais dos inatos genotipados são declarados candidatos à seleção ou candidatos para treinamento. O uso do desequilíbrio de ligação significa que os futuros candidatos à seleção provenientes de populações no alvo da predição não precisam ser genotipados para esta abordagem de otimização. Dessa forma, isso permite otimizar os conjuntos de dados de treinamento anos antes daquelas populações (realmente criadas) estarem disponíveis para seleção; e não exige e nem está limitada pela partição arbitrária de indivíduos genotipados em candidatos e nos candidatos à seleção, assim como outras abordagens.
[0064] O núcleo da abordagem de otimização é uma fórmula matemática para a acurácia de valores de reprodução genômica estimados dentro das populações do alvo da predição, que captura o processo de predição genômica que consiste em construir um conjunto de dados de estimativa, rodar o conjunto de dados de estimativa através de um software de predição genômica e usar os efeitos do polimorfismo de nucleotídeo único estimado junto com os marcadores do alvo da predição para estimar os valores de reprodução genômica estimados. A determinação da fórmula matemática a ser usada é dependente do alvo da predição.
[0065] Se o alvo da predição consiste em uma população, (por exemplo, uma família de irmãos completos), a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados é determinada usando a seguinte fórmula:
Figure img0005
em que o} é a variância dos efeitos do SNP, Gi é uma matriz de relacionamento genômico ponderada pelo desequilíbrio de ligação da população (família de irmão completos) i, Vyy1 é o inverso da matriz de variância-covariância dos traços fenótipos de indivíduos no conjunto de dados de estimativa, e Ni é o número de loci de segregação na população i.
[0066] Se o alvo da predição consiste em mais de uma população, (isto é, mais que uma família de irmão completos), a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados é determinada usando a seguinte fórmula:
Figure img0006
que é a média dede acurácia dentro de uma população inata através de todas populações do alvo da predição.
Figure img0007
em que 7e [0,1] é chamado de parâmetro de aversão ao risco na Iso economia do bem-estar social. Se δ = 0, então pg..g.. age idêntico ii ii a Pgijgij , mas conforme δ aumenta, as populações com alta acurácia são ponderadas mais baixo em favor das populações com menor acurácia. A última fórmula pode ser usada para impedir a discrepância entre a acurácia de diferentes populações se o alvo da predição se tornar muito maior.
[0067] Se o alvo da predição consiste de um número maior de populações (famílias, a acurácia da predição genômica ou a acurácia dos valores de reprodução genômica estimados pode ser substituída nas duas últimas equações pela confiabilidade de gii para fazer computações mais praticáveis. A equação pode ser definida como:
Figure img0008
[0068] Fenótipos dos candidatos no conjunto de dados de estimativa otimizado, em um ou mais traços, são obtidos e os fenótipos e os genótipos dos candidatos no conjunto de dados de estimativa otimizado podem ser usados para obter os valores de reprodução genômica estimados para a reprodução dos indivíduos. Essencialmente, os fenótipos e os genótipos dos candidatos no conjunto de dados de estimativa otimizado são usados para parametrizar um modelo estatístico de forma que os valores de reprodução genômica estimados possam ser determinados pelo genótipo de um indivíduo reprodutivo com o uso da informação contida no conjunto de dados de estimativa otimizado.
[0069] Os indivíduos reprodutivos são os indivíduos em um programa de reprodução no qual a seleção é imposta. (É importante notar que os indivíduos reprodutivos e os candidatos no conjunto de dados de estimativa otimizado são da mesma espécie) Os indivíduos reprodutivos podem ser homozigotos, parcialmente homozigotos ou heterozigotos. Se homozigotos, os indivíduos reprodutivos podem ser inatos ou haploides duplos.
[0070] Os indivíduos reprodutivos são genotipados para uma pluralidade de marcadores e usando o programa de predição genômica otimizado são dados os valores de reprodução genômica estimados, que servem como um meio de comparação entre os indivíduos reprodutivos (e permite classificar os indivíduos reprodutivos). Os indivíduos reprodutivos com valores de reprodução genômica estimados desejáveis podem ser selecionados para outro melhoramento da planta, seja para selecionar indivíduos como parentais de um cruzamento ou selecionar um ou mais indivíduos para uma avaliação de crescimento posterior. Os indivíduos reprodutivos selecionados podem estar no topo a 25%, 24%, 23%, 22%, 21%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, ou 1% em relação à totalidade do conjunto dos indivíduos reprodutivos e seus respectivos valores de reprodução genômica estimados. Se os indivíduos reprodutivos são selecionados para o cruzamento, o cruzamento pode ser realizado para produzir um híbrido (como, por exemplo, no milho).
Aplicações
[0071] A abordagem não é aplicável apenas à reprodução de plantas, mas também à reprodução de animais. É um método melhorado para fazer seleções de indivíduos reprodutivos usando uma ferramenta de planejamento otimizada que permite que os indivíduos reprodutivos sejam selecionados apenas com base no uso de marcadores, possibilitando o uso mais eficiente dos recursos de campo (isto é, maior acurácia para a mesma quantidade de recursos usados ou uma acurácia similar para uma quantidade menor de recursos usados).
[0072] Por exemplo, no milho, ele pode ser usado em todos os estágios de seleção de desenvolvimento do produto, a maior utilidade está dentro da classificação familiar de haploides duplos nos estágios anteriores de desenvolvimento inato porque a informação de pedigree não pode discriminar os irmãos completos e a informação fenotípica é limitada ou ainda não está disponível. No primeiro estágio de seleção (Pre-TC1), os reprodutores selecionam entradas TC1 de uma grande quantidade de populações haploides duplas, cada família contendo dezenas ou mesmo centenas de haploides duplos. Os dados são usados inicialmente per se, mas os reprodutores têm então a opção de escolher as entradas TC1 aleatoriamente, por uma diversidade máxima, ou por predição genômica usando os dados do TC1 ou experimentos de seleção de pedigree aumentados por marcadores (MEPS) de anos anteriores. A predição genômica no Pre-TC1 pode também ser usada para selecionar diretamente as entradas TC2 e ‘pular’ sobre o TC1.
[0073] Qualquer um dos métodos revelados na presente invenção podem ser usados em combinação com quaisquer um dos métodos revelados no pedidos US n° 14/473.183, 14/473.074, e 14/473.183.
[0074] Modalidades adicionais incluem métodos para melhorar a predição genômica ampla para selecionar os inatos e híbridos com tolerância à seca para aumentar a produtividade da cultura agrícola sob condições de seca e um desempenho de produtividade semelhante sob condições ambientais mais favoráveis; melhorar a predição genômica ampla multivariada para selecionar os inatos e os híbridos com um desempenho agronômico e rendimento melhorado para ambientes alvo específicos; melhorar a predição genômica ampla para selecionar inatos e híbridos com um desempenho agronômico e rendimento melhorado para regiões alvo onde as interações genótipo-ambiente são importantes; e melhorar a predição genômica ampla dos efeitos combinados das variações genéticas nativas e transgênicas na produção de inatos e híbridos e o desempenho agronômico para cada um dos métodos descritos acima.
Exemplos
[0075] A presente invenção é ilustrada adicionalmente nos seguintes exemplos, nos quais as partes e as porcentagens são expressas em peso e a temperatura em graus Celsius, exceto onde especificado em contrário. Deve-se compreender que, embora indiquem modalidades da invenção, estes Exemplos são fornecidos somente para fins de ilustração. A partir da discussão acima e desses Exemplos, o versado na técnica pode determinar as características essenciais dessa invenção e, sem que se desvie do caráter e âmbito da mesma, pode fazer várias alterações e modificações da invenção para adaptar a mesma a vários usos e condições. Dessa forma, várias modificações da invenção, além daquelas mostradas e descritas no presente documento, serão aparentes para aqueles versados na técnica a partir da descrição anteriormente mencionada. Essas modificações também se destinam a enquadrar-se no escopo das reivindicações em anexo.
Exemplo 1 Derivação do critério e otimização Acurácia dentro das populações inatas
[0076] A acurácia dentro de uma população é definida na presente invenção como a correlação entre os valores de reprodução verdadeiros e estimados, gij e gij , respectivamente, de um indivíduo j que é retirado aleatoriamente da população de inatos i, e pode ser escrita como
Figure img0009
[0077] Com a suposição de que o modelo estatístico é idêntico ao modelo genético verdadeiro, que será detalhado abaixo, Cov(gij,gij) = Var(gij) , de modo que a fórmula acima se reduz para
Figure img0010
[0078] Nos parágrafos a seguir, as variações de gij e gij são derivadas.
Modelos genéticos e estatísticos
[0079] É uma boa prática na genética quantitativa distinguir o modelo estatístico usado para as análises estatísticas dos dados de treinamento do modelo genético verdadeiro. Enquanto o modelo estatístico pode ser claramente especificado pelo pesquisador, o modelo genético verdadeiro representa suposições sobre a verdadeira natureza, porém desconhecida, dos dados como o número de loci de traços quantitativos, o, modo de herança, as ações dos genes e as interações dos genes. Na maioria dos estudos genéticos ambos os tipos de modelos são considerados idênticos. Para a otimização da abordagem aqui descrita, os modelos genéticos e estatísticos são considerados idênticos. Para os fins de simplificação, as derivações aqui apresentadas são para F1-inatos derivados, mas o versado na técnica entenderá que as derivações podem também ser aplicadas a outras populações no alvo de predição.
Modelo genético e variância de um valor reprodutivo verdadeiro
[0080] O valor de reprodução verdadeiro, gij , do candidato à seleção j a partir de uma população inata, i , isto é no alvo da predição pode ser escrito como
Figure img0011
em que z'ij denota um vetor de estados de alelo no K SNPs. Os estados de alelos podem ter valores 0 ou 1 e são ajustados pela frequência de alelos esperados dentro de um F1 bi-parental- população inata derivada de forma que o valor esperado de z'ij seja zero. Nos loci onde os dois parentais são polimorfos (isto é, um parental tem um estado de alelo 0 e o outro tem um estado de alelo 1), a frequência esperada de alelo é de 0,5, enquanto é 0 ou 1 onde os parentais são monomorfos (isto é, ambos parentais têm estados de alelo idênticos). A variância dos estados de alelos ajustados é de 0,25 no loci polimórfico e 0 em outro lugar. O vetor β contém efeitos SNP aleatórios com média zero e variância I^p . A variância cp será detalhada mais tarde, após a apresentação do modelo estatístico. É também uma boa prática em estatísticas especificar o valor esperado e a variância de uma variável aleatória ou de modelo aleatório; Consequentemente, o valor esperado de gij é
Figure img0012
porque E(zij) = 0 e E(β) = 0 . A variância de gij é Var(gij) = Var(2z'ij β)
Figure img0013
em que N é o número dos SNPs polimórficos da população inata .
Generalização
[0081] Se os efeitos de SNPs têm uma média μp e uma matriz de variância-covariância Vp , então
Figure img0014
Figure img0015
Var(zijk) é igual a 0,2 5 ou 0, e Cov(zijk, j) é derivado abaixo. Se μβ = 0 , e Vβ é uma matriz diagonal Dβ = {oβk} , então
Figure img0016
onde ooly é um indicador que é 1 se SNP k é polimorfo e 0 se for outro.
Modelo estatístico
[0082] O modelo estatístico para fenótipos híbridos pode ser escrito como
Figure img0017
onde é o vetor de fenótipos, é uma matriz de incidência conhecida para efeitos ambientais fixos , é uma matriz para pontuações do genótipo observado, é um vetor dos efeitos do SNP tratados aleatoriamente como média zero e variância , e é um vetor contendo efeitos residuais aleatórios com média zero e variância . Dessa forma, o valor esperado e a variância de são e , respectivamente. A variância comum para todos os efeitos do SNP supõe-se que seja uma função da variância genética aditiva do desempenho híbrido, , como
Figure img0018
onde é uma constante que precisa ser especificada. Aquela constante determina quanto cada efeito de SNP é encolhida para zero na análise estatística e, portanto, pode ter um efeito decisivo nos efeitos estimados e assim na acurácia da seleção
Método estatístico
[0083] O valor de reprodução genômica estimado do candidato à seleção j pode ser estimado pela Melhor Predição Linear não Viesada (BLUP) como 1 , 'V
Figure img0019
onde v'gy é um vetor em linha das relações entre o candidato à seleção j e os indivíduos de treinamento. Supondo que os genótipos SNP foram observados tanto para o candidato à seleção como para os indivíduos de treinamento, v'gy é derivado como
Figure img0020
[0084] Dessa forma,
Figure img0021
[0085] O primeiro caso é usualmente assumido no Genomic BLUP (Habier et al., 2013 supra), enquanto que o segundo é mais similar a BayesA e BayesB (MEUWISSEN, et al. 2001. Genetics 157:1819-1829). O termo Vy1(y - Xb) pode ser reescrito como
Figure img0022
consequentemente,
Figure img0023
Variância dos valores de reprodução estimados
[0086] Primeiro, a variância de gi. dado zi. pode ser escrito como
Figure img0024
[0087] Além disso,
Figure img0025
onde zijk e . denota estados de alelos de indivíduos j da população i nos SNPs k e k’ , respectivamente. O valor esperado de z.k é zero para os loci monomórficos, e é ^ lllpar para os loci polimórficos. O produto do cruzamento entre os estados de alelos nos dois loci monomórficos é zero e nos dois SNPs polimórficos k e k' pode ser expresso como um desequilíbrio de ligação (LD) dentro da população, que pode ser avaliado aqui como
Figure img0026
porque os estados dos alelos foram ajustados por seus valores esperados, as frequências de alelos. O LD resulta totalmente da co-segregação dos estados dos alelos em diferentes locais dos parentais para os descendentes inatos. Consequentemente, este LD dentro da família pode ser derivado por estados de originais dos alelos dos inatos da seguinte forma. Como os estados dos alelos não ajustados zijk e j são variáveis aleatórias Bernoulli, a derivação d e E (zijkzijie) precisa focar apenas nos ** casos onde zj = zjk' =1 . Dependendo dos estados dos alelos não ajustados dos parentais inatos, existem quatro casos diferentes que são resumidos na Tabela 1.
[0088] Tabela 1: O produto de cruzamento esperado dos estados de alelos não ajustados no SNPs k e k' dos inatos a partir de uma população condicional de F1-derivado biparental nos estados de alelos não ajustados dos dois parentais. O jk e O jk' denota origens de alelos parentais dos estados de alelos dos inatos j da população , e ckk' denota a frequência de recombinação entre os SNPs k e k' .
Figure img0027
[0089] LD dentro de uma população bi-parental com os genótipos SNP conhecidos dos parentais pode então ser calculado entre os loci de segregação como
Figure img0028
Figure img0029
[0090] Se os SNPs k e k' não estão ligados, isto é, c ~0.?, então Dikk' = 0; mas se forem firmemente ligados, isto é, ckk' >0, então
Figure img0030
e o LD medido como sendo rk2k ' igual a 1, porque , ) /<://•(_,...- ) 0.2? . Em geral, usando a função do mapeamento de Haldane para substituir a frequência de recombinação ckk' por e ) dá um
Figure img0031
onde d denota a distância do mapa entre SNPs k e k' em Morgan. Como nota, segue que 2 -4-d
Figure img0032
[0091] Em conclusão,
Figure img0033
[0092] Se a metodologia de índice de seleções é usada em vez do BLUP, e Vβ =Iaβ, a fórmula reduz para
Figure img0034
Figure img0035
que reduz o número de cálculos e assim o tempo gasto, enquanto que a acurácia é apenas marginalmente afetada. Note que para cada população inata no alvo de predição um diferente Di precisa ser calculado. O produto matriz ZDiZ' pode ser considerado uma matriz de relacionamento genômico Gi que resultam da classificação de relacionamento genômico por Di e que é assim específico para cada população i . Gi é calculado para cada população i antes que o algoritmo de otimização iterativo inicie (descrito abaixo).
Critério de otimização
[0093] A acurácia de agora pode ser escrita como
Figure img0036
[0094] Se há mais que uma população no alvo de predição, o critério de otimização se torna
Figure img0037
que é a média dede acurácia dentro de uma população inata através de todas populações do alvo da predição. Um problema que pode surgir a partir do uso desta média é que algumas populações podem ter uma alta acurácia, enquanto outras podem ter uma baixa acurácia, um problema encontrado na economia do bem-estar social. Portanto, a equação (1) pode ser substituída por uma função isoelástica como
Figure img0038
onde 7 e [0,1] é chamado de parâmetro de aversão ao risco na economia do bem-estar social. Se 7 = 0 , então Pgjgj age idêntico a Pgjgj , mas conforme 7 aumenta, as populações com alta acurácia são ponderadas mais baixo em favor das populações com menor acurácia.
[0095] Outro problema de usar pgijgij é que Gi deve ser armazenado para cada população e a função de traço tem que ser avaliada para cada população em cada iteração do algoritmo de otimização, que são ambos enormes cargas computacionais conforme o número de populações aumenta. Para resolver este problema analiticamente, a acurácia de gij pode ser substituída pela confiabilidade de gij definida como
Figure img0039
[0096] Então a média de gjgj pode ser escrita como
Figure img0040
[0097] Agora, apenas G tem que ser armazenado e a função de traço precisa ser avaliada apenas uma vez por iteração irrespectiva da quantidade de populações no alvo de predição. Embora a confiabilidade seja amplamente aceita e comumente usada nas aplicações reprodutivas em vez da acurácia, porque descreve a quantidade de variação genética explicada pelos valores de reprodução estimados, ela não é mais exatamente o critério de otimização desejado. Mesmo assim, as análises usando ambos os critérios têm mostrado que o desempenho de otimização não é muito afetado.
Exemplo 2 Abordagens de otimização
[0098] Para identificar os híbridos ótimos, é implementado um algoritmo de seleção iterativo forward que se inicia com o conjunto de dados de estimativa vazio. Em cada iteração, os híbridos do conjunto de candidatos são colocados no conjunto de dados de estimativa um por um e o aumento na acurácia dos valores de reprodução genômica estimados para o alvo de predição é registrado para cada híbrido. O híbrido que resulta no maior aumento na acurácia é movido permanentemente para o conjunto de dados de estimativa, enquanto todos os outros híbridos permanecem no conjunto de candidatos. Isto é repetido até se atingir o tamanho do conjunto de dados de estimativa desejado.
[0099] Os dados exigidos para descrever o alvo de predição são os marcadores de genótipos dos parentais dos cruzamentos reprodutivos. Isto tem a vantagem de que otimizações para cruzamentos futuros podem ser conduzidos. Os dados exigidos para descrever os candidatos híbridos são dos genótipos de seus parentais inatos. Entretanto, mesmo que estes genótipos não estejam disponíveis, um estudo anterior pode ser conduzido por simulações usando os dados do marcador real. A vantagem é que qualquer tipo de cruzamento pode ser avaliado considerando seu potencial para aumentar a acurácia dos valores de reprodução genômica estimados.
Exemplo 3 Resultados dos dados reais
[0100] Um conjunto de metadados que compreende aproximadamente 1.000 híbridos de 16 populações de caule não rígido bi-parental foi usado para estudar os conjuntos de dados de estimativa otimizados em função dos conjuntos de dados de estimativa reunidos aleatoriamente. O procedimento para obter os conjuntos de dados de estimativa otimizados foi realizado conforme descrito no EXEMPLO 2 com o uso das fórmulas matemáticas descritas no EXEMPLO 1 para determinar a acurácia dos valores de reprodução genômica estimados dentro das populações do alvo de predição.
[0101] As populações foram divididas em um conjunto de candidatos e um conjunto de validação e dois cenários separados diferentes foram executados. No primeiro cenário cada população foi otimizada separadamente e os candidatos foram irmãos completos ou meio-irmãos. No segundo cenário todas as populações foram otimizadas simultaneamente e havia cerca de 800 candidatos de todas as populações. A acurácia dos valores de reprodução genômica estimados para a produtividade a partir dos cenários 1 e 2 é apresentada nas Tabelas 2 e 3, respectivamente. O cenário 2 também foi realizado para o traço de umidade no grão. Os resultados são apresentados na Tabela 4. Tabela 2: Cenário 1: Correlação entre o rendimento previsto e observado dentro da população.
Figure img0041
Tabela 3: Cenário 2: Correlação entre o rendimento previsto e observado dentro da população. Estimativa do tamanho do conjunto de dados Otimizado Aleatório
Figure img0042
Tabela 4: Cenário 2: Correlação entre a umidade do grão prevista e observada dentro da população Estimativa do tamanho do conjunto de dados Otimizado Aleatório
Figure img0043
[0102] Os resultados mostraram que os conjuntos de dados de estimativa otimizados dão uma acurácia maior dos valores de reprodução genômica estimativa (com exceção do cenário 2 junto com um tamanho do conjunto de dados de estimativa menor para o trato de produtividade). Uma razão é que a abordagem identifica os híbridos dos irmãos completos mais informativos dos haploides duplos no alvo de predição, que são haploides duplos onde uma metade do genoma vem de um parental de cruzamento reprodutivo bi- parental e a outra metade vem de outro parental. Uma outra razão é que a abordagem de otimização identifica os melhores meio-irmãos para a estimativa selecionando tanto meio-irmãos maternos como paternos, se disponíveis. Finalmente, a abordagem de otimização utiliza a estrutura familiar dentro do alvo de predição por seleção daqueles candidatos no conjunto de dados de estimativa que aumentam tanto quanto possível a acurácia das populações do alvo de predição.
Exemplo 4 Resultados da simulação
[0103] As simulações foram conduzidas para comparar as acurácias da predição genômica para ambos Pre-TC1 e haploides duplos de teste e prateleira obtidos pela abordagem de otimização quando comparados àqueles obtidos a partir de uma seleção de máxima diversidade e uma seleção aleatória para um tamanho de conjunto de dados de estimativa de 800. Adicionalmente, a acurácia da predição genômica para o teste e prateleira foi analisada quando a predição genômica foi aplicada ao Pre-TC1 com um conjunto de dados de estimativa de um ano anterior.
[0104] O alvo de predição consistiu em 48 populações haploides duplas incluindo 25 populações haploides duplas derivadas F1, 18 populações haploides duplas derivadas F2, dois cruzamentos de três vias e três de quatro vias. O conjunto de candidatos para os estudos Pre-TC1 consistiu em populações de haploides que foram criadas dois anos antes para a criação das populações do alvo de predição, enquanto que o conjunto de candidatos para o estudo teste e prateleira consistiu em populações do alvo de predição. Para avaliar o valor informativo dos híbridos dos inatos chave, os seis inatos que foram usados mais frequentemente no alvo de predição foram usados para criar híbridos a partir de todas as combinações possíveis de duas vias e de quatro vias daqueles inatos, isto é, 15 populações haploides duplas derivadas F1 e 15 populações haploides duplas de quatro vias. Cada população no conjunto de candidatos tinha 80 híbridos.
[0105] A acurácia dos valores de reprodução genômica estimados no Pre-TC1, medida como uma correlação dentro da população entre o valor de reprodução genômica estimado e o valor de reprodução verdadeiro simulado, foi 0,02 maior para os conjuntos de dados de estimativa comparados aos conjuntos de dados de estimativa selecionados aleatoriamente. Além disso, a adição dos híbridos dos cruzamentos de quatro vias ao conjunto de dados de estimativa a acurácia dos valores de reprodução genômica estimados aumentou de 4 a 6% com os conjuntos de dados de estimativa otimizados, mas a acurácia foi menor para os conjuntos de dados de estimativa aleatórios.
[0106] A acurácia para o teste e prateleira foi 0,03 maior para os conjuntos de dados de estimativa otimizados quando comparados aos conjuntos de dados de estimativa aleatórios, e a acurácia para os conjuntos de dados de estimativa aleatórios foi de 0,1 a 0,13 menor do que OPT quando a Seleção Genômica foi aplicada ao Pre- TC1. A inclusão dos híbridos dos cruzamentos de quatro vias no conjunto de candidatos aumentou a acurácia de 4 a 6%.
Exemplo 5 Otimização do conjunto de estimativa para as populações inatas em soja
[0107] Nos programas de reprodução de soja atuais, os candidatos à seleção provêm de populações criadas pelo cruzamento de dois inatos e autofecundação de gerações subsequentes de forma que apenas os segmentos dos cromossomos dos dois gametas inatos circulam na população. Os híbridos de F1 são produzidos a partir do cruzamento de inatos, cada um contendo uma cópia dos dois gametas parentais. Esses gametas são recombinadas através de meioses múltiplas até que um novo conjunto de candidatos à seleção é criado. Essas etapas são então repetidas usando linhagens selecionadas para uma nova geração de parentais inatos.
[0108] Para usar a abordagem de otimização, o desequilíbrio de ligação (LD) entre os marcadores nos genomas tem que ser derivado para cada população. Isto foi feito aqui da forma a seguir. Os valores de reprodução verdadeiros e estimados de um indivíduo j da população i, que criou uma base teórica da abordagem de otimização, podem ser escritos como gij=Zij‘β e gij=Zjj‘β, respectivamente, onde Zjy é um vetor dos genótipos SNP. O LD entre os marcadores é medido como a matriz de variância-covariância de Zij, Var(Zjy), que entra diretamente nas equações de otimização. As fórmulas exatas são difíceis de derivar devido a uma quantidade múltipla de meioses e devido à substrutura inerente dentro de cada população única. Portanto, Var(zíy) foi calculado empiricamente usando as simulações Monte Carlo de pedigrees e recombinações que ocorrem durante as meioses. A matriz de variância-covariância foi estimada como Var(zíy) =i∑7=1ziyz ‘jy, onde N = 20.000 indivíduos, que foi maior que o número de genótipos SNP em Zjy, para gerar uma matriz estável, bem condicionada e possivelmente uma matriz de variância-covariância definida positiva. Uma vez que esta matriz foi estabelecida, o algoritmo de otimização foi executado como nos exemplos de milho.
[0109] O conjunto de dados para demonstrar as vantagens da otimização dos conjuntos de estimativa na reprodução da soja continha 19 populações de ao menos 168 indivíduos. Estas populações são maiores que as populações típicas na reprodução de milho, resultando em um potencial maior para os ganhos na acurácia com os conjuntos de estimativa otimizados em comparação com os conjuntos reunidos aleatoriamente. Para as validações de cruzamento, as populações foram divididas aleatoriamente em um conjunto de predição e um conjunto de candidatos de tamanho 100. Isto foi repetido 10 vezes. O algoritmo de otimização foi aplicado aos pares correspondentes dos conjuntos de candidatos e de predição contendo indivíduos da mesma população. O resultado é uma classificação dos 100 indivíduos do conjunto de candidatos de acordo com o maior aumento esperado da acurácia no conjunto de predição. Para avaliar as diferenças na acurácia entre a abordagem aleatória e a otimização em diferentes tamanhos de conjuntos de estimativa, subconjuntos de tamanhos 5, 10, 15, 20 e 25 foram gerados a partir do resultado de otimização final. Para a abordagem de otimização, a classificação foi preservada, enquanto que para a abordagem aleatória os subconjuntos foram escolhidos aleatoriamente a partir do conjunto de candidatos. Os conjuntos de estimativa foram usados para estimar os efeitos do marcador BayesA, que foram então usados para prever os GEBVs de indivíduos da mesma população que a do conjunto de estimativa.
[0110] A Tabela 5 mostra a correlação entre a média dos fenótipos previstos e observados medidos através das populações para diferentes tamanhos de conjunto de estimativa gerados tanto aleatoriamente como com uma abordagem de otimização. Exceto para um tamanho de conjunto de estimativa 5, as otimizações resultaram em maiores correlações que no design aleatório. Especialmente os tamanhos do conjunto de estimativa 25 e 30, os indivíduos mostraram uma superioridade maior do que para a reprodução de milho, provavelmente devido ao tamanho da população maior.
[0111] Tabela 5: Correlação entre a média dos fenótipos previstos e observados medidos em relação a população de acordo com o tamanho de conjunto de estimativa para os conjuntos de estimativa aleatórios e otimizados.
Figure img0044

Claims (6)

1. Método para selecionar indivíduos vegetais em um programa de reprodução, sendo que o dito método é CARACTERIZADO pelo fato de que compreende: a. construir um conjunto de dados de estimativa otimizado mediante: (i) seleção de um candidato de treinamento para fenotipagem a partir de um conjunto de candidatos e colocação do candidato de treinamento no conjunto de dados de estimativa, sendo que a informação genotípica para o candidato de treinamento está disponível; (ii) avaliar a acurácia dos valores de reprodução genômica estimados para candidatos de seleção futuros provenientes de uma ou mais populações em um alvo de predição, em que: (I) quando um alvo de predição consiste em uma população, a dita acurácia dos valores de reprodução genômica estimados é determinada usando a seguinte fórmula: = = H tr{G i V;;}
Figure img0045
(II) quando um alvo de predição consiste em mais de uma população, a dita acurácia dos valores de reprodução genômica estimados é determinada usando a seguinte fórmula:
Figure img0046
(III) quando um alvo de predição consiste em um número maior de populações, a acurácia de gij é substituída pela confiabilidade de gij , que é definida como
Figure img0047
gij é o valor de reprodução verdadeiro do candidato de seleção j da população de inatos i; g ij é o valor de reprodução estimado do candidato de seleção j da população de inatos i; o^β é a variância dos efeitos do SNP; Gi é uma matriz de relacionamento genômico ponderada pelo desequilíbrio de ligação da população de inatos i; V— é o inverso da matriz de variância-covariância dos traços fenótipos de indivíduos no conjunto de dados de estimativa; Ni é o número de SNPs polimórficos da população de inatos i; e δ é um parâmetro de aversão ao risco; (iii) mover o candidato de treinamento para o conjunto de dados de estimativa otimizado somente se a acurácia do valor de reprodução genômica estimado dos candidatos de seleção futuros provenientes de populações no alvo de predição para aquele candidato de treinamento for maior que a dos outros candidatos de treinamento no conjunto de candidatos; e (iv) continuar com as etapas (i) a (iii) até um conjunto de dados de estimativa otimizado ser gerado; b. crescer um ou mais candidatos de treinamento no conjunto de dados de estimativa otimizado para criar uma população com maior acurácia de GEBV para futuros candidatos de seleção em comparação com a acurácia de GEBV usando um conjunto de dados de estimativa aleatório; c. fenotipar os candidatos de treinamento no conjunto de dados de estimativa otimizado; d. genotipar os indivíduos reprodutivos para uma pluralidade de marcadores; e. obter valores de reprodução genômica estimados para os indivíduos reprodutivos utilizando os fenótipos e os genótipos dos candidatos de treinamento no conjunto de dados de estimativa otimizado; f. selecionar indivíduos reprodutivos com base nos valores de reprodução genômica estimados; e g. cruzar os ditos indivíduos reprodutivos selecionados para criar uma população melhorada de indivíduos reprodutivos.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita informação genotípica para o candidato é obtida através de genotipagem ou usando simulações Monte Carlo.
3. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os ditos indivíduos reprodutivos são homozigotos para um traço de interesse ou um alelo.
4. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os ditos indivíduos vegetais são selecionados do grupo que consiste em: milho, soja, girassol, sorgo, canola, trigo, alfafa, algodão, arroz, cevada, painço, cana-de-açúcar e gramínea.
5. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que a dita acurácia dos valores de reprodução genômica estimados é calculada usando uma fórmula matemática que entra com a informação do marcador a partir dos candidatos no conjunto de candidatos e a informação do marcador a partir de progenitores de uma ou mais populações que formam um alvo de predição.
6. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os ditos indivíduos reprodutivos são inatos ou haploides duplos.
BR112016015033-3A 2013-12-27 2014-12-22 Método para selecionar indivíduos vegetais BR112016015033B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361921216P 2013-12-27 2013-12-27
US61/921,216 2013-12-27
PCT/US2014/071889 WO2015100236A1 (en) 2013-12-27 2014-12-22 Improved molecular breeding methods

Publications (2)

Publication Number Publication Date
BR112016015033A2 BR112016015033A2 (pt) 2017-08-08
BR112016015033B1 true BR112016015033B1 (pt) 2022-09-06

Family

ID=52432916

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016015033-3A BR112016015033B1 (pt) 2013-12-27 2014-12-22 Método para selecionar indivíduos vegetais

Country Status (11)

Country Link
US (1) US20160321396A1 (pt)
EP (1) EP3086633B1 (pt)
CN (1) CN106028794B (pt)
AU (1) AU2014370029B2 (pt)
BR (1) BR112016015033B1 (pt)
CA (1) CA2932507C (pt)
MX (1) MX2016008461A (pt)
PH (1) PH12016501255A1 (pt)
RU (1) RU2016130577A (pt)
WO (1) WO2015100236A1 (pt)
ZA (1) ZA201603680B (pt)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016100061A1 (en) * 2014-12-18 2016-06-23 Pioneer Hi-Bred International, Inc. Improved molecular breeding methods
CN107278877B (zh) * 2017-07-25 2019-10-22 山东省农业科学院玉米研究所 一种玉米出籽率的全基因组选择育种方法
MY197312A (en) * 2017-11-22 2023-06-13 Felda Agricultural Services Sdn Bhd Method and system for selecting a plant breed
CA3130155A1 (en) * 2019-03-11 2020-09-17 Pioneer Hi-Bred International, Inc. Methods and compositions for imputing or predicting genotype or phenotype
EP3938521A1 (en) 2019-03-11 2022-01-19 Pioneer Hi-Bred International, Inc. Methods for clonal plant production
CN111291931B (zh) * 2020-02-05 2022-05-20 傲网信息科技(厦门)有限公司 动物育种预测方法、装置、电子设备和存储介质
EP4138542A4 (en) * 2020-04-23 2024-05-22 Inari Agriculture Technology, Inc. METHODS AND SYSTEMS FOR USING AN ENVIROTYPE IN GENOMICS SELECTION
US20230154623A1 (en) * 2021-11-17 2023-05-18 Fetch Insurance Services, Inc. Techniques for predicting diseases using simulations improved via machine learning
CN114912040A (zh) * 2022-04-19 2022-08-16 中国农业科学院作物科学研究所 育种处理方法、装置及计算机可读存储介质
CN115316266B (zh) * 2022-09-05 2023-09-08 新疆农垦科学院 一种作物群体改良和品种选育方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080163824A1 (en) * 2006-09-01 2008-07-10 Innovative Dairy Products Pty Ltd, An Australian Company, Acn 098 382 784 Whole genome based genetic evaluation and selection process

Also Published As

Publication number Publication date
RU2016130577A (ru) 2018-02-01
PH12016501255A1 (en) 2016-08-15
EP3086633B1 (en) 2020-02-26
CA2932507C (en) 2022-06-28
US20160321396A1 (en) 2016-11-03
CN106028794B (zh) 2020-07-28
WO2015100236A1 (en) 2015-07-02
BR112016015033A2 (pt) 2017-08-08
AU2014370029A1 (en) 2016-06-16
AU2014370029B2 (en) 2020-05-28
CN106028794A (zh) 2016-10-12
ZA201603680B (en) 2017-11-29
EP3086633A1 (en) 2016-11-02
MX2016008461A (es) 2016-10-28
CA2932507A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
BR112016015033B1 (pt) Método para selecionar indivíduos vegetais
Hu et al. Genome assembly and population genomic analysis provide insights into the evolution of modern sweet corn
US8874420B2 (en) Methods for increasing genetic gain in a breeding population
US10455783B2 (en) Compositions and methods of plant breeding using high density marker information
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
BRPI0708486B1 (pt) Métodos de alto rendimento para a análise de uma população de sementes haploides e para agrupar uma população de sementes duplo haploides
BRPI0812744B1 (pt) Métodos para melhoramento molecular direcionado por sequência
BR102014033125A2 (pt) seleção baseada em valor de haploide ideal para criar linhagens de elite
BR112012018750A2 (pt) marcadores genéticos associados a tolerância à seca no milho
US20170022574A1 (en) Molecular markers associated with haploid induction in zea mays
Rahimi Genetic diversity, population structure and screening of molecular markers associated to agronomic traits in Safflower (Carthamus tinctorius L.)
Koizumi et al. Association of genome-wide SNP markers with resistance to common scab of potato
He et al. Quantitative trait locus mapping of yield and plant height in autotetraploid alfalfa (Medicago sativa L.)
Habyarimana et al. Whole-genome resequencing of Sorghum bicolor and S. bicolor× S. halepense lines provides new insights for improving plant agroecological characteristics
Hauck et al. Generation means analysis of elite ex‐plant variety protection commercial inbreds: A new public maize genetics resource
Gonzalo et al. Mapping reciprocal effects and interactions with plant density stress in Zea mays L.
Truntzler et al. Diversity and linkage disequilibrium features in a composite public/private dent maize panel: consequences for association genetics as evaluated from a case study using flowering time
Zamudio et al. Comparative analysis of SNP data and hybrid taxa information by using a classificatory linear mixed model to study the genetic variation and heritability of initial height growth in selected poplar hybrids
Lorenz et al. Selection for silage yield and composition did not affect genomic diversity within the Wisconsin quality synthetic maize population
Sun et al. Differential gene expression in liver of inbred chickens and their hybrid offspring
DE FARIA Genomic Selection and Genome-Wide Association Studies for growth traits in breeding populations of Eucalyptus
Zambelli The importance of deep genotyping in crop breeding
Muhinyuza et al. 4 CHAPTER IV: ASSESSMENT OF GENETIC RELATIONSHIP AMONG POTATO GENOTYPES GROWN IN RWANDA USING SSR MARKERS
Class et al. Patent application title: METHODS AND COMPOSITIONS FOR PREDICTING UNOBSERVED PHENOTYPES (PUP) Inventors: Zhigang Guo (Research Triangle Park, NC, US) Venkata Krishna Kishore (Bloomington, IL, US) Venkata Krishna Kishore (Bloomington, IL, US)
Yousef et al. 3 Evidence for strong population structure caused by germplasm regeneration in ex situ genebank collections of cauliflower (Brassica oleracea var. botrytis)

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 22/12/2014, OBSERVADAS AS CONDICOES LEGAIS