BRPI0721009A2 - Reagentes e métodos de seleção artificial - Google Patents

Reagentes e métodos de seleção artificial Download PDF

Info

Publication number
BRPI0721009A2
BRPI0721009A2 BRPI0721009-4A BRPI0721009A BRPI0721009A2 BR PI0721009 A2 BRPI0721009 A2 BR PI0721009A2 BR PI0721009 A BRPI0721009 A BR PI0721009A BR PI0721009 A2 BRPI0721009 A2 BR PI0721009A2
Authority
BR
Brazil
Prior art keywords
ancestors
founders
population
data
individual
Prior art date
Application number
BRPI0721009-4A
Other languages
English (en)
Inventor
Ben Hayes
Michael Goddard
Original Assignee
Agriculture Victoria Serv Pty
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39536762&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0721009(A2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Agriculture Victoria Serv Pty filed Critical Agriculture Victoria Serv Pty
Publication of BRPI0721009A2 publication Critical patent/BRPI0721009A2/pt
Publication of BRPI0721009B1 publication Critical patent/BRPI0721009B1/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K67/00Rearing or breeding animals, not otherwise provided for; New or modified breeds of animals
    • A01K67/02Breeding vertebrates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Environmental Sciences (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Animal Husbandry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

REAGENTES E MÉTODOS DE SELEÇÃO ARTIFICIAL
DADOS RELACIONADOS AO PEDIDO
Este pedido reivindica prioridade sob a Convenção de Paris para USSN 60/876.623 depositado no "United States
Patent and Trademark Office" em 21 de dezembro de 2006, cujos detalhes são aqui incorporados em sua totalidade. CAMPO DA INVENÇÃO
A presente invenção está relacionada de forma geral ao campo da seleção artificial, incluindo o melhoramento de animais e plantas comercialmente importantes e, mais especificamente, aos métodos e reagentes para a seleção assistida por marcador em animais e plantas.
FUNDAMENTOS DA INVENÇÃO
Programas de seleção artificial se preocupam 15 principalmente com o ganho genético crescente em virtude das contribuições de mais genes de "bons" ancestrais. O meio tradicional para a determinação do ganho genético expressa o ganho como o produto da intensidade, precisão e desvio padrão genético da seleção definidos em uma única 20 geração. Woolliams e cols., Genetics 153, 1.009-1.020 (1999) mostraram que o processo de genes contribuintes para uma população envolve mais do que uma única geração e que o ganho sustentado depende da variação da amostragem Mendeliana que entra na população em cada geração. De forma 25 simples, o ganho genético da seleção artificial estará relacionado à contribuição genética de longo prazo de um ancestral para a população, bem como ao valor genético (breeding value) marginal de um indivíduo, ligando, dessa forma, o ganho genético ao desenvolvimento de pedigree.
Por séculos, a seleção artificial se baseava inteiramente no fenótipo. Embora isso tenha se mostrado útil, é demorado e dispendioso. Em particular, a seleção artificial baseada ém fenõtipo pode utilizar testes da prole nos quais o valor genético estimado de um indivíduo é 5 determinado por realização de múltiplos emparceiramentos do indivíduo e determinação do desempenho da prole quanto a um traço ou caráter fenotípico em particular. Por exemplo, Schaeffer J. Anim. Breed. Genet. 123, 218-223 (2006) estimaram que o tempo gasto para provar um touro Holstein é 10 de aproximadamente 64 meses desde a concepção até a primeira prova, pressupondo um período de gestação de 9 messes, e que touros jovens cruzam com um ano de idade e as fêmeas com 15 meses de idade. Nesse exemplo, o custo total de testar um touro foi estimado em cerca de 4 0.000 dólares, 15 incluindo o custo de alojamento e alimentação do touro, coleta e armazenamento de sêmen, emparceiramentos de teste e classificação das filhas. No entanto, o custo para uma empresa de inseminação artificial que adquire grandes quantidades de bezerros de touro jovem para reprodução
2 0 seria bem maior, embora compensado pelo retorno dado por
algum touro jovem.
A genômica forneceu a possibilidade de seleção artificial com base no genótipo. Uma seqüência do genoma completo para uma espécie permite a construção de qualquer 25 número de chips ou microarranjos de DNA de cerca de 10.000 ou mais ácidos nucléicos, cada um deles compreendendo um marcador polimórfico. O conhecimento de alelos informativos, genes, polimorfismos, haplótipos ou haplogrupos etc. para Ioci de traço quantitativo (QTL) ou
3 0 um traço em particular facilita a triagem de indivíduos ou germoplasma e dá uma estimativa de seus valores genéticos estimados (EBV) a ser feita. Issó se dá porque a seleção genotípica se bàsèia na habilidade para genotipar indivíduos quanto a genes ou marcadores específicos que 5 estão em equilíbrio ’ de ligação (marcadores esparsos) ou desequilíbrio de ligação (marcadores densos) com um QTL em particular ou com outro lócus de interesse, de tal forma que o valor genético de um indivíduo pode ser estimado com o uso de haplótipos de marcadores associados ao QTL ou a 10 outro lócus. A seleção genotípica é especialmente poderosa quando a seleção é desejavelmente, ou necessariamente, independente da expressão, por exemplo, no caso de seleção sobre traços de produção de leite em animais machos. A seleção genotípica pode não ser baseada no pedigree, quando 15 as associações genotípicas nas quais se baseia são derivadas de uma população atual ou, no caso de mapas de marcador esparso, quando as associações genotípicas são derivadas de dados de uma grande família de meio-irmãos ou de cruzamentos limitados.
2 0 A seleção genotípica dos "melhores" indivíduos pode se
basear em uma pontuação atribuída a um alelo informativo, gene, polimorfismo, haplótipo ou haplogrupo etc. do indivíduo isoladamente, ou em tandem com EBV baseado no fenótipo ou EBV baseado no genótipo. São preferidas 25 múltiplas bases para a seleção para minimizar a perda em resposta a poligenes ou outros QTL. Walsh Theor. Population Biol. 59, 175-184 (2001) também sugeriram que o fenótipo deve permanecer um componente na seleção, para capturar a variação que surge em decorrência de novas mutações e para
3 0 evitar reduções drásticas no tamanho efetivo da população, variância mutacional acumulada decorrente de mudança genética aleatória e a taxa de longo prazo de resposta à seleção que, de outro modo, surgiria em decorrência da seleção dirigida a genótipos específicos.
A seleção genotípica é facilitada por meio
computacional, incluindo abordagens de reamostragem, por exemplo, testes de randomização e bootstrapping, que permitem a construção de intervalos de confiança e testes de significância adequados, por exemplo, Melhores Preditores Lineares Não Viciados (Best Linear Unbiased Predictors) (BLUP; Henderson Em: "Applications of Linear Models in Animal Breeding", "University of Guelph", Guelph, Ontário, Canadá; Lynch e Walsh, Em: "Genetics and Analysis of Quantitative Traits", Sunuaer Associates, Sunderl e MA, EUA, 1998) ; a abordagem de "Monte Carlo por Cadeia de Markov" (MCMC) (Geyer e cols., Stat. Sei. 7, 73-511, 1992; Tierney e cols., Ann. Statist. 22, 1.701-1.762, 1994; Tanner e cols., Em: "Tools for Statistical Analysis", Springer-Verlag, BerIin/Nova York, 1996) ; o amostrador de Gibbs (Geman e cols., IEEE Trans. Pattern Anal. Mach. Intell. 6, 721-741, 1984); distribuição posterior bayesiana (por exemplo, Smith e cols., J. Royal Statist. Soc. Ser. B55, 3-23, 1993) . Sob análise bayesiana, probabilidades semi-subjetivas sobre um parâmetro da população são atribuídas para incertezas e depois analisadas e refinadas com experiência, permitindo, dessa forma, que uma crença prévia sobre um parâmetro da população seja atualizada para uma crença posterior. Por exemplo, foram propostos métodos bayesianos baseados em reamostragem para mapeamento múltiplo de QTL por Sillanpaa e Arjas, Genetics 148, 1.373- 1.388 (1998); Sillanpaa e Arjas, Genetics 151, 1.605-1.619 (1999); e Stephens e Fisch, Biometrics 54, 1.334-1.347 (1998). Meuwissen e cols., Genetics 157, 1.819-1.829 (2001) simularam um genoma de 1.000 cM com marcadores presumidos 5 para estarem em desequilíbrio de ligação espaçados com intervalo de 1 cM por todo o genoma, de tal forma que os marcadores fossem combinados em pares de haplótipos em torno de cada região de 1 cM, e compararam abordagens de mínimos quadrados, BLUP e bayesianas para estimativas do 10 efeito de cada par de haplótipos simultaneamente (50,00 efeitos de haplótipos no total) , ou seja, para toda a população e não específicos para qualquer um individual; os autores mostraram que o EBV do agregado podia ser determinado para a prole, desde que aqueles animais fossem 15 genotipados e os haplótipos de marcadores fossem determinados em uma precisão de 0,75-0,85 para todas as abordagens. Nessa simulação, presumiu-se que o tamanho efetivo da população é constante.
Podem ser construídos mapas de marcador esparso com o
2 0 uso de marcadores em equilíbrio de ligação e espaçados com
intervalos de cerca de 2 0 cM com base em dados de uma grande família de meio-irmãos ou cruzamentos limitados. Por exemplo, Georges e cols., Genetics 139, 907-929 (1995) prepararam um mapa genético esparso de marcadores genéticos 25 que resultou na detecção de alguns QTL para a produção de leite, e a inclusão de informação de marcador em valores genéticos de BLUP previu um ganho de 8-38% (Meuwissen e Goddard, Genet. Sei. Evol. 28, 161-176 (1996)). No entanto, a utilidade dessa informação é limitada em populações sem
3 0 relação de parentesco (outbreeding), pois a fase de ligação entre um marcador e QTL deve ser estabelecida para cada e todas as famílias nas quais o marcador deve ser usado para seleção. Conseqüentemente, há problemas de implementação significativos com abordagens conhecidas de mapeamento esparso.
Mapas de marcador denso, geralmente construídos a partir de polimorfismos nucleares únicos (SNPs) e/ou microssatélites, permitem o mapeamento de Ioci de traço quantitativo (QTL) , estudos de associação e estimativas da relação entre indivíduos em uma amostra de uma população.
Com mapas de marcador denso, os marcadores possuem maior probabilidade de estar em desequilíbrio de ligação com um QTL e, portanto, mais positivamente associados a um traço quantitativo de interesse do que para um mapa esparso, de tal forma que a seleção não necessita que seja estabelecida uma fase de ligação para cada família. Marcadores em desequilíbrio de ligação estão geralmente dentro de cerca de 1 cM a 5 cM de um lócus de interesse. Além disso, a identificação de marcadores de desequilíbrio de ligação necessita de genes candidatos (Rothschild e Soller, Probe 8, p. 13, 1997) ou abordagens de mapeamento refinado (Anderson e cols., Nature Reviews Genet. 2, 130- 13 8, 2 001) . Dessa forma, para um genoma de cerca de 3.00 0 cM, são necessários cerca de 3.001 marcadores em intervalos de 1 cM ou mais.
Apesar da habilidade teórica para produzir mapas de marcador denso do genoma completo que teoricamente cobrem genomas inteiros, há várias limitações na aplicação dessa tecnologia. Como há uma necessidade absoluta de que os 3 0 marcadores nesses mapas sejam informativos, os números reais de marcadores necessários são bem maiores do que um mínimo teórico. Além disso, há necessidade de construir haplótipos herdados do(s) parente(s) para cada par contíguo de marcadores bialélicos, um de quatro haplótipos 5 informativos possíveis estará ligado a um único QTL na média, e as freqüências de cada haplótipo irão variar, dependendo da freqüência de cada alelo contribuinte, bem como da distância entre os marcadores. Isso significa que devem ser genotipados animais suficientes para assegurar 10 que todos os haplótipos estejam representados e seus efeitos determinados. A necessidade de marcadores densos significa que o número de animais necessário também irá aumentar, dependendo do tamanho do genoma. Finalmente, não existem mapas de marcador denso para todas as espécies.
O custo elevado da genotipagem torna infactível a
implementação de todos os marcadores disponíveis através dos genomas da maioria das espécies. Esses custos são decorrentes da associação inicial de efeitos de haplótipo, o que está correlacionado com a limitação citada no
2 0 parágrafo precedente, e ao custo unitário da genotipagem de um indivíduo para estimar seu valor genético. Por exemplo, no caso de gado, Schaeffer J. Anim. Breed. Genet. 123, 218- 223 (2006) estimaram que seria necessário um mínimo de cerca de 10.000 marcadores em um mapa de marcador denso do
2 5 genoma completo, e que o custo unitário aproximado da genotipagem de um animal para esse número de marcadores de SNP é de cerca de 400 dólares. 0 custo unitário real é comparado desfavoravelmente com aquele que seria aceitável para a indústria, ou seja, cerca de 20-200 dólares por 30 animal. No entanto, se partimos do pressuposto de que os efeitos de haplótipo são derivados de 50 famílias ancestrais com 5 0 filhos cada, o custo chega quase a 1.000.000 de dólares. Esse custo naturalmente irá aumentar se forem genotipados indivíduos adicionais, por exemplo,
filhas dos filhos nos testes, de acordo com a práticapadrão. Dessa forma, a implementação do início de um esquema de genoma completo com o uso de mapas de marcador denso é caro, por causa dos grandes números de indivíduos que precisam ser genotipados para estimar os efeitos de
haplótipo e por causa dos altos custos unitários. Esses altos custos impedem que a indústria utilize essa tecnologia. Os métodos para a implementação economicamente viável da seleção do genoma completo com o uso de mapas de marcador denso não estão disponíveis rotineiramente.
Vários autores propuseram a identificação de
subconjuntos informativos mínimos de SNPs que permitiriam a reconstrução de haplótipos inferidos por genotipagem de todos os outros SNPs previamente conhecidos em uma população atual, ou seja, independente de pedigree,
2 0 especialmente com relação ao genoma humano, ou seja,
"rotulagem de SNPs" (por exemplo, Avi-Itzhak e cols., Proc. Pacific Symposium Biocomputing 8, 466-477, 2003; Hampe e cols., Hum. Genet. 114, 36-43, 2003; Ke e cols., Bioinformatics 19, 287-288, 2003; Meng e cols., Am. J. Hum.
Genet. 73, 115-130, 2003; Sebastiani e cols., Proc. Natl. Acad. Sci USA 100, 9.900-9.905, 2003; Stram e cols., Hum. Heredity 55, 179-190, 2003; Thompson e cols., Hum. Heredity 56, 48-55, 2003; Wang e cols., Hum. Mol. Genet. 12, 3.145- 3.149, 2003; Weale e cols., Am. J. Hum. Genet. 73, 551-565,
3 0 2 0 03; Halldórsson e cols., Genome Res. 14, 1.633-3.640, 2006) . Tais métodos exigem a determinação das vizinhanças de desequilíbrio de ligação no genoma pára, dessa forma, determinar aqueles SNPs ("SNPs rotulados") que podem ser usados para inferir cada um dos outros (porque eles estão 5 ligados). Essas vizinhanças podem ser blocos de haplótipos para os quais dois SNPs são considerados como estando correlacionados caso ocorram no mesmo bloco de haplótipo, com poucas evidências de recombinação entre eles (por exemplo, Johnson e cols., Nature Genetics 29, 233-237, 10 2001; Zhang e cols., Am. J. Hum. Genet. 73, 63-73, 2003), ou uma união de blocos de haplótipos possíveis que contêm SNPs específicos (por exemplo, Halldórsson e cols., Genome Res. 14, 1.633-3.640, 2006). Alternativamente, as vizinhanças são consideradas como consistindo apenas 15 naqueles SNPs dentro de uma distância de menos de 1 unidade LD entre eles, com base em mapas métricos de LD (por exemplo, Maniatis e cols., Proc. Natl. Acad. Sci USA 99, 2.228-2.233, 2002). No entanto, até recentemente não havia meios de definição da qualidade da informação de SNPs
2 0 rotulados dentro das vizinhanças de desequilíbrio de
ligação, ou seja, de determinação de quão bem qualquer SNP rotulado caracterizaria a diversidade genética ou a variância observada para a vizinhança, porque os modelos usados pressupunham que as regiões do genoma com as quais 25 lidam fossem pequenas e que não houvesse muitos SNPs envolvidos. Zhang e cols., Am. J. Hum. Genet. 73, 63-73 (2 003) propuseram um método para lidar com grandes conjuntos de dados nos quais os cromossomos são divididos em blocos de haplótipos e um conjunto de SNPs de rotulagem
3 0 é selecionado dentro de cada bloco por imposição de um custo para a não rotulagem de certo SNP em termos da perda de diversidade de haplófeipo. Halldórsson e cols., Genome Res. 14, 1.633-3.640 (2006) sugeriram uma estrutura algorítmica para a definição da qualidade da informação de 5 grandes conjuntos de dados de SNPs no cromossomo humano 22, com o uso de um método sem blocos para a determinação de vizinhanças em desequilíbrio de ligação, que exige que estejam disponíveis dados da fase haplótipo. Basicamente, a medida da qualidade da informação de Halldórsson e cols. é 10 calculada examinando-se os padrões de haplótipo para um conjunto de vizinhos de um SNP-alvo, determinando-se aqueles pares de haplótipos que possuem diferentes alelos no SNP-alvo, e depois determinando-se a proporção daqueles pares de haplótipos que não possuem o mesmo conjunto de 15 alelos em todos os SNPs no conjunto de vizinhos. Apesar das vantagens de SNPs de rotulagem, esses métodos ainda exigem que sejam genotipados grandes números de SNPs.
Conseqüentemente, permanece a necessidade de métodos informativos e economicamente viáveis de realizar a seleção
2 0 artificial com o uso de uma abordagem baseada em genômica.
SUMÁRIO DA INVENÇÃO 1. Definições
O termo "alelo" refere-se a qualquer uma das diferentes formas de um gene ou seqüência de DNA em um único lócus, ou seja, localização cromossômica, incluindo uma seqüência codificadora, seqüência não codificadora ou seqüência reguladora.
0 termo "polimorfismo de comprimento de fragmento amplificado" ou "AFLP" refere-se a qualquer um de
3 0 diferentes comprimentos de fragmento de DNA produzidos por amplificação por iniciação aleatória de fragmentos de DNA de restrição em pool ou isolados de DNA ou cDNA genômico, em que o comprimento do fragmento varia entre indivíduos em uma população.
0 termo "ancestral" significa um indivíduo que possui
uma contribuição genética para a população atual. 0 termo "ancestral" é, dessa forma, uma função do pedigree, cuja determinação não exige conhecimento prévio de um traço ou uma combinação de traços em particular presente na 10 população atual e seus progenitores. As informações de genótipo para um ancestral, ao contrário de um fundador, são geralmente incompletas em conseqüência do registro deficiente e da ausência de material genético, por exemplo, sêmen, do ancestral para permitir a genotipagem, de tal 15 forma que os genótipos ausentes da população ancestral devem ser deduzidos para completar uma análise do genótipo. Ancestrais em um pedigree podem ser sobrepostos, por exemplo, um pai e um de seus filhos, em virtude da contribuição de material genético comum para a população
2 0 atual, apesar de quaisquer genes que tenham sido
contribuídos independentemente por um ou outro ancestral. Para determinar a ascendência, o relacionamento médio de um progenitor para a população atual é determinado por exclusão de contagem dupla de contribuições sobrepostas do ancestral.
0 termo "seleção artificial" significa uma seleção sob controle humano, incluindo aqueles sistemas, processos, etapas ou combinações de etapas de um programa de melhoramento para a produção de ganho genético, incluindo o
3 0 design e/ou implementação coletiva do referido programa de melhoramento e etapas intermediárias por uma ou mais pessoas. Deve-se entender que a seleção artificial, portanto, exige uma determinação pelo homem, com base em um critério de seleção definido ou critérios de seleção 5 definidos, de um ou mais indivíduos em uma população que devem ser progenitores e, em última análise, ancestrais, produzindo, dessa forma, um ganho genético como aqui definido. Isso é distinto da simples observação da genética da população, por exemplo, para a determinação de um 10 parâmetro genético como, por exemplo, hereditariedade, diversidade, endogamia etc. Os sistemas de seleção artificial incluem processos de seleção fenotípica e de seleção genotípica. As etapas de seleção artificial incluem, por exemplo, a determinação de um ou mais dos 15 seguintes parâmetros: critérios de seleção e/ou objetivos do cruzamento; um ou mais índices de seleção; um ou mais alvos de seleção; intensidade de seleção; um ou ambos os parceiros sexuais para um único emparceiramento ou para múltiplos emparceiramentos, incluindo referencias e/ou 20 substituições; o número de emparceiramentos que qualquer um ou mais indivíduos irá contribuir para um programa de melhoramento e o período de tempo que individual permanecerá em uma população de procriação; o intervalo de geração; o valor genético; ou o ganho genético. As etapas 25 da seleção artificial também podem incluir, por exemplo, a realização de uma ou mais etapas de cruzamento com base na determinação de um ou mais parâmetros supra e/ou na prole da seleção.
0 termo "objetivo do cruzamento" refere-se a um objetivo de um programa de seleção artificial, por exemplo, um germoplasma aprimorado. O objetivo do cruzamento pode ser determinado pela combinação ponderada de traços que definem um valor genético agregado de um animal.
0 termo "valor genético" significa o valor genético de 5 um indivíduo como um parente em um programa de melhoramento e, mais particularmente, o efeito dos genes de um indivíduo ou de marcadores genéticos, quando considerados isolados ou em combinação ("valor genético agregado") sobre o desempenho contra um critério de seleção ou contra 10 critérios de seleção.
Por toda esta especificação e nas reivindicações em anexo, a menos que o contexto defina de forma diferente, a palavra "compreende", ou variações tais como "que compreende" ou "compreendendo", será subentendida como 15 implicando na inclusão de uma etapa ou elemento ou número inteiro ou grupo de etapas ou elementos ou números inteiros estabelecidos, mas não a exclusão de qualquer outra etapa ou elemento ou número inteiro ou grupo de elementos ou números inteiros.
2 0 0 termo "população atual" significa uma população de
elementos que são candidatos à seleção. Tipicamente, a população atual inclui indivíduos, por exemplo, animais, que estão no ponto final em um pedigree, ou próximos a ele.
Como aqui usado, o termo "derivado de" deve ser considerado como indicando que um número inteiro especificado pode ser obtido a partir de uma fonte particular, embora não necessariamente diretamente daquela fonte.
O termo "tamanho efetivo da população" ou "Ne" refere
3 0 se ao número de indivíduos em uma população que contribuem cora gametas para a geração seguinte e, preferivelmente, também para as gerações futuras. 0 tamanho efetivo da população é geralmente calculado como o número de indivíduos reprodutores em uma população idealizada que 5 exibiria a mesma quantidade de dispersão de freqüências de alelo sob mudança genética aleatória ou a mesma quantidade de endogamia que uma população sob consideração. Por exemplo, em uma população emparceirada aleatoriamente que consiste em 1.000 indivíduos dos quais 500 são do sexo 10 masculino e 500 são do sexo feminino com gerações distintas, a fração esperada dos genes carregados por qualquer geração futura contribuídos por qualquer animal na geração atual é de 0,1%, e o tamanho efetivo da população é o mesmo que o tamanho absoluto ou real da população (N), ou 15 seja, 1.000. No entanto, como a maioria das populações é endogâmica em algum grau, os indivíduos não selecionam os parceiros aleatoriamente, as gerações podem se sobrepor e geralmente menos indivíduos do sexo masculino cruzam do que do sexo feminino, o tamanho efetivo da população
2 0 tipicamente possui um valor menor do que o tamanho absoluto
ou real da população.
0 termo "valor genético estimado" ou "EBV" refere-se a um valor genético previsto da prole de um evento de emparceiramento, determinado multiplicando-se a ploidia do 25 organismo em questão pela diferença da prole, ou seja, a diferença entre os desempenhos médios da prole de um indivíduo e os desempenhos médios de toda a prole em uma , população, supondo-se emparceiramento aleatório. Para um organismo diplóide, a diferença da prole é dobrada, pois o
3 0 valor genético é uma medida de todos os genes para o organismo, enquanto a diferença da prole se baseia na contribuição apenas de um genoma haplóide de um parente. As diferenças da prole se baseiam no desempenho médio previsto da prole, pois cada parente contribui com o mesmo número de genes para cada prole na população.
0 termo "fundador" significa um indivíduo em um pedigree para o qual ambos os progenitores não são conhecidos. Fundadores podem ser usados no método aqui descrito no lugar de ancestrais quando pedigree conhecido 10 for incompleto e/ou os genótipos dos ancestrais não forem conhecidos ou capazes de serem derivados. A presente invenção possui utilidade quando os genótipos de uma população fundadora foram usados para inferir os genótipos da população atual; no entanto, isso é menos preferido do 15 que a utilização de genótipos dos ancestrais, porque espera-se que haja menos ancestrais fundamentais (key ancestors) do que fundadores. Na medida em que a invenção possui um nível alto de precisão quando se utilizam genótipos de fundadores, a população fundadora também pode
2 0 servir como um modelo adequado para uma população
ancestral.
0 termo "intervalo de geração" significa a quantidade de tempo necessária para substituir uma geração com a seguinte e, em uma população fechada que é submetida à seleção artificial, a idade média de progenitores quando sua prole selecionada nasce.
Como aqui usado, o termo "ganho genético" significa a mudança média em um traço hereditário ou combinação de traços hereditários de uma geração para a geração seguinte,
3 0 incluindo um ganho genético previsto e/ou ganho genético real. Mais particularmente, a mudança média está na direção de um ou mais alvos de seleção, ou pelo menos irá evitar ganho genético negativo significativo, ou seja, um efeito indesejável para os critérios de seleção. O ganho genético pode surgir em decorrência de seleção artificial.
O termo "seleção genotípica" significa uma seleção artificial baseada na presença e/ou ausência de um ou mais genes ou marcadores genéticos de um indivíduo associados a um gene em particular, uma combinação de genes, traço de
gene único, traço quantitativo ou combinação de traços. A seleção genotípica inclui um arranjo diverso de métodos de seleção assistida por marcador que compreendem o uso de marcadores genéticos, por exemplo, alelos, haplótipos, haplogrupos, Ioci, Ioci de traço quantitativo ou
polimorfismos de DNA [polimorfismos de comprimento do fragmento de restrição (RFLPs), polimorfismos de comprimento de fragmento amplificado (AFLPs), polimorfismos nucleares únicos (SNPs), indels, repetições em tandem curtas (STRs), microssatélites e minissatélites], em que os
2 0 marcadores são determinantes do valor genético estimado do
indivíduo.
Um "haplogrupo" é um agrupamento de haplótipos similares, por exemplo, haplogrupos do cromossomo Y humano definido com base nos eventos de mutação únicos em Y-STRs.
O termo "haplótipo" refere-se a uma combinação de
alelos, Ioci ou polimorf ismos de DNA que estão ligados, de forma a co-segregar em uma proporção significativa de gametas durante a meiose. Os alelos de um haplótipo podem estar em desequilíbrio de ligação (LD).
3 0 0 termo "indel" refere-se a qualquer uma das diferentes inserções ou eliminações de DNA em um alelo ou lócus em particular que estejam presentes em diferentes indivíduos em uma população. Por exemplo, polimorfismos Alu do cromossomo Y (YAPs).
Como aqui usado, o termo "inferir" ou termos
equivalentes, tais como "inferência" ou "inferido", por exemplo, no contexto de um genótipo, haplótipo, QTL, marcador etc., deve ser interpretado como significando que um genótipo é deduzido a partir de informações disponíveis 10 e, mais particularmente, que informações ausentes como, por exemplo, um genótipo ausente com relação a qualquer um ou mais marcadores, por exemplo, em uma localização específica no genoma de um indivíduo, são deduzidas. Por exemplo, um genótipo ausente para um ancestral (e/ou fundador) é 15 "inferido" com o uso de dados do genótipo de um indivíduo na população atual relacionados ao pedigree para o ancestral (e/ou fundador), por realização da presente invenção, descrita de acordo com uma ou mais modalidades aqui apresentadas. Alternativamente, ou em adição, um
2 0 genótipo ausente para um indivíduo de uma população atual é
"inferido" com a utilização de dados do genótipo de um ancestral (e/ou fundador), relacionados ao pedigree para aquele indivíduo, por exemplo, pelo emprego de um ou mais meios estatísticos como, por exemplo, entre outros, 25 modelagem MCMV, Por essas inferências, os dados do genótipo em ambos os ancestrais (ou fundadores) e na população atual se tornam mais completos do que os que, caso contrário, seriam obtidos.
O termo "desequilíbrio de ligação" ou "LD" refere-se
3 0 aos alelos ou Ioci ou polimorfismos de DNA que se associam em uma freqüência maior do que a esperada para alelos ou marcadores independentes, de tal forma que aparecem como um haplótipo. Por exemplo, quando variantes de dois Ioci genéticos estão em forte desequilíbrio de ligação, a 5 variante em um lócus é preditiva da variante no outro em um cromossomo individual.
No presente contexto, o termo "emparceiramento" ou termo similar como, por exemplo, "parceiro", deve ser considerado sem referência a reino ou filo como 10 significando qualquer reprodução sexual em que um haplóide do genoma seja transferido de um indivíduo de uma população para outro indivíduo de uma população, incluindo o emparceiramento de um animal ou célula (por exemplo, célula de levedura) com outro por meios naturais ou assistidos, 15 por exemplo, inseminação artificial (AI) ; e a autopolinização de uma planta ou a polinização cruzada entre plantas.
0 termo "variação da amostragem Mendeliana" significa a variação no desvio do valor genético de um indivíduo em relação aos valores genéticos médios de seus progenitores.
0 termo "minissatélite" refere-se a uma repetição em tandem de número variável (VNTR) que compreende mais do que cerca de 5 repetições e de 6 a cerca de 60 pares de bases por unidade de repetição, em que o número de unidades de 25 repetição varia entre indivíduos em uma população. Como ocorre com microssatélites, podem ocorrer mudanças e o número de repetições pode aumentar ou diminuir.
0 termo "seleção fenotípica" significa uma seleção artificial com base em um e possivelmente mais fenótipos de
3 0 um indivíduo. A seleção fenotípica geralmente compreende o teste da prole, em que o valor genético estimado de um indivíduo é determinado pela realização de múltiplos emparceiramentos do indivíduo e determinando-se o desempenho da prole.
No presente contexto, o termo "população" significa um
grupo de indivíduos que potencialmente cruza uns com os outros de tal forma que contribuam geneticamente para a geração seguinte, incluindo, sem limitação, aqueles indivíduos em um programa de melhoramento. 0 grupo pode ser 10 de qualquer tamanho, por exemplo, uma espécie, raça, linhagem, cultivar, rebanho ou manada etc.
O termo "traço quantitativo" refere-se a um traço que é determinado por expressão de mais de um gene.
O termo "lócus de traço quantitativo" ou "QTL" refere15 se a uma região de DNA que está associada a um traço quantitativo em particular, em que a variação no QTL está associada à variação no traço quantitativo, como determinada por mapeamento genético ou seleção assistida por marcador.
O termo "referência" significa um genitor ou ancestral
(e/ou fundador) que fornece uma contribuição genética para diversos grupos de indivíduos, permitindo, dessa forma, a comparação dos desempenhos da prole dentro e entre grupos em relação ao desempenho da prole de outros progenitores ou 25 ancestrais (e/ou fundadores). Referências permitem que sejam selecionados e usados os melhores ancestrais (e/ou fundadores) na seleção artificial.
0 termo "substituição" significa um indivíduo que está prestes a se tornar um progenitor pela primeira vez um programa de seleção artificial. O termo "polimorfismo de comprimento do fragmento de restrição" ou "RFLP" refere-se a qualquer um dos diferentes comprimentos de fragmento de DNA produzidos por digestão de restrição de DNA genômico ou cDNA com uma ou mais enzimas 5 endonuclease, em que o comprimento do fragmento varia entre indivíduos em uma população.
Como aqui usado, o termo "seleção" deve ser considerado como se referindo a um ou mais sistemas, processos, etapas ou combinações de etapas que determinam 10 um ou mais indivíduos em uma população que devem contribuir para a geração seguinte, incluindo seleção natural e seleção artificial.
0 termo "critério de seleção" refere-se a um fenótipo ou genótipo que forma a base para uma decisão de seleção, 15 incluindo a presença ou ausência de um ou mais genes, ou um ou mais marcadores genéticos associados a um gene em particular, combinação de genes, traço ou combinação de traços.
O termo "índice de seleção" significa uma classificação de um critério de seleção ou de critérios de seleção de acordo com uma ponderação ou grau, usada para estimativa do valor genético.
0 termo "intensidade de seleção" refere-se à extensão à qual um procriador adere a uma decisão na seleção de um
2 5 indivíduo ou grupo de indivíduos em particular para
emparceiramento. Estatisticamente, a intensidade de seleção é determinada como a diferença entre o critério médio de seleção daqueles indivíduos selecionados para contribuir para geração seguinte e o critério médio de seleção de
3 0 todos os progenitores em potencial, expressada em unidades de desvio padrão.
0 termo "alvo de seleção" refere-se a um valor ótimo genético desejado.
O termo "repetição em tandem curta" ou "STR" refere-se 5 a uma repetição em tandem de número variável (VNTR) que compreende de 2 a cerca de 5 ou 6 pares de bases por unidade de repetição, em que o número de unidades de repetição varia entre indivíduos em uma população. Microssatélites são um exemplo de uma STR que é geralmente 10 altamente polimorfica e distribuída aleatoriamente no genoma e que pode conter variabilidade em seqüência e/ou para a qual o número de unidades de repetição pode aumentar ou diminuir.
0 termo "traço de gene único" refere-se a um traço que é determinado por expressão de um gene.
0 termo "polimorfismo de nucleotídeo único" ou "SNP" refere-se a qualquer um de diferentes nucleotídeos únicos em um alelo ou lócus em particular que variam entre indivíduos em uma população. Muitos SNPs são bialélicos.
2 0 2. Fundamentos
A seleção com a utilização de dados de marcadores, por exemplo, derivados de marcadores de DNA, exige que os genótipos de candidatos à seleção sejam conhecidos naqueles Ioci que possuem um efeito sobre traços dentro do objetivo 25 do cruzamento. Esse provavelmente é um número de marcadores grande e a lista desses marcadores irá se expandir à medida que as pesquisas forneçam dados de ligação adicionais.
No trabalho que leva à presente invenção, os inventores argumentaram que os custos para a seleção de
3 0 indivíduos de uma população poderiam ser reduzidos caso os candidatos à seleção pudessem ser genotipados para um número relativamente pequeno de marcadores e, preferivelmente, um conjunto constante de marcadores. Os inventores argumentaram que a economia em termos de custos 5 seria percebida por genotipagem dos ancestrais fundamentais dos candidatos à seleção quanto aos marcadores úteis e, preferivelmente, para todos os marcadores úteis, e os candidatos ã seleção são genotipados apenas quanto a um subconjunto daqueles marcadores, e isso pode ser obtido 10 rastreando-se os segmentos cromossômicos que carregam marcadores úteis em um candidato à seleção em relação aos segmentos cromossômicos correspondentes em um ancestral fundamental do qual o candidato à seleção foi derivado. Isso então tornaria possível que os marcadores genotipados 15 no segmento cromossômico do ancestral fundamental fossem inferidos para o segmento cromossômico correspondente do candidato à seleção.
Embora seja desejável que os ancestrais fundamentais tenham sido genotipados para todos os marcadores úteis, 20 isso nem sempre é possível. Por exemplo, nenhuma fonte de DNA de um ancestral fundamental (e/ou fundador) pode estar disponível. Nesses casos, os inventores argumentaram que o(s) genótipo(s) do ancestral fundamental (e/ou fundador) para os marcadores pode ser inferido a partir daquele de 25 parentes adequados que foram genotipados quanto àqueles marcadores, por exemplo, com o uso de uma abordagem algorítmica que preenche os valores ausentes como, por exemplo, a modelagem de Monte Carlo por Cadeia de Markov (MCMV).
3 0 Para essa finalidade, embora seja desejável que o(s) pedigree (s) do(s) candidato(s) à seleção, incluindo relacionamentos com um ou mais ancestrais fundamentais [e/óü fundador (fundadores)] esteja (estejam) disponíveis, isso nem sempre é possível. Freqüentemente, esses pedigrees 5 não estão disponíveis, porque os dados de pedigree estão incompletos. Nesses casos, os inventores argumentaram que o(s) relacionamento(s) do(s) candidato(s) à seleção com o(s) ancestral (ancestrais) fundamental (fundamentais) [e/ou fundador (fundadores)] podem ser inferidos com o uso
de marcadores genéticos que foram genotipados em ambos os candidatos à seleção e nos ancestrais fundamentais. Alternativamente, ou em adição, os animais fundadores dentro do pedigree conhecido podem ser incluídos na análise com os ancestrais fundamentais.
A presente invenção se baseia em um entendimento pelo
inventor de que, para espécies que possuem um pequeno tamanho efetivo da população, o número de ancestrais fundamentais (e freqüentemente o número de fundadores) é pequeno em relação ao número de candidatos à seleção.
2 0 Portanto, há uma economia de custos caso os candidatos à
seleção sejam genotipados apenas quanto a um subconjunto dos marcadores cujos genotipados são conhecidos ou possam ser inferidos nos ancestrais fundamentais (e/ou fundadores). É possível inferir os genótipos ausentes dos
candidatos à seleção porque o relacionamento entre os candidatos à seleção e os ancestrais fundamentais (e/ou fundadores) é conhecido a partir do pedigree ou é inferido a partir de outros marcadores genéticos. Métodos para a inferência de genótipos ausentes que não se beneficiam do
3 0 relacionamento entre os candidatos à seleção e os ancestrais fundamentais (e/ou fundadores) seriam bem menos eficientes e, portanto, a economia em termos de custo seria bem menor.
Além disso, o inventor argumentou que, com base na 5 qualidade da informação de marcadores rotulados no pedigree, pode-ser gerar economias adicionais para a genotipagem de indivíduos em uma população atual. Mais particularmente, o inventor argumentou que, para uma espécie que possui um pequeno tamanho efetivo da população, 10 a diversidade da população é explicada substancialmente pela soma daqueles ancestrais fundamentais (e/ou fundadores) que dão uma contribuição de longo prazo para a população, e aquela diversidade é herdada como vizinhanças de segmentos cromossômicos que compreendem marcadores do 15 ancestral, que podem estar em desequilíbrio de ligação (LD). Prosseguindo com essa base, o inventor argumentou que o número de marcadores informativos a serem genotipados em um indivíduo em uma população atual é reduzido por inferência de genótipos ausentes de um segmento 20 cromossômico de um ancestral (e/ou fundador), o que contribui para que aquele segmento cromossômico seja igual àquele no indivíduo da população atual, e para a genotipagem de um marcador informativo dentro do segmento cromossômico. Isso difere de métodos de tagging SNP 25 conhecidos que são independentes do pedigree e geralmente exigem que sejam genotipados números de marcadores maiores, pois se baseiam em blocos de haplótipos ou em uma união de blocos de haplótipos, ou exigem mapas métricos de LD detalhados.
3. Modalidades específicas A presente invenção fornece um método de seleção artificial para um gene ou lócus único, que inclui um lócus de gene único ou um QTL, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, inferindo que o genótipo no lócus ou QTL seja o mesmo que em um ancestral (e/ou fundador) do qual o segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base no genótipo inferido, em que o ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual e em que o genótipo do ancestral (e/ou fundador) para um ou mais marcadores informativos e para o lócus ou QTL é conhecido.
Será compreendido que esse método é mais geralmente aplicável para derivar o genótipo de um indivíduo para qualquer número de Ioci ou QTL, em qualquer número de localizações cromossômicas. De acordo com esse exemplo, a 20 presente invenção fornece um método de seleção artificial para um ou mais Ioci ou QTLs, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou mais segmentos 25 cromossômicos, cada um contendo um ou mais Ioci ou QTLs de interesse, a inferência de que os genótipos em um ou mais Ioci ou QTLs são iguais ao de um ancestral (e/ou fundador) do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos
3 0 inferidos, em que um ou mais ancestrais (e/ou fundadores) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual, e em que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos e para 5 os Ioci ou QTLs são conhecidos.
Em outro exemplo, o método pode ser usado para derivar o genótipo de um indivíduo, por exemplo, o genótipo do genoma completo. De acordo com esse exemplo, a presente invenção fornece um método de seleção artificial que 10 compreende a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em diversos segmentos
cromossômicos, a inferência de que os genótipos de cada segmento cromossômico no indivíduo sejam iguais àqueles em um ou mais ancestrais (e/ou fundadores) dos quais os segmentos cromossômicos são derivados, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que cada ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual e em que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos são substancialmente conhecidos. De preferência, os genótipos de um ou mais ancestrais (e/ou fundadores) para cada marcador informativo são conhecidos. Para derivar o genótipo do genoma completo, prefere-se que os segmentos cromossômicos transponham o genoma.
Para a genotipagem aplicada a um lócus único ou QTL, Ioci ou QTLs múltiplos ou contextos de varredura do genoma
3 0 completo, prefere-se que a genotipagem de um indivíduo compreenda a detecção de um ou mais marcadores informativos em um sistema de alto rendimento que compreende um suporte sólido que consiste basicamente em (ou que possui) ácidos nucléicos de seqüência diferente ligados direta ou 5 indiretamente a ele, em que cada ácido nucléico de seqüência diferente compreende um marcador genético polimórfico derivado de um ancestral (e/ou fundador) que é representativo da população atual. De preferência, o sistema de alto rendimento compreende marcadores 10 suficientes que sejam representativos do genoma da população atual, ou seja, eles transpõem todo o genoma e compreendem marcadores polimórficos suficientes que sejam úteis para varredura do genoma completo. Os marcadores podem estar dispostos em grupos de ligação, opcionalmente 15 de acordo com um segmento cromossômico com o qual estão em desequilíbrio de ligação. A informação de marcador contida no sistema de alto rendimento pode ser obtida por uma etapa intermediária em um método da presente invenção.
Como aqui usado, o termo "genotipagem de um indivíduo
2 0 em uma população atual quanto à presença ou ausência de um
ou mais marcadores informativos" significa simplesmente determinar a presença ou ausência do marcador (ou dos marcadores). Aqueles habilitados na técnica saberão que o fato de um marcador ser selecionado para ou contra 25 dependerá da associação do marcador para um genótipo desejado. Aqueles habilitados na técnica também saberão que, considerando o objetivo de selecionar matrizes ou germoplasma para aprimorar o ganho em gerações futuras, a generalidade da invenção não se limita à determinação da
3 0 presença ou ausência de um genótipo, haplótipo ou haplogrupo específico, por exemplo, para um lócus ou QTL em particular.
Deve-se entender que a aplicação da presente invenção não se limita a qualquer espécie em particular, mas 5 determinada pelo tamanho efetivo da população da espécie. Conseqüentemente, a presente invenção é aplicável à seleção artificial em plantas e animais que possuem pequenos tamanhos efetivos da população. Entende-se também que, pelo fato de a seleção de ancestrais (e/ou fundadores) ser uma 10 função do pedigree, a presente invenção também é aplicável à seleção de espécies predominantemente alógamas e/ou predominantemente endogâmicas. Exemplos de populações às quais a presente invenção é facilmente aplicada incluem gado (por exemplo, gado de corte e leiteiro como, por 15 exemplo, Holstein, Friesan, Holstein-Friesan, Braunvieh, Brown Swiss, Jersey, Danish Red, Aberdeen Angus), carneiros (por exemplo, Meatlinc, cruzamentos Dorset x Rambouillet x Finnsheep), porcos (por exemplo, cruzamento Large White x Landrace, Large White, Duroc, Yorkshire, Landrace), aves
2 0 (por exemplo, Layers), peixes (por exemplo, salmão do
Atlântico), crustáceos, azevém etc.
De acordo com os exemplos da presente invenção apresentados acima, a população atual será uma população de indivíduos que possui um pequeno tamanho efetivo da 25 população. Isso significa que o tamanho efetivo da população deve ser menor do que o número de indivíduos na população atual exigido que teria que ser genotipado para estimar todos os efeitos de haplótipo e, preferivelmente, menos da metade ou menos do que um terço ou menos do que um
3 0 quarto ou cerca de um décimo dos números de indivíduos na população atual que teriam que ser genotipados para estimar os efeitos de haplótipo. Em termos dos números reais de ancestrais (e/ou fundadores) que teriam que ser genotipados na realização da presente invenção, esses irão variar,
5 dependendo da população em questão e do nível de seleção artificial que foi aplicado à população em gerações prévias. Por exemplo, preferivelmente isso significa menos do que cerca de 1.000 indivíduos, mais preferivelmente menos do que cerca de 350 indivíduos, ainda mais 10 preferivelmente menos do que cerca de 250 indivíduos, ainda mais preferivelmente menos do que cerca de 200 indivíduos e ainda mais preferivelmente menos do que cerca de 150 ou menos do que cerca de 100 indivíduos. Alternativamente, o tamanho efetivo da população está na faixa de cerca de 3 0- 15 350 ou cerca de 30-200 ou cerca de 30-100 indivíduos. Para populações maiores do que essas estimativas, o custobenefício da realização da seleção genômica com base na linhagem ancestral de segmentos cromossômicos é diminuído.
Um ancestral (e/ou fundador) que fornece uma 20 contribuição genética de longo prazo significativa para a população atual fornecerá preferivelmente pelo menos cerca de 0,1% da variância total para a população atual e, mais comumente, pelo menos cerca de 0,5% ou 1% da variância total. Ancestrais (e/ou fundadores) particularmente 25 significantes ou "fundamentais" geralmente fornecem pelo menos cerca de 2-10% da variância total para a população atual, por exemplo, 2% ou 3% ou 4% ou 5% ou 6% ou 7% ou 8% ou 9% ou 10%; no entanto, contribuições maiores do ancestral não devem ser excluídas.
3 0 Os marcadores podem ser qualquer marcador genético, por exemplo, um ou mais alelos, haplótipos, haplogrupos, Ioci, Ioci de traço quantitativo ou polimorf ismos de DNA [polimorfismos de comprimento do fragmento de restrição (RFLPs), polimorfismos de comprimento de fragmento 5 amplificado (AFLPs), polimorfismos nucleares únicos (SNPs), indels, repetições em tandem curtas (STRs), microssatélites e minissatélites]. Convenientemente, os marcadores são SNPs ou STRs como, por exemplo, microssatélites e, mais preferivelmente, SNPs. De preferência, os marcadores dentro 10 de cada segmento cromossômico estão em desequilíbrio de ligação.
A presente invenção engloba claramente o desempenho de etapas adicionais em que os dados informativos nos ancestrais (e/ou fundadores) não são conhecidos, incluindo 15 a identificação e/ou caracterização dos ancestrais (e/ou dos fundadores) e/ou o estabelecimento da linhagem de um ou mais segmentos cromossômicos. Por exemplo, os ancestrais (e/ou fundadores) podem ser caracterizados por obtenção e/ou fornecimento de seus genótipos, por exemplo, para 20 marcadores úteis, um grande número de marcadores úteis ou da maioria dos marcadores com o uso de procedimentos padronizados para fazê-lo, em que os referidos genótipos também podem ser inferidos a partir de dados de seus parentes, por exemplo, com o uso de meios estatísticos 25 como, por exemplo, modelagem MCMV, para prever os valores ausentes. Em um exemplo, os ancestrais (e/ou fundadores) são caracterizados por fornecimento e/ou obtenção de genótipos conhecidos e/ou por inferência de seus genótipos.
Conseqüentemente, em um exemplo adicional, o método da
3 0 invenção compreende o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais foram derivados. De acordo com esse exemplo, a presente invenção fornece um método de seleção artificial para um gene ou lócus único, incluindo um lócus de gene único ou um QTL, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, o rastreamento retrógrado da linhagem do segmento cromossômico no individual até um ancestral (e/ou fundador) do qual é derivado, a inferência de que um genótipo no lócus ou QTL é o mesmo que em um ancestral (e/ou fundador) do qual o segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base no genótipo inferido, em que o ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual e em que o genótipo do ancestral (e/ou fundador) para um ou mais marcadores informativos e para lócus ou QTL é conhecido. Para Ioci ou QTLs múltiplos em qualquer número de localizações cromossômicas, a invenção fornece um método de seleção artificial para um ou mais Ioci ou QTLs, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou mais segmentos cromossômicos, cada um contendo um ou mais Ioei ou QTLs de interesse, o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são derivados, a inferência de que os genótipos em um ou mais Ioci ou QTLs são iguais ao de um ancestral (e/ou fundador) do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que um ou 5 mais ancestrais (e/ou fundadores) são um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual, e em que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos e para os Ioci ou QTLs 10 são conhecidos. Para a seleção do genoma completo, a presente invenção fornece um método de seleção artificial que compreende a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em diversos segmentos 15 cromossômicos, o rastreamento retrógrado das linhagens dos diversos segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são derivados, a inferência de que os genótipos de cada segmento cromossômico no indivíduo são iguais aos de um ou mais ancestrais (e/ou fundadores)
2 0 dos quais os segmentos cromossômicos são derivados, e
estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que cada ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população 25 atual e em que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos são substancialmente conhecidos. De preferência, os genótipos de um ou mais ancestrais (e/ou fundadores) para cada marcador informativo são conhecidos. Para derivar o
3 0 genótipo do genoma completo, prefere-se que os segmentos cromossômicos transponham o genoma.
Ainda em outro exemplo, o método da invenção compreende a caracterização dos ancestrais (e/ou fundadores) , por exemplo, por genotipagem de um ou mais ancestrais (e/ou fundadores) para marcadores conhecidos. De acordo com esse exemplo, a presente invenção fornece um método de seleção artificial para um gene ou lócus único, incluindo um lócus de gene único ou um QTL, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, o rastreamento retrógrado da linhagem do segmento cromossômico no indivíduo até um ancestral (e/ou fundador) do qual é derivado, a genotipagem do ancestral (e/ou fundador) para marcadores conhecidos, a inferência de que um genótipo no lócus ou QTL é o mesmo que em um ancestral (e/ou fundador) do qual o segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base no genótipo inferido, em que o ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual e em que o genótipo do ancestral (e/ou fundador) para o lócus ou QTL é conhecido. Para Ioci ou QTLs múltiplos em qualquer número de localizações cromossômicas, a invenção fornece um método de seleção artificial para um ou mais Ioci ou QTLs, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou mais segmentos .50 cromossomicos, cada um contendo um ou mais Iocx ou QTLs de interesse, o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos qüais são derivados, a genotipagem de um ou mais ancestrais (e/ou fundadores) para marcadores 5 conhecidos, a inferência de que os genótipos em um ou mais Ioci ou QTLs são iguais ao de um ancestral (e/ou fundador) do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que um ou mais ancestrais (e/ou fundadores) 10 são um ancestral (e/ou fundador) que fornece uma contribuição genética de longo prazo significativa para a população atual, e em que os genótipos de um ou mais ancestrais (e/ou fundadores) para os Ioci ou QTLs são conhecidos. Para a seleção do genoma completo, a presente 15 invenção fornece um método de seleção artificial que compreende a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em diversos segmentos cromossômicos, o rastreamento retrógrado das linhagens dós
2 0 diversos segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são derivados, a genotipagem de um ou mais ancestrais (e/ou fundadores) para marcadores conhecidos, a inferência de que os genótipos de cada segmento cromossômico no indivíduo são iguais aos de um ou
2 5 mais ancestrais (e/ou fundadores) dos quais os segmentos cromossômicos são derivados, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que cada ancestral (e/ou fundador) é um ancestral (e/ou fundador) que fornece uma contribuição genética de longo 30 prazo significativa para a população atual. Para derivar o genótipo do genoma completo, prefere-se que os segmentos cromossômicos transponham o genoma.
Ainda em outro exemplo, o método da invenção compreende a identificação dos ancestrais (e/ou 5 fundadores), por exemplo, por determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual. De acordo com esse exemplo, a presente invenção fornece um método de seleção artificial para um gene ou lócus único, incluindo um lócus de gene único ou um 10 QTL, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, a determinação de um conjunto mínimo de 15 ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrógrado da linhagem do segmento cromossômico no indivíduo até um ancestral (e/ou fundador) do qual é derivado, a inferência de que um genótipo no lócus ou QTL é o mesmo que em um ancestral (e/ou fundador)
2 0 do qual o segmento cromossômico é derivado, e estimando-se
o valor genético do indivíduo com base no genótipo inferido, em que o genótipo do ancestral (e/ou fundador) para um ou mais marcadores informativos e para o lócus ou QTL é conhecido. Para Ioci ou QTLs múltiplos em qualquer 25 número de localizações cromossômicas, a invenção fornece um método de seleção artificial para um ou mais Ioci ou QTLs, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou
3 0 mais segmentos cromossômicos, cada um contendo um ou mais Ioci ou QTLs de interesse, a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais 5 ancestrais (e/ou fundadores) dos quais são derivados, a inferência de que os genótipos em um ou mais Ioci ou QTLs são os mesmos que em um ancestral (e/ou fundador) do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em 10 que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos e para os Ioci ou QTLs são conhecidos. Para a seleção do genoma completo, a presente invenção fornece um método de seleção artificial que compreende a genotipagem de um indivíduo em uma 15 população atual quanto à presença ou ausência de um ou mais marcadores informativos em diversos segmentos
cromossômicos, a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrógrado das linhagens dos diversos 20 segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são derivados, a inferência de que os genótipos de cada segmento cromossômico no indivíduo são iguais aos de um ou mais ancestrais (e/ou fundadores) dos quais os segmentos cromossômicos são derivados, e
2 5 estimando-se o valor genético do indivíduo com base nos
genótipos inferidos, em que os genótipos de um ou mais ancestrais (e/ou fundadores) para um ou mais marcadores informativos são conhecidos. Para derivar o genótipo do genoma completo, prefere-se que os segmentos cromossômicos
3 0 transponham o genoma. A presente invenção também engloba situações nas quais, a não ser o pedigree, não há nenhuma outra informação conhecida e, talvez, informações limitadas sobre o ancestral (ou ancestrais) e/ou fundador (ou fundadores).
5 De acordo com esse exemplo, a presente invenção fornece um método de seleção artificial para um gene ou lócus único, incluindo um lócus de gene único ou um QTL, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais 10 marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrogrado da linhagem do segmento cromossômico no 15 indivíduo até o ancestral (e/ou fundador) do qual é derivado, a genotipagem do ancestral (e/ou fundador) para marcadores conhecidos, a inferência de que um genótipo no lócus ou QTL é o mesmo que o de um ancestral (ou fundador) do qual o segmento cromossômico é derivado, e estimando-se 20 o valor genético do indivíduo com base no genótipo inferido, em que o genótipo do ancestral (e/ou fundador) para o lócus ou QTL é conhecido. Para Ioci ou QTLs múltiplos em qualquer número de localizações cromossômicas, a invenção fornece um método de seleção artificial para um 25 ou mais Ioci ou QTLs, o referido método compreendendo a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou mais segmentos cromossômicos, cada um contendo um ou mais Ioci ou QTLs de interesse, a determinação de um
3 0 conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são derivados, a genotipagem de um ou mais 5 ancestrais (e/ou fundadores) para marcadores conhecidos, a inferência de que os genótipos em um ou mais Ioci ou QTLs são os mesmos que em um ancestral (ou fundador) do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em 10 que os genótipos de um ou mais ancestrais (e/ou fundadores) para os Ioci ou QTLs são conhecidos. Para a seleção do genoma completo, a presente invenção fornece um método de seleção artificial que compreende a genotipagem de um indivíduo em uma população atual quanto à presença ou 15 ausência de um ou mais marcadores informativos em diversos segmentos cromossômicos, a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual, o rastreamento retrógrado das linhagens dos diversos segmentos cromossômicos até um ou mais
2 0 ancestrais (e/ou fundadores) dos quais são derivados, a
genotipagem de um ou mais ancestrais (e/ou fundadores) para marcadores conhecidos, a inferência de que os genótipos de cada segmento cromossômico no indivíduo sejam iguais àqueles em um ou mais ancestrais (e/ou fundadores) dos 25 quais os segmentos cromossômicos são derivados, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos. Para derivar o genótipo do genoma completo, prefere-se que os segmentos cromossômicos transponham o genoma.
3 0 Ainda em outro exemplo, segmentos cromossômicos individuais nos candidatos à seleção (ou seja, membros da população atual) são rastreados de forma retrógrada até os ancestrais fundamentais (e/ou fundadores) por um processo que compreende o rastreamento de segmentos cromossômicos em 5 candidatos à seleção até um ou mais ancestrais (e/ou fundadores) imediatos com o uso de um pequeno número de marcadores, e rastreando-se os segmentos cromossômicos nos ancestrais (e/ou fundadores) imediatos até segmentos cromossômicos correspondentes em um ou mais ancestrais 10 fundamentais (e/ou fundadores). De preferência, os segmentos cromossômicos nos ancestrais (e/ou fundadores) imediatos são rastreados de forma retrógrada até os segmentos cromossômicos nos ancestrais fundamentais (e/ou fundadores) com o uso de um número maior de marcadores. O 15 rastreamento de segmentos cromossômicos até ancestrais (e/ou fundadores) imediatos pode minimizar os custos. Por exemplo, os ancestrais (e/ou fundadores) imediatos podem ser todos os animais machos usados no rebanho ou na manada nas últimas poucas gerações. Na medida em que poucos machos
2 0 são usados na maioria das espécies, o número de ancestrais
(e/ou fundadores) imediatos é pequeno comparado com o número de candidatos à seleção, de tal forma que o custo de sua genotipagem para marcadores suficientes para rastrear de forma retrógrada segmentos cromossômicos até ancestrais 25 fundamentais (e/ou fundadores) também é reduzido ou minimizado.
Ainda em outro exemplo, os pedigrees dos animais não são conhecidos, mas são inferidos a partir dos marcadores de DNA que são usados para rastrear segmentos
3 0 cromossômicos. Por exemplo, a linhagem do animal pode ser desconhecida, mas deduzida a partir dos marcadores de DNA.
Ainda em outro exemplo, a seqüência genômica dos ancestrais fundamentais (e/ou fundadores) é conhecida e preferivelmente completa, permitindo, dessa forma, que a 5 seqüência do genoma quase completo ou completo de todos os animais atuais seja inferida, por exemplo, por rastreamento de seus segmentos cromossômicos de forma retrógrada até ancestrais fundamentais (e/ou fundadores). Esses dados da seqüência genômica são úteis para a seleção.
Em um exemplo particularmente preferido de seleção do
genoma completo com o uso de SNPs, a presente invenção fornece um método de seleção artificial que compreende:
(i) a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais SNPs
informativos em diversos segmentos cromossômicos;
(ii) a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual;
(iii) o rastreamento retrógrado das linhagens dos
2 0 diversos segmentos cromossômicos até um ou mais ancestrais
(e/ou fundadores) dos quais são derivados;
(iv) a genotipagem de um ou mais ancestrais (e/ou fundadores) para SNPs conhecidos;
(v) a inferência de que os genótipos de cada segmento
2 5 cromossômico no indivíduo são iguais ao de um ou mais
ancestrais (e/ou fundadores) dos quais os segmentos cromossômicos são derivados; e
(vi) estimando-se o valor genético do indivíduo com base nos genótipos inferidos. Para derivar o genótipo do
3 0 genoma completo, prefere-se que os segmentos cromossômicos transponham o genoma.
Deve-se entender qüe certas "etapas" no método da invenção podem ser realizadas em uma ordem diferente em relação àquela aqui descrita acima, e em diferentes pontos no tempo. Por exemplo, o método pode ser realizado na seguinte ordem:
(i) opcionalmente, a determinação de um conjunto mínimo de ancestrais (e/ou fundadores) representativo da população atual;
(ii) opcionalmente, a genotipagem de um ou mais
ancestrais (e/ou fundadores) para marcadores conhecidos, por exemplo, SNPs;
(iii) genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais
marcadores informativos, por exemplo, SNPs em um ou em diversos segmentos cromossômicos;
(iv) opcionalmente, o rastreamento retrógrado das linhagens de um ou diversos segmentos cromossômicos até um ou mais ancestrais (e/ou fundadores) dos quais são
2 0 derivados;
(v) a inferência de que os genótipos de cada segmento cromossômico no indivíduo da população atual são iguais aos de um ou mais ancestrais (e/ou fundadores) dos quais os segmentos cromossômicos são derivados; e
(vi) estimando-se o valor genético do indivíduo com
base nos genótipos inferidos.
Mais particularmente, a determinação de ancestrais (e/ou fundadores) e/ou a genotipagem de ancestrais (e/ou fundadores) podem ser separadas de outras "etapas" no
3 0 método e/ou realizadas previamente, por exemplo, para criar um registro histórico para o indivíduo, população atual ou espécie que estã sendo selecionada. Alternativamente, ou em adição, o rastreamento de linhagens de segmentos cromossômicos é separado de outras "etapas" no método, por 5 exemplo, para criar um registro histórico similar. 0 benefício desses registros históricos é que eles podem ser utilizados em seleções futuras para minimizar ainda mais as despesas. A presente invenção engloba claramente esses registros históricos em papel ou em forma eletrônica, e 10 métodos para sua produção e uso.
Conseqüentemente, a presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador compreendendo uma base de dados de valores genéticos 15 estimados para um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população e, opcionalmente, compreendendo dados selecionados do grupo que consiste em: dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre segmentos cromossômicos
2 0 para os indivíduos na população atual; dados sobre
segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em 25 segmentos cromossômicos para ancestrais (e/ou fundadores); dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes. Os valores genéticos estimados podem ser obtidos pela realização de um método da presente invenção.
3 0 A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
(i) uma base de dados de valores genéticos estimados para um ou mais indivíduos dê Uma população que possui um pequeno tamanho efetivo da população e que compreende,
opcionalmente, dados selecionados do grupo que consiste em: dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de
indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais (e/ou fundadores); dados sobre linhagens entre os genótipos marcadores e/ou
segmentos cromossômicos; e combinações destes; e
(ii) a interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por exemplo, segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de
2 0 nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
Alternativamente, ou em adição, a base de dados consiste basicamente nos dados sobre valores genéticos
2 5 estimados de um ou mais indivíduos e quaisquer outros dados
aqui citados acima, ou alternativamente, consistem exclusivamente nos dados sobre valores genéticos estimados de um ou mais indivíduos e quaisquer outros dados aqui citados acima.
3 0 A presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador compreendendo uma base de dados de genótipos marcadores de um ou mais ancestrais (e/ou fundadores) de um ou mais conjuntos mínimos de ancestrais 5 (e/ou fundadores), cada um deles sendo representativo de uma população que possui um pequeno tamanho efetivo da população, em que os genótipos marcadores estão dispostos em grupos de ligação e que compreendem, opcionalmente, dados selecionados do grupo que consiste em: dados sobre 10 valores genéticos estimados para um ou mais indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais (e/ou 15 fundadores) de indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes. Os genótipos marcadores de um ou mais 2 0 ancestrais (e/ou fundadores) dispostos em grupos de ligação podem ser obtidos pela realização de um método da presente invenção.
A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
2 5 (i) uma base de dados de genótipos marcadores de um ou
mais ancestrais (e/ou fundadores) de um ou mais conjuntos mínimos de ancestrais (e/ou fundadores), cada um deles sendo representativo de uma população que possui um pequeno tamanho efetivo da população, em que os genótipos
3 0 marcadores estão dispostos em grupos de ligação e que compreendem, opcionalmente, dados selecionados do grupo que consiste em: dados sobre valores genéticos estimados para um ou màis indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados 5 sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados 10 sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes; e
(ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por exemplo, segmento cromossômico, marcador genético, 15 haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
Alternativamente, ou em adição, a base de dados 20 consiste basicamente nos genótipos marcadores de um ou mais ancestrais (e/ou fundadores) dispostos em grupos de ligação com ou sem quaisquer dados adicionais aqui citados acima, ou consiste exclusivamente nos genótipos marcadores de um ou mais ancestrais (e/ou fundadores) dispostos em grupos de 25 ligação com ou sem quaisquer dados adicionais aqui citados acima.
Em outro exemplo, a presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador compreendendo uma base de dados de genótipos marcadores de um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população, e um ou mais conjuntos mínimos de ancestrais (e/ou fundadores) representativos de um ou mais indivíduos e das linhagens entre o marcador de um ou mais indivíduos e os ancestrais (e/ou fundadores) , em que os genótipos marcadores estão dispostos em grupos de ligação. Opcionalmente, a base de dados também compreende dados selecionados do grupo que consiste em: dados sobre valores genéticos estimados para um ou mais indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; e combinações destes.
A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
(i) uma base de dados de genótipos marcadores de um ou mais indivíduos de uma população que possui um pequeno 2 0 tamanho efetivo da população, e um ou mais conjuntos mínimos de ancestrais (e/ou fundadores) representativos de um ou mais indivíduos e das linhagens entre o marcador de um ou mais indivíduos e os ancestrais (e/ou fundadores), em que os genótipos marcadores estão dispostos em grupos de
2 5 ligação, opcionalmente também compreendendo dados
selecionados do grupo que consiste em: dados sobre valores genéticos estimados para um ou mais indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre segmentos cromossômicos
3 0 para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; e combinações destes; e
(ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por 5 exemplo, segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
Alternativamente, ou em adição, a base de dados
consiste basicamente nos genótipos marcadores de um ou mais indivíduos com ou sem quaisquer dados adicionais aqui citados acima, ou consiste exclusivamente nos genótipos marcadores de um ou mais indivíduos com ou sem quaisquer
dados adicionais aqui citados acima.
A presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador compreendendo uma base de dados de segmentos cromossômicos presentes nos genomas de um ou mais
2 0 indivíduos de uma população que possui um pequeno tamanho efetivo da população, e um ou mais conjuntos mínimos de ancestrais (e/ou fundadores) representativos de um ou mais indivíduos e das linhagens entre os segmentos cromossômicos de um ou mais indivíduos e os ancestrais (e/ou fundadores).
2 5 Opcionalmente, a base de dados também compreende dados
selecionados do grupo que consiste em: dados sobre valores genéticos estimados para um ou mais indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre genótipos marcadores em
3 0 segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais (e/ou fundadores) ; dados sobre linhagens entre os genótipos marcadores; e combinações destes. De preferência, os dados sobre os 5 segmentos cromossômicos compreendem genótipos marcadores em cada segmento cromossômico e, mais preferivelmente, os dados sobre os segmentos cromossômicos compreendem genótipos marcadores em cada segmento cromossômico e dados sobre as linhagens entre os genótipos marcadores. Os 10 segmentos cromossômicos e quaisquer genótipos marcadores incluídos de um ou mais ancestrais (e/ou fundadores) dispostos em grupos de ligação podem ser obtidos pela realização de um método da presente invenção.
A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
(i) uma base de dados de segmentos cromossômicos presentes nos genomas de um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população, e um ou mais conjuntos mínimos de ancestrais (e/ou fundadores) representativos de um ou mais indivíduos e das linhagens entre os segmentos cromossômicos de um ou mais indivíduos e os ancestrais (e/ou fundadores), e que opcionalmente ainda compreende dados selecionados do grupo que consiste em: dados sobre valores genéticos estimados 2 5 para um ou mais indivíduos de uma população atual; dados sobre ancestrais (e/ou fundadores) para os indivíduos; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais (e/ou fundadores); dados sobre linhagens entre os genótipos marcadores; e combinações destes; e
(ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por exemplo, segmento cromossômico, marcador genético, 5 haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
Alternativamente, ou em adição, a base de dados consiste basicamente em dados sobre segmentos cromossômicos e quaisquer outros dados aqui citados acima, ou consiste exclusivamente em dados sobre segmentos cromossômicos e quaisquer outros dados aqui citados acima.
A presente invenção também fornece um sistema de alto 15 rendimento para seleção genotípica em uma população atual que possui um pequeno tamanho efetivo da população, o referido sistema compreendendo um suporte sólido que consiste basicamente em (ou que possui) ácidos nucléicos de seqüência diferente ligados direta ou indiretamente a ele,
2 0 em que cada ácido nucléico de seqüência diferente compreende um marcador genético polimorfico derivado de um ancestral (e/ou fundador) que é representativo da população atual. De preferência, o sistema de alto rendimento compreende marcadores suficientes que sejam representativos 25 do genoma da população atual, ou seja, eles transpõem todo o genoma e compreendem polimorfismos suficientes que sejam úteis para a varredura do genoma completo. Os marcadores podem estar dispostos em grupos de ligação, opcionalmente de acordo com o segmento cromossômico com o qual estão em 30 desequilíbrio de ligação. Ficará evidente a partir da descrição apresentada anteriormente que a informação de marcador contida no sistema de alto rendimento pode ser obtida por uma etapa intermediária em um método da presente invenção. Em uso, o sistema de alto rendimento da presente 5 invenção é usado para genotipagem em um lócus único ou QTL, ou em Ioci ou QTLs múltiplos, ou para genotipagem do genoma completo de um indivíduo em uma população atual.
Também será compreendido que o método de seleção artificial da presente invenção é útil para a seleção de um 10 indivíduo ou material reprodutivo ou regenerativo do indivíduo para uso em melhoramento genético, inseminação artificial, fertilização in vitro, implantação de embrião, ou abordagem transgênica. Conseqüentemente, a presente invenção também fornece um processo para a produção de 15 ganho genético em uma população que compreende a realização do método da presente invenção de acordo com qualquer modalidade aqui descrita e a seleção de um indivíduo de uma população que possui um valor genético estimado elevado. 0 termo "valor genético estimado elevado" significa um valor 20 genético suficiente para produzir um ganho genético, caso o indivíduo cruze com outro indivíduo na população, por exemplo, um indivíduo que também possua um valor genético estimado elevado, como determinado contra os mesmos parâmetros ou contra parâmetros diferentes.
2 5 Em um exemplo, o processo compreende a obtenção de
material reprodutivo ou regenerativo do indivíduo selecionado. No presente contexto, o termo "obtenção de material reprodutivo ou regenerativo" deve ser considerado como incluindo a coleta e/ou armazenamento e/ou manutenção
3 0 de germoplasma, por exemplo, o indivíduo ou sêmen, óvulo ou pólen selecionado do indivíduo ou embriões selecionado, semente etc. produzido com o uso do germoplasma do indivíduo selecionado como, por exemplo, para uso em programas de melhoramento ou programas de inseminação 5 artificial convencionais; e a coleta e/ou armazenamento e/ou manutenção de células como, por exemplo, célulastronco embrionárias, células-tronco pluripotentes ou multipotentes, fibroblastos, células espermáticas ou organelas como, por exemplo, núcleos, mitocôndrias ou
cloroplastos do indivíduo selecionado, opcionalmente transformadas para incluir um ou mais genes ou ácidos nucléicos para a conferência de um atributo desejado em um organismo, para a produção de organismos transformados que carregam o material genético do indivíduo selecionado.
A presente invenção se estende claramente a qualquer
material reprodutivo ou regenerativo obtido pela realização do processo da presente invenção. Quando o material reprodutivo ou regenerativo usado nesse contexto se devia de um genoma haplóide do indivíduo selecionado, a presente
2 0 invenção engloba o uso daquele material na medida em que um
organismo produzido a partir dele produza um ganho genético na população que seja substancialmente igual ao ganho genético esperado ou ao ganho genético real de todo o germoplasma do indivíduo selecionado. Isso presume uma base
genética similar, isogênica ou quase isogênica para fins de comparação do ganho genético de um genoma haplóide do indivíduo selecionado com o ganho genético esperado ou real de outras proporções do genoma haplóide contribuinte. Como é do conhecimento daqueles habilitados na técnica, "ganho
3 0 genético esperado" é um valor teórico, enquanto o "ganho genético real" é um valor determinado por emparceiramentos de teste em uma população.
0 material reprodutivo ou regenerativo é geralmente armazenado por um período prolongado para uso subseqüente, 5 e é desejável, nessas circunstâncias, manter registros do material. Conseqüentemente, a presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador compreendendo uma base de dados de material reprodutivo ou 10 regenerativo obtido pela realização de um processo da invenção de acordo com qualquer modalidade aqui descrita. De preferência, os dados sobre o material reprodutivo ou regenerativo são combinados com dados selecionados do grupo que consiste em: dados sobre ancestrais (e/ou fundadores) 15 para o material; dados sobre segmentos cromossômicos para o material; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) do material; dados sobre genótipos marcadores em cada segmento cromossômico para o material; dados sobre genótipos marcadores em cada segmento
2 0 cromossômico para ancestrais (e/ou fundadores); dados sobre
linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes.
A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
(i) uma base de dados de material reprodutivo ou
regenerativo obtido pela realização de um processo da invenção de acordo com qualquer modalidade aqui descrita, e que compreende, opcionalmente, dados selecionados do grupo que consiste em: dados sobre ancestrais (e/ou fundadores)
3 0 para o material; dados sobre segmentos cromossômicos para o material; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) do material; dados sobre genótipos marcadores em cada segmento cromossômico para o material; dados sobre genótipos marcadores em cada segmento 5 cromossômico para ancestrais (e/ou fundadores); dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes; e
(ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por 10 exemplo, segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
Alternativamente, ou em adição, a base de dados
consiste basicamente em dados que pertencem ao material reprodutivo ou regenerativo obtido pela realização de um processo da invenção de acordo com qualquer modalidade aqui descrita, e que compreende, opcionalmente, dados
2 0 selecionados do grupo que consiste em: dados sobre ancestrais (e/ou fundadores) para o material; dados sobre segmentos cromossômicos para o material; dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) do material; dados sobre genótipos marcadores em cada
2 5 segmento cromossômico para o material; dados sobre genótipos marcadores em cada segmento cromossômico para ancestrais (e/ou fundadores); dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes. Alternativamente, a base de dados 30 consiste exclusivamente nessas informações. Em um exemplo adicional, a presente invenção também fornece um processo para a produção de ganho genético em uma população que compreende:
(i) a realização dé um método da presente invenção de 5 acordo com qualquer modalidade aqui descrita para seleção
artificial;
(ii) a seleção de um indivíduo de uma população que possui um valor genético estimado elevado;
(iii) a obtenção de material reprodutivo ou regenerativo do indivíduo selecionado; e
(iv) a produção de um ou mais indivíduos ou uma ou mais gerações de indivíduos a partir do material reprodutivo ou regenerativo.
0 termo "produção de um ou mais indivíduos ou de uma 15 ou mais gerações de indivíduos a partir do material reprodutivo ou regenerativo" engloba abordagens tradicionais de melhoramento genético, inseminação artificial, fertilização in vitro, implantação de embrião, e abordagens transgênicas (por exemplo, a utilização de 20 células-tronco ES, pró-núcleos, transferência gênica mediada por esperma etc.) conhecidas por aqueles habilitados na técnica para a espécie à qual a população pertence.
A presente invenção se estende claramente a quaisquer 25 indivíduos ou gerações de indivíduos produzidas pela realização do processo da presente invenção. Aqueles habilitados na técnica terão ciência de que a contribuição genética do material reprodutivo ou regenerativo pode não ser passada adiante a todas as gerações além de uma geração 3 0 inicial da prole. Conseqüentemente, quando gerações de indivíduos além da geração inicial da prole são produzidas a partir do material reprodutivo ou regenerativo, a presente invenção engloba qualquer indivíduo daquelas gerações na medida em que o indivíduo contenha em seu 5 genoma um segmento cromossômico derivado do material reprodutivo ou regenerativo que explicasse o ganho genético esperado ou o ganho genético real a partir do material reprodutivo ou regenerativo.
A presente invenção ainda fornece um método para a determinação de um conjunto de ancestrais (e/ou fundadores) que é representativo de uma população atual que possui um pequeno tamanho efetivo da população, o referido método compreendendo a determinação das contribuições de longo prazo de ancestrais (e/ou fundadores) para a população com referência aos pedigrees de indivíduos da população atual, e a seleção daqueles indivíduos que fornecem as maiores contribuições de longo prazo para a população atual, de tal forma que o menor número de ancestrais (e/ou fundadores) seja selecionado para substancialmente descrever a variância na população atual.
Como aqui usado, o termo "conjunto de ancestrais (e/ou fundadores) que são representativos de uma população atual" significa que o conjunto de ancestrais (e/ou fundadores) é responsável pela maior parte da variância na população 25 atual, ou seja, a soma de todos os ancestrais (e/ou fundadores) no conjunto descreve substancialmente a variância na população atual. O termo "descreve substancialmente a variância na população atual" significa pelo menos cerca de 70%, preferivelmente pelo menos cerca 30 de 80% e ainda mais preferivelmente pelo menos cerca de 90% da variância total na população atual.
Em outro exemplo, a presente invenção também fornece um meio legível por computador para uso em seleção artificial, o referido meio legível por computador 5 compreendendo uma base de dados de um ou mais conjuntos de ancestrais (e/ou fundadores) que são representativos de uma ou mais populações atuais que possuem um pequeno tamanho efetivo da população produzidos pela realização de um método aqui descrito e que compreende, opcionalmente, dados 10 adicionais selecionados do grupo que consiste em: dados sobre valores genéticos reais ou estimados para um ou mais ancestrais (e/ou fundadores); dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; dados sobre um ou mais 15 marcadores contidos dentro de um ou mais segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; e combinações destes.
A presente invenção também fornece um sistema de computador para uso em seleção artificial que compreende:
2 0 (i) uma base de dados de um ou mais conjuntos de
ancestrais (e/ou fundadores) que são representativos de uma ou mais populações atuais que possuem um pequeno tamanho efetivo da população produzidos pela realização de um método aqui descrito e que compreende, opcionalmente, dados 25 adicionais selecionados do grupo que consiste em: dados sobre valores genéticos reais ou estimados para um ou mais ancestrais (e/ou fundadores); dados sobre segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual; dados sobre um ou mais
3 0 marcadores contidos dentro de um ou mais segmentos cromossômicos para ancestrais (e/ou fundadores) de indivíduos na população atual e combinações destes; e
(ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo, por 5 exemplo, segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos ou ocorrências de nucleotídeos para um indivíduo, por exemplo, para pesquisar a base de dados e exibir os resultados de uma pesquisa na base de dados.
A presente invenção engloba claramente o uso de
qualquer sistema de alto rendimento, meio legível por computador ou sistema de computador aqui citados, ou qualquer combinação destes, em seleção artificial, inseminação artificial, fertilização in vitro, implantação 15 de embrião ou procedimento ou processo transgênico para a produção de ganho genético, e em qualquer combinação desses procedimentos ou processos.
Em cada um dos métodos, processos, meios legíveis por computador, sistemas de computador e usos aqui descritos,
2 0 prefere-se que os pedigrees de indivíduos na população atual sejam completos ou quase completos, ou seja, que compreendam pelo menos cerca de 80% de ancestrais (e/ou fundadores) , ou 85% de ancestrais (e/ou fundadores) ou 90% de ancestrais (e/ou fundadores) ou 95% de ancestrais (e/ou 25 fundadores) ou 99% de ancestrais (e/ou fundadores) ou 100% de ancestrais (e/ou fundadores). Nesses casos, a proporção cumulativa de genes contribuída por ancestrais (e/ou fundadores) para uma população atual será pelo menos cerca de 80% e preferivelmente pelo menos cerca de 90% ou 95% ou 30 99% ou 100%. Nos casos em que os dados de pedigree estão incompletos, a presente invenção engloba claramente o uso de um ou mais marcadores para inferir o pedigree de um ou mais animais de uma população atual que possuem um pedigree incompleto.
As modalidades apresentadas anteriormente descrevem o
uso de genótipos do ancestral e/ou fundador para inferir os genótipos de candidatos à seleção em programas de melhoramento genético. No entanto, deve-se entender que, apesar da aplicabilidade geral da presente invenção para o
uso de genótipos do ancestral e/ou fundador para essa finalidade, o uso de genótipos de ancestrais é preferido pelo fato de que os conjuntos de dados são geralmente menores do que para populações de fundadores e, portanto, fornece uma vantagem maior em termos de custos reduzidos do 15 que genótipos baseados em genótipos de fundadores.
Cada modalidade aqui descrita deve ser aplicada com as devidas mudanças a cada e a todas as outras modalidades, a menos que especificamente definido de forma diferente.
Por toda esta especificação e nas reivindicações em 20 anexo, a menos que especificamente definido de forma diferente ou que o contexto exija de forma diferente, a referência a uma única etapa, composição de matéria, grupo de etapas ou grupo de composições de matéria deve ser considerada como englobando uma e diversas (ou seja, uma ou 25 mais) dessas etapas, composições de matéria, grupos de etapas ou grupo de composições de matéria.
Aqueles habilitados na técnica observarão que a invenção aqui descrita é suscetível a variações e modificações como aqui descritas ou outras além daquelas 3 0 especificamente descritas, incluindo equivalentes funcionais. Deve-se entender que a invenção inclui todas essas variações e modificações. A invenção também inclui todas as etapas, características, composições e compostos citados ou indicados nesta especificação, individual ou 5 coletivamente, e qualquer e todas as combinações ou quaisquer duas ou mais das referidas etapas ou características.
A presente invenção é realizada sem experimentação desnecessária, usando, a menos que indicado de forma
diferente, técnicas convencionais de biologia molecular, microbiologia, virologia, tecnologia de DNA recombinante, síntese peptídica em solução, síntese peptídica de fase sólida e imunologia.
Os seguintes textos são aqui incorporados por
referência:
I. Sambrook, Fritsch e Maniatis, "Molecular Cloning: A Laboratory Manual", Cold Spring Harbor Laboratories, Nova York, Segunda Edição (1989), a totalidade dos Volumes I, II e III;
2. "DNA Cloning: A Practical Approach", Volumes. I e
II (D.N. Glover, ed. , 1985), IRL Press, Oxford, todo o texto;
3. "Oligonucleotide Synthesis: A Practical Approach" (M.J. Gait, ed. , 1984) IRL Press, Oxford, todo o texto, e
particularmente os artigos científicos nele contidos por Gait, páginas 1-22; Atkinson e cols., páginas 35-81; Sproat e cols., páginas 83-115; e Wu e cols., páginas 135-151;
4. "Nucleic Acid Hybridization: A Practical Approach" (B.D. Hames e S. J. Higgins, eds., 1985) IRL Press, Oxford,
3 0 todo o texto; 5. Perbal, B., "Α Practical Guide to Molecular Clon-irig" (1984);
6. Bulmer, M.G., "The mathematical theory of quantitative genetics". Clarendon Press, Oxford, (1980);
7. Falconer D.S., "Introduction to Quantitative
Genetics". Oliver e Boyd, Londres (1960);
8. Falconer D.S., "Introduction to Quantitative Genetics", Segunda Edição, Longmann, Londres (1981);
9. Falconer D.S., "Introduction to Quantitative Genetics", Terceira Edição, Longmann, Londres (1989);
10. Falconer D.S., Mackay T.F.C., "Introduction to Quantitative Genetics". Quarta Edição, Longmann e Co, Londres (1996); e
11. Kearsey M., Pooni H.S., 19 96. "The Genetical Analysis of Quantitative trats". Chapman e Hall, Londres
(1996) .
Descrição detalhada das modalidades preferidas
Espécies que possuem pequenos tamanhos efetivos da
população (Ne)
2 0 A presente invenção é facilmente aplicada a qualquer
contexto de melhoramento genético ou seleção artificial que envolva indivíduos de pequenas populações efetivas, especialmente para populações que tiveram seu tamanho efetivo da população reduzido, por exemplo, por reprodução 25 seletiva. São usados métodos padronizados conhecidos por aqueles habilitados na técnica para determinar o tamanho efetivo da população.
Por exemplo, o tamanho efetivo da população Ne é calculado como:
Ne = 1 / (2AF) Em que Fé o coeficiente de endogamia, uma medida da quantidade de diversidade genética que foi perdida, por exemplo, por endogamia. 0 termo AF pode ser estimado por regressão de coeficientes de endogamia individuais no 5 número da geração. A mudança na endogamia por geração pode então ser usada para estimar o número efetivo de animais reprodutores (Ne). A finalidade do tamanho efetivo da população é estimar o número de animais que produziriam uma taxa observada de endogamia, caso sejam procriados sob 10 condições ideais de emparceiramento aleatório na geração atual (Lacy, Zoo Biol. 14, 565-578, 1995) .
Exemplos de métodos para a determinação do tamanho efetivo da população são descritos nas referências listadas na Tabela 1. Populações preferidas que possuem um pequeno 15 tamanho efetivo da população teriam sido produzidas relativamente recentemente, por exemplo, ao longo de 4-10 gerações, em virtude de um gargalo da população ou, alternativamente, ao longo de período de tempo para o qual os dados de pedigree sobre ancestrais significantes estão 20 disponíveis. Isso eqüivale a permitir que uma cobertura suficiente do genoma da população atual seja inferida por haplótipos dos ancestrais altamente significantes que contribuem para o volume da variação genética para a população atual. Exemplos de populações às quais a presente 25 invenção é facilmente aplicada incluem gado (por exemplo, gado de corte e leiteiro como, por exemplo, Holstein, Friesan, Holstein-Friesan, Braunvieh, Brown Swiss, Jersey, Danish Red, Aberdeen Angus), carneiro (por exemplo, Meatlinc, cruzamento Dorset x Rambouillet x Finnsheep),
3 0 porcos (por exemplo, cruzamento Large White x Landrace, Large White, Duroc, Yorkshire, Landrace), aves (por exemplo, Layers), peixes (por exemplo, salmão do Atlântico), crustáceos, azevém etc. Os tamanhos efetivos estimados da população (Ne) de algumas dessas populações animais são mostrados na Tabela 1 abaixo.
Tabela 1
Espécie Raça Ne Referência estimado Bovinos Holstein- 50 Boichard, INRA Prod. Anim. Friesans 9, 323-335 (1996) Holstein- 100 Young e cols., J. Dairy Friseans Sei. 79, 502-505 (1996) Braunvieh 114 Hagger, I Anim. Breed. and Genet. 22, 405 (2005) Brown Swiss 46 Hagger,.J. Anim. Breed. and Genet. 22, 405 (2005) Holstein 49 Sorensen e cols., J. Dairy Sei. 88, 1.865-1.872 (2005) Jersey 53 Sorensen e cols., J. Dairy Sei. 88, 1.865-1.872 (2005) Danish Red 47 Sorensen e cols., J. Dairy Sei. 88, 1.865-1.872 (2005) Ovinos Cruzamento 35 Mackinnon e cols., J. Anim. Dorset- Sci 81 (Supl. 1), p267 Ramboulliet (2003) - Finnsheep Suínos Inter- <200* Harmegnies e cols., Anim. cruzamento Genet. 37, 225-231 (2006) Large white - Landrace Large White 200 Nsengimana e cols., Genetics 166, 1.395-1.404 (2004) Duroc/Large 85 Nsengimana e cols., White Genetics 166, 1.395-1.404 (2004) Yorkshire/ 60 Nsengimana e cols., Large White Genetics 166, 1.395-1.404 (2004) Large White 300 Nsengimana e cols., Genetics 166, 1.395-1.404 (2004) Landrace 190 Nsengimana e cols., Genetics 166, 1.395-1.404 (2004) Galinhas Layers 91-123 Hagger e cols., J. Anim. Breed Genet. 122 (Supl. 1), 15-21 (2005) Salmão do Atlântico População 50-200 Mork e cols., Norges do programa Offentlige Utredninger 9, de melhora¬ 181-200 (1999) mento Definição dos ancestrais e fundadores
São usados métodos padronizados para determinar contribuições do ancestral/fundador para uma população atual, preferivelmente em populações para as quais os dados de pedigree estão completos ou quase completos, por exemplo, pelo menos cerca de 80-90% completos ou pelo menos 5 cerca de 85-95% completos e, mais preferivelmente, pelo menos cerca de 90% ou 95% ou 96% ou 97% ou 98% ou 99% completos.
Por exemplo, o cálculo derivado por Boichard e cols.
(1997) pode ser usado para identificar os ancestrais e/ou fundadores mais influentes em um pedigree:
m
fa = Σ ai2 i=l
em que ai é a contribuição marginal de cada 15 ancestral/fundador (ou seja, qualquer animal no pedigree, exceto aqueles animais na geração atual), em contraste com cada fundador, com a geração atual, e m é o número total de ancestrais contribuintes. A soma da contribuição marginal de todos os ancestrais/fundadores deve ser igual a um, e o
2 0 número efetivo de ancestrais é sempre menor ou igual ao
número efetivo de fundadores. As contribuições individuais para o número efetivo de ancestrais/fundadores podem ser usadas para se encontrar os ancestrais e/ou fundadores mais influentes. Os números obtidos pelo cálculo de fa levam em 25 consideração uma diminuição na variação genética em populações que passaram por um gargalo. É o indivíduo que passa adiante a maioria dos genes para uma população atual que faz a maior contribuição. Embora um ancestral influente (por exemplo, um filho de um ancestral) passe adiante a
3 0 maioria de seus genes por muitas proles, ele só possui apenas metade dos genes de seu pai fundador. Os animais na população atual sob estudo recebem um valor de um, e as contribuições marginais são obtidas por processamento do pedigree do mais jovem ao mais velho. Quando um 5 ancestral/fundador importante é identificado (um animal com a maioria dos relacionamentos para uma população atual), suas informações de ancestral e retenção são removidas do pedigree e, assim, suas contribuições para uma população atual não são contadas em dobro. Um algoritmo re-executa os 10 cálculos cada vez que um ancestral é removido, de tal modo que as contribuições marginais já selecionadas não causadas pelo ancestral sejam as únicas medidas (Boichard e cols., Genet. Sei. Evol. 29, 5-23, 1997).
A partir do exemplo no parágrafo precedente, fica evidente que, caso um filho tenha sido selecionado como um ancestral importante, seu pai não receberá crédito por suas contribuições através de seu filho influente na repetição seguinte.
Há uma discrepância que pode ocorrer quando fa ê
2 0 estimada por meio da equação prévia. Na medida em que os animais são selecionados com base em sua contribuição marginal, se múltiplos animais possuem a mesma contribuição marginal dentro de uma repetição, o número de ancestrais efetivos poderá mudar, dependendo de qual for escolhido. 25 Grandes populações não são grandemente afetadas, mas em pequenas populações poderia haver um efeito aumentado sobre fa, já que as contribuições marginais possuem o potencial para serem maiores. 0 fa é responsável pelos gargalos no pedigree, mas não é responsável pela mudança genética. 0 30 cálculo é útil para a identificação dos ancestrais mais influentes, o que pode ser importante em populações selecionadas.
Alternativamente, ancestrais e/ou fundadores
significantes podem ser determinados considerando-se o efeito de diferentes coortes de ancestrais/fundadores sobre
o ganho genético, como determinado pelo estudo do relacionamento entre as contribuições genéticas de longo prazo de ancestrais/fundadores e escores de índice, basicamente como descrito por Avendailo e cols., J. Anim. 10 Sei. 81, 2.964-2.975 (2003). Nesse método, a contribuição de longo prazo (r) é computada de acordo com a abordagem de Woolliams e cols., Anim. Sei. 61, 177-187 (1995), em que, para computar r, uma geração de ancestrais/fundadores e uma geração de descendentes são definidas de acordo com 15 intervalos de geração médios calculados previamente, de tal forma que as gerações de ancestrais e de descendentes sejam definidas pela utilização do intervalo de geração (L). Essa definição assegura que r somado ao longo de todos os ancestrais ao longo de um período de período de L anos seja 20 igual ã unidade (Bijma e cols., Genetics 151, 1.197-1.210, 1990) . Presume-se a convergência de contribuições caso a variância de contribuições de ancestrais/fundadores através dos descendentes seja menor do que 1,0 x IO"4. A regressão da contribuição genética de longo prazo de 25 ancestrais/fundadores em seus escores de índice é calculada para cada coorte de ancestrais.
Em um exemplo particularmente preferido, os ancestrais são definidos por um método da invenção que compreende a determinação das contribuições de longo prazo de ancestrais
3 0 e/ou fundadores para a população com referência aos pedigrees de indivíduos da população atual, e a seleção daqueles indivíduos que fornecem as maiores contribuições de longo prazo pára. umà população atual, de tal forma que o menor número de ancestrais e/ou fundadores seja selecionado 5 para descrever substancialmente a variância na população atual.
Por exemplo, presumindo-se a aplicação das seguintes condições ou suposições no relacionamento de qualquer ancestral ou fundador ou grupo de ancestrais ou fundadores
a uma população atual:
(i) n representa o número de ancestrais e/ou fundadores potenciais;
(ii) A é uma matriz aditiva de relacionamento nxn entre n ancestrais e/ou fundadores potenciais;
(iii) c é um vetor nxl com os n ancestrais e/ou
fundadores potenciais ordenados na mesma forma que na matriz aditiva de relacionamento A;
(iv) Ci é o relacionamento médio de ancestral/fundador
i com uma população atual, ou seja, a fração de genes na
2 0 população atual que é derivada direta ou indiretamente do
ancestral/fundador í; e
(v) Am é uma submatriz de A que descreve o relacionamento entre m dos ancestrais e/ou fundadores;
(vi) cm é um subvetor de c que descreve o
relacionamento entre m dos ancestrais e/ou fundadores e a
população atual;
(vii) p é um vetor que possui o elemento i igual à proporção de genes em uma população que deriva somente do ancestral/fundador i; e
3 0 (viii) p'l é a proporção de genes na população que deriva de m ancestrais e/ou fundadores determinada como um total· dos elementos de p.
Dessa forma,
P ~ Am Cm
Isso significa que os ancestrais fundamentais e/ou
fundadores podem ser selecionados por determinação de um subconjunto de ancestrais que maximize p'l. Por exemplo, os ancestrais e/ou fundadores mais significantes para uma população podem ser selecionados em etapas, por: (i) 10 seleção de um ancestral ou fundador que contribui com a maior proporção de genes para uma população atual; (i i) seleção de um ancestral ou fundador que fornece a maior contribuição marginal de genes, comparado com o ancestral em (i) ; e (iii) realização de repetições suficientes de 15 (ii) para descrever substancialmente a variância na população atual.
Por exemplo, foi determinado um conjunto de cerca de 25 ancestrais significantes na população de Holstein Fresian australiano com a utilização dessa abordagem, como 20 mostrado na Tabela 2. Os nomes completos desses ancestrais também estão listados na Tabela 3 abaixo, que fornece uma listagem mais completa de ancestrais fundamentais e a disponibilidade de sêmen ou de dados do genótipo sobre esses ancestrais fundamentais. É indicado um ancestral por 25 linhagem tanto na Tabela 2 quanto na Tabela 3. No exemplo fornecido na Tabela 2, a proporção cumulativa de genes que contribuiu para a população atual é de cerca de 33%, possivelmente em função dos pedigrees incompletos de animais na população atual. Como pode ser observado a
3 0 partir dos dados na Tabela 3, de 10 0 ancestrais fundamentais, apenas cerca da metade foi genotipada e há estoques de sêmen limitados disponíveis para a genotipagem a ser realizada, tornando necessária, dessa forma, a inferência de genótipos ausentes.
É preferível que a proporção cumulativa de genes que
contribuiu para a população atual seja de mais do que cerca de 80% ou 90% ou 95% ou 99% ou 100%. Em circunstâncias em que esse não for o caso, prefere-se utilizar uma população que possua um registro de pedigree melhor e/ou utilizar os 10 próprios marcadores para inferir o pedigree de animais com pedigrees incompletos.
Tabela 2
Ancestrais fundamentais exemplares na população de gado Holstein Fresian australiano
Nome do ancestral Proporção cumulativa de genes que contribuíram para a população atual VALIANT 0,05371 OAK RAG APPLE ELEVATION 0,09220 IVANH0E BELL 0,12534 STARBUCK 0,15426 MASCOT 0,18180 BLACKSTAR 0,20459 ENHANCER 0,22700 LINMACK ICRISS KING 0,24425 ROTATE 0,25660 TRADITION CLEITUS 0,26798 R0YBR00K TELSTAR 0,27699 PACLAMAR ASTR0NAUT 0,28531 FOND MATT 0,29287 WHITTIER-FARMS NED BOY O,29872 ROYBROOK STARLITE O ,30399 WAPA ARLINDA CONDÜCTOR 0,30851 ROSAFE CITATION 0,31247 CAM VIEW SOVEREIGN 0,31638 KIRK JÚPITER 0,32027 TRAILYND ROYAL BEAU 0,32374 AGRO ACRES MARQUIS NED 0,32717 RONNYBROOK PRELUDE 0,33046 SUNNY BOY 0,33379 HILL NSPIRATION 0,33658 VIC KAI 0,33915 Tabela 3
Ancestrais fundamentais exemplares na população de gado
HÕlstein Fresian australiano e americano
ID AUS ID Nome do ancestral Estoques Registros Internacional de sêmen de 1 genótipos 1 A0000001 HOAUS 0 0 0A0 0 0000 WARRAWEE ADEMA 0 0 3 13 AMBASSADOR AO0 00009 HOAUS 0 0 0A0 0 0000 KOTAHA KIM 0 0 6 96 A0000 010 HOAUS 0 0 0A0 0 0 0 01 VICTORIA OLSON 0 0 3 03 AO 000019 HOAUS000A000001 CAM VIEW SOVEREIGN 0 0 3 93 A000 002 0 HOAUS 0 0 0A0 0 0 0 02 CLINELL RAELENE 0 0 7 07 MAGIC A0000025 HOAUS 0 0 0A0 00 002 GLENJOY GRIFFLAND 0 0 3 53 RANDY A0000100 HOAUS 0 0 0A0 00 010 SNIDERS FOND HOPE 0 0 ]_ 01 KING A0000103 HOAUS 0 0 0A0 00010 FRASEA LORD JEWEL 0 0 7 37 A0000155 HOAUS 0 0 0A0 00015 HADSPEN BUTTERRMAN 0 0 5 55 01 F B BUTTE A0000164 HOAUSO0 0A00 0016 CLARIS VALE MASTER 0 0 3 43 A0000174 HONZLO0 0000062 0 PUICERORO ISAR 0 0 2 11 IMPERIAL AO OO0174 HONZL0000000042 GAYTON INGA VIC 0 0 4 09 AO 000174 HONZLO000000052 WINDERMERE PERFECT 0 0 6 11 MAX Α0000175 HONZLO000000072 LYNCREST S Q VICTOR 0 0 3 13 Α0000175 HONZLOOOOOOOÕ21 PUKERORO NORBERT 0 0 6 47 LOCK AO000178 HONZL0000000623 ATHOL SOVEREIGN FAME 0 0 6 87 Α0000191 HOGBRO 000002657 SUTTONHOO IDENA 0 0 I 81 DIVIDEND PI AO 000193 HOCAN0000002920 FREELEA INKA JERRY 0 0 I 57 AOO0 0193 HOGBRO000 003037 MMB OAKRIDGES 0 0 8 35 REFLECTION PI Α0000194 HOCAN 0000002942 LINMACK KRISS KING 0 0 I 13 AOO0 0195 HOCAN 0000003136 AGRO ACRES REVENUE 0 0 7 02 AOOO0197 HOGBR0000 0 03 603 LOCUSLANE SUPREME 0 0 5 23 Α0000213 HOCAN0000002805 EDGEWARE WAYNE 0 0 8 96 ACHILLES Α0000214 HOCAN0000002893 TAYSIDE PABST 0 0 2 18 ROCKMAN Α0000214 HOCAN0000002905 AGRO ACRES MARQUIS 0 0 4 16 NED Α0000214 HOCAN0000002932 WAY BROOK SIR 0 0 5 99 WINSTON Α0000214 HOCAN0000003029 MOOREVILLE ROCKET 0 0 8 81 KEMP AOOO0216 HOCAN 0 0 O 00 032 08 QUALITY ultimate 0 0 9 91 AO0 00229 HONZLO0 0000062I PITCAIRNS T B 0 0 6 12 TOPPER AO 0 00279 HOCAN 0000002763 BOND HAVEN SOVEREIGN 0 0 8 33 Α0000293 HONZLO000000001 KITEROA MUTUAL MIKE 0 0 5 61 Α0000294 HONZLO0 00000278 OTAKI HCT GRAHAM 0 0 4 93 Α0000311 HOCAN 0000003649 ALBRECHT CASCADE 0 0 6 63 Α0000511 HOCAN 0000002998 FAIRLEA ROYAL MARK 0 0 3 55 AO 0 00511 HOCAN0000002887 ROYBROOK TELSTAR 0 0 4 90 Α0000514 HOUSAO0 00013928 NO-NA-ME FOND MATT 0 0 7 58 Α0000515 HOCAN0000002671 ROSAFE CITATION R 0 0 8 50 Α0000548 HOUSAO 000017215 BROWNCROFT JETSON 0 0 2 09 Α0000640 HOUSAO 000016173 HILLIANA 0 0 9 48 VALEDICTORIAN AO 0 00641 HOUSAO 000016853 DONACRES DYNAMO-TWIN 0 0 I 59 AO0 00686 HOUSAO 000015163 HEINDEL K C KIRK 0 0 2 60 JÚPITER Α0000814 HONLDO003116514 SKALSUMER SUNNY BOY 0 0 4 43 AO 0 01192 HONZLO000 000932 ATHOL MURRAYS 0 0 0 90 EMINENCE AO 0 01275 HONZLO000000963 SRB COLLINS ROYAL 0 0 2 29 HUGO Α0001453 HOCAN0000002596 GLENHOLM ALERT DEAN 0 0 0 68 PABST Α0001454 HODNKO 000000107 VAR ARLI 0 0 3 63 Α0001464 HOUSAO0 00012822 ELLBANK ADMIRAL 0 0 3 62 ORMSBY PRIDE Α0001464 HOUSAOO0 0012422 POLYTECHNIC IMPERIAL 0 0 7 21 KNIGHT Α0001464 HOUSAO 000011993 SKOKIE BENEFACTOR 0 0 8 24 Α0001467 HOUSAO 000015318 PACLAMAR o ■ 0 9 66 COMBINATION Α0001469 HOUSAO 000016483 ACK-LEE CHIEF MONEY 0 0 2 94 MAKER AO 0 01715 HOUSAO 000013529 SKOKIE NED BOY 0 0 9 79 Α0000037 HOAUS 0 O OAO 00003 ONKAVALE GRIFFLAND 1 1 8 78 MIDAS AOO00106 HOAUS O O OAO OOOlO TRAILYND ROYAL BEAU 1 1 I 61 Α0000197 HOGBRO 000003701 DALESEND CASCADE PI 1 1 8 61 AO 0 00250 HOCAN0000003409 CAL-CLARK CUTLASS 1 1 2 09 AO OO0435 HOCAN 0000003714 HANOVERHILL 1 1 0 40 SABASTIAN ET AO0 00672 HOCANO 00 0.0 04 02-7 MEADOW BRIDGE 1 1 0 29 MANHATTAN Α000 0688 HOAUS 0 0 OAO 0 0068 SHOREMAR PERFECT 1 1 9 89 STAR (ET) Α0001126 HONLD0008298778 HOLIM BOUDEWUN 1 1 8 74 AO 000648 HOUSAO 000017478 COR-VEL ENCHANTMENT 1 2 4 62 Α000 0696 HOUSAO 000017720 CRESCENTMEAD CHIEF 1 2 8 90 STEWART Α0001453 HOCAN 0000002605 ROSAFE SHAMROCK 1 2 2 99 PERSEUS Α0001466 HOUSAO 000015634 WILLOW-FARM ROCKMAN 1 2 9 53 IVANHOE AO 0 01505 HOUSA000 0 01483 8 HARBORCREST HAPPY 1 2 I 44 CRUSADER AO 0 00432 HOUSAO 000017816 ROBE-JAN SKYLER 1 1 5 31 CHIEF Α0000480 HOCAN0000003631 HANOVER-HILL 1 1 5 62 INSPIRATION Α0000514 HOUSAO 000016268 MARSHFIELD ELEVATION 1 1 6 13 TONY Α0000514 HOUSA00 00 01458 7 PACLAMAR ASTRONAUT 1 1 8 44 Α0000514 HOUSA0000014 502 PACLAMAR BOOTMAKER 1 1 9 28 Α0000515 HOUSA0000 014 910 ROUND OAK RAG APPLE 1 1 I 07 ELEVATION Α0000515 HOUSA0000016504 S-W-D VALIANT 1 1 2 14 Α0000515 HOUSAO 000015831 WAPA ARLINDA 1 1 4 97 CONDUCTOR AO OO0515 HOUSA0000013 810 IDEAL FURY 1 1 6 27 REFLECTOR Α0000542 HOUSAO 000018062 WHITTIER-FARMS NED 1 1 4 01 BOY Α0000542 HOUSAO 000016673 CARLIN-M IVANHOE 1 1 5 66 BELL Α0000542 HOUSAO 000016824 SWEET-HAVEN 1 1 6 85 TRADITION Α0000556 HOUSAO 000016975 ARLINDA ROTATE 1 1 9 72 Α0000570 HOUSAOOO0 018790 BIS-MAY TRADITION 1 1 7 85 CLEITUS AO 00 0618 HOUSAO0 00O19294 TO-MAR BLACKSTAR-ET 1 1 7 10 Α0000641 HOUSAO 000015120 HARRISBURG GAY 1 1 0 26 IDEAL Α0000723 HOUSAO 000019303 HICKS-HOLLOW PROMPT 1 1 6 94 AOO00743 HOCAN 0000003924 A RONNYBROOK PRELUDE 1 1 5 57 ET AOO00799 HOUSAO 000018746 HOW-EL-ACRES K 1 1 0 34 BELLMAN-ET Α0001463 HOUSAOOOOO13998 HILLTOP APOLLO 1 1 I 24 IVANHOE Α0001463 HOUSAO 000013939 PROVIN MTN IVANHOE 1 1 2 97 JEWEL A0001463 HOUSAOOOOO14281 SUNNYSIDE STANDOUT- 1 1 6 04 TWIN A0001467 HOUSAO 000015603 C ROMANDALE 1 1 0 62 SHALIMAR MAGNET A0001470 HOUSAO 000016084 arlinda CINNAMON 1 1 2 25 A0001470 HOUSAO 000016742 I-O-STATE CHIEF 1 1 5 45 FORD AO 0 00215 HOCAN0000003086 ROYBROOK starlite 2 1 1 91 AO 0 00267 HOCAN0000003435 GLENAFTON ENHANCER 2 1 7 14 A0000346 HOCAN0000003527 HANOVERHILL 2 1 0 90 STARBUCK A0000533 HOUSAO 000018569 THONYMA SECRET 2 1 9 04 A0000648 HOUSAO 000019644 SOUTHWIND BELL OF 2 1 5 84 BAR-LEE AO 000657 HOCAN00 00003836 Madawaska aerostar 2 1 7 22 AO 000709 HOUSAO 000020052 PICKARD-ACRES VIC 2 1 4 53 KM AO0 00717 HOUSAO 000020200 SINGING-BROOK N-B 2 1 0 49 MASCOT-ET A0000814 HOUSAO 000020705 BIS-MAY S-E-L 2 1 9 79 MOUNTAIN-ET A0001000 HONLDO0 07753285 EASTLAND CASH 2 1 3 14 números indicam totais cumulativos para
australianos e americanos Métodos de genotipagem
A genotipagem geralmente envolve a detecção de um ou mais marcadores de interesse, por exemplo, SNPs, em uma amostra de um indivíduo sendo testado, e a análise dos 5 resultados obtidos para determinar o haplótipo do indivíduo. Como ficará aparente a partir da especificação aqui apresentada, prefere-se particularmente detectar um ou mais marcadores de interesse com o uso de um sistema de alto rendimento que compreende um suporte sólido que
consiste basicamente em (ou que possui) ácidos nucléicos de seqüência diferente ligados direta ou indiretamente a ele, em que cada ácido nucléico de seqüência diferente compreende um marcador genético polimórfico derivado de um ancestral ou fundador que é representativo da população
atual e, mais preferivelmente, em que o referido sistema de alto rendimento compreende marcadores suficientes que sejam representativos do genoma da população atual.
Amostras adequadas à genotipagem
As amostras preferidas compreendem ácido nucléico, por
2 0 exemplo, RNA ou DNA genômico e, preferivelmente, DNA
genômico.
Por exemplo, o teste genético de plantas pode envolver o teste de qualquer parte de planta, por exemplo, folha, órgão floral, semente etc.
0 teste genético de animais pode ser realizado com o
uso de um folículo piloso, por exemplo, isolado da cauda de um animal a ser testado. Outros exemplos de amostras facilmente acessíveis incluem, por exemplo, pele ou um líquido corporal ou um extrato deste ou uma fração deste.
3 0 Por exemplo, um líquido corporal facilmente acessível inclui, por exemplo, sangue total, saliva, sêmen ou urina. Frações exemplares de sangue total são selecionadas do grupo que consiste em fração da camada de células brancas, Fração II + III, que pode ser obtida por fracionamento de 5 Cohn por etanol (E.J. Cohn e cols., J. Am. Chem. Soc., 68, 459 (194 6) ) , Fração II que pode ser obtida por fracionamento de Cohn por etanol (E.J. Cohn e cols., J. Am. Chem. Soc., 68, 459 (1946)), fração de albumina, uma fração que contém imunoglobulina e misturas destas. De 10 preferência, uma amostra de um animal foi isolada ou derivada previamente de um animal em questão, por exemplo, por cirurgia ou pela utilização de uma seringa ou um cotonete.
Em outra modalidade, uma amostra pode compreender uma célula ou extrato de célula, ou mistura destes, derivado de um tecido ou órgão como, por exemplo, aqui descrito acima. A preparação de ácido nucléico derivada de órgãos, tecidos ou células também é particularmente útil.
A amostra pode ser preparada em uma matriz sólida para 20 análises histológicas ou, alternativamente, em uma solução adequada como, por exemplo, um tampão de extração ou um tampão de suspensão, e a presente invenção se estende claramente ao teste de soluções biológicas assim preparadas. No entanto, em uma modalidade preferida, o 25 sistema de alto rendimento da presente invenção é empregado com a utilização de amostras em solução.
Design da sonda/iniciador
Aqueles habilitados na técnica têm ciência de que uma sonda ou um iniciador adequado, ou seja, um capaz de detectar especificamente um marcador, irá hibridizar especificamente para uma região do genoma no DNA genômico no indivíduo que está sendo testado que compreende o marcador. Gomo aqui usado, o termo "que hibridiza seletivamente" significa que o polinucleotídeo usado como 5 uma sonda é usado sob condições nas quais se verifica que um polinucleotídeo-alvo hibridiza para a sonda em um nível significativamente acima do nível de fundo. A hibridização de fundo pode ocorrer por causa de outros polinucleotídeos presentes, por exemplo, no DNA genômico que está sendo 10 avaliado. Nesse evento, o nível de fundo implica um nível de sinal gerado por interação entre a sonda e DNA não específico que é menos do que 10 vezes, preferivelmente menos do que 100 vezes intenso que a interação específica observada com o DNA-alvo. A intensidade da interação é 15 medida, por exemplo, por marcação radioativa da sonda, por exemplo, com 32P.
Como é do conhecimento daqueles habilitados na técnica, uma sonda ou um iniciador compreende ácido nucléico e pode consistir em oligonucleotídeos sintéticos 20 de até cerca de 100-300 nucleotídeos de comprimento e, mais preferivelmente, de cerca de 50-100 nucleotídeos de comprimento, e ainda mais preferivelmente pelo menos cerca de 8-100 ou 8-50 nucleotídeos de comprimento. Por exemplo, sondas de ácido nucléico locked (LNA) ou de proteína-ácido 25 nucléico (PNA) ou sinalizadores moleculares (molecular beacons) para a detecção de um ou mais SNPs possuem geralmente um comprimento de pelo menos cerca de 8 a 12 nucleotídeos. Fragmentos de ácidos nucléicos mais longos de até várias quilobases de comprimento também podem ser
3 0 usados, por exemplo, derivados de DNA genômico que foi quebrado ou digerido com uma ou mais endonucleases de restrição. Alternativamente,, sondas/iniciadores podem compreender RNA.
Sondas ou iniciadores preferidos para uso na presente 5 invenção serão compatíveis com o sistema de alto rendimento aqui descrito. Sondas e iniciadores exemplares compreenderão sondas de ácido nucléico locked (LNA) ou proteína-ácido nucléico (PNA) ou sinalizadores moleculares, preferivelmente ligados a uma fase sólida. Por exemplo, são
usadas sondas de LNA ou PNA ligadas a um suporte sólido, em que cada uma das sondas compreende um SNP e sondas suficientes são ligadas ao suporte sólido para abranger o genoma da espécie à qual pertence o indivíduo que está sendo testado.
0 número de sondas ou de iniciadores irá variar,
dependendo do número de Ioci ou QTLs pesquisado e, no caso de pesquisas do genoma completo, do tamanho do genoma que está sendo pesquisado. A determinação desses parâmetros é facilmente definida por aqueles habilitados na técnica, sem
2 0 experimentação desnecessária.
A especificidade das sondas ou dos iniciadores também pode depender do formato da reação de hibridização ou amplificação empregada para a genotipagem.
As seqüências de quaisquer sondas ou iniciadores em
particular usados no método da presente invenção dependerão do lócus ou QTL, ou combinação destes, que está sendo pesquisado. A esse respeito, a presente invenção pode ser geralmente aplicada à genotipagem de qualquer lócus ou QTL ou para a genotipagem simultânea ou seqüencial de qualquer
3 0 número de QTLs ou Ioci, incluindo a genotipagem do genoma completo. Essa generalidade não deve ser limitada a um lócus ou QTL específico, ou combinação destes. A determinação das seqüências da sonda/iniciador é facilmente determinada por aqueles habilitados na técnica, sem 5 experimentação desnecessária.
São empregados métodos padronizados para o design de sondas e/ou iniciadores, por exemplo, como descrito por Dveksler (Eds) (Em: "PCR Primer: A Laboratory Manual", Cold Spring Harbour Laboratories, NY, 1995). Pacotes de softwares também são disponíveis publicamente para o design de sondas e/ou iniciadores ótimos para diversos ensaios, por exemplo, o Iniciador 3 disponível pelo "Center for Genome Research", Cambridge, MA, EUA. De preferência, as sondas e/ou os iniciadores são testados para determinar aqueles que não formam hairpins, self-prime ou formem dímeros de iniciadores (por exemplo, com outra sonda ou iniciador usado em um ensaio de detecção). Além disso, uma sonda ou um iniciador (ou a seqüência deste) é preferivelmente testado para determinar a temperatura na qual ele desnatura de um ácido nucléico-alvo (ou seja, a temperatura de fusão da sonda ou do iniciador, ou Tm). Métodos de determinação da Tm são conhecidos na técnica e descritos, por exemplo, em Santa Lucia, Proc. Natl. Acad. Sei. USA, 95: 1.460-1.465, 1995 ou Bresslauer e cols., Proc. Natl. Acad. Sci USA, 83: 3.746- 3.750, 1986.
Para sondas de LNA ou PNA ou sinalizadores moleculares, é particularmente preferido que a sonda ou os sinalizadores moleculares tenham comprimento de pelo menos cerca de 8 a 12 nucleotídeos e, mais preferivelmente, que o
3 0 SNP esteja posicionado aproximadamente no centro da sonda, facilitando, dessa forma, a hibridização seletiva e a detecção precisa.
Para a detecção' de um ou mais SNPs com o uso de um ensaio de PCR alelo-específico ou um ensaio de reação em cadeia de ligase, a sonda/iniciador é geralmente projetada de tal forma que o nucleotideo do 3' terminal hibridize para o sítio do SNP. 0 nucleotideo do 3' terminal pode ser complementar a qualquer um dos nucleotídeos sabidamente presentes no sítio do SNP. Quando nucleotídeos complementares ocorrem tanto na sonda/iniciador quanto no sítio do polimorf ismo, a extremidade 3' da sonda ou do iniciador hibridiza completamente para o marcador de interesse e facilita, por exemplo, a amplificação por PCR ou a ligação a outro ácido nucléico. Conseqüentemente, uma sonda ou um iniciador que hibridize completamente para o ácido nucléico-alvo produz um resultado positivo em um ensaio.
Para reações de extensão de iniciador, a sonda/iniciador é geralmente projetada de tal forma que 20 hibridize especificamente para uma região adjacente a um nucleotideo específico de interesse, por exemplo, um SNP. Embora a hibridização específica de uma sonda ou de um iniciador possa ser estimada por determinação do grau de homologia da sonda ou do iniciador para qualquer ácido 25 nucléico com o uso de software como, por exemplo, BLAST, a especificidade de uma sonda ou de um iniciador é geralmente determinada empiricamente com a utilização de métodos conhecidos na técnica.
Métodos de produção/síntese de sondas e/ou iniciadores
3 0 úteis na presente invenção são conhecidos na técnica. Por exemplo, a síntese de oligonucleotídeos é descrita, por exemplo, em Gait (Ed) (Em: "Oligonucleotide Synthesis: A Practical Approach", IRL Press, Oxford, 1984); a síntese de LNA é descrita, por exemplo, em Nielsen e cols. , J. Chem.
Soc. Perkin Trans., 1: 3.423, 1997; Singh e Wenge1, Chem. Commun. 1.24 7, 1998; e a síntese de PNA é descrita, por exemplo, em Egholm e cols., Am. Chem. Soc., 114: 1895, 1992; Egholm e cols., Nature, 3 65: 566, 1993; e Orum e cols., Nucl. Acids Res., 21: 5.332, 1993.
Métodos de detecção de marcadores
São conhecidos na técnica vários métodos para a determinação da ocorrência de um marcador em particular em uma amostra.
Em uma modalidade preferida, um marcador é detectado
com o uso de uma sonda ou de um iniciador que hibridiza seletivamente para o referido marcador em uma amostra de um indivíduo sob rigor moderado, e, preferivelmente, condições de alto rigor. Caso a sonda ou o iniciador seja marcado de forma detectável com uma molécula repórter adequada, por
2 0 exemplo, um marcador quimioluminescente, um marcador
fluorescente, um marcador radioativo, uma enzima, uma hapteno ou uma seqüência de oligonucleotídeos única etc, a hibridização poderá ser detectada diretamente por determinação da ligação da molécula repórter.
Alternativamente, a sonda ou iniciador hibridizada pode ser detectada pela realização de uma reação de amplificação, por exemplo, uma reação em cadeia de polimerase (PCR) ou formato similar, e a detecção do ácido nucléico amplificado. De preferência, a sonda ou o iniciador é
3 0 ligado ao suporte sólido, por exemplo, no sistema de alto rendimento da presente invenção.
Com o objetivo· de definir o nível de rigor a ser usado na hibridização, um baixo rigor é aqui definido como hibridização e/ou etapas de lavagem realizadas em 2-6 x 5 tampão SSC, SDS 0,1% (p/v) a 28 °C, ou condições equivalentes. Um rigor moderado é aqui definido como hibridização e/ou etapas de lavagem realizadas em 0,2-2 x tampão SSC, SDS 0,1% (p/v) em uma temperatura na faixa de 45°C a 65°C, ou condições equivalentes. Um rigor elevado é 10 aqui definido como hibridização e/ou etapas de lavagem realizadas em 0,1 x tampão SSC, SDS 0,1% (p/v) , ou uma concentração de sal menor, e em uma temperatura de pelo menos 65°C, ou condições equivalentes. A referência aqui feita a um nível de rigor em particular engloba condições 15 equivalentes com o uso de soluções de lavagem/hibridização diferentes de SSC conhecidas por aqueles habilitados na técnica.
Geralmente, o rigor é aumentado por redução da concentração de tampão SSC, e/ou aumento da concentração de
2 0 SDS e/ou aumento da temperatura da hibridização e/ou lavagem. Aqueles habilitados na técnica estarão cientes de que as condições para a hibridização e/ou lavagem podem variar, dependendo da natureza da matriz de hibridização usada para sustentar o DNA da amostra, ou do tipo de sonda 25 de hibridização usado.
Também podem ser empregadas condições de rigor progressivamente maiores, em que o rigor é aumentado em etapas das condições de rigor mais baixas para as mais elevadas. Condições de rigor progressivas exemplares são como a seguir: 2 x SSC/SDS 0,1% em torno da temperatura ambiente (condições de hibridização); 0,2 x SSC/SDS 0,1% em torno da temperatura ambiente (condições de baixo rigor); 0,2 x SSC/SDS 0,1% em torno de 42°C (condições de rigor moderado); e 0,1 x SSC em torno de 68°C (condições de alto 5 rigor). As lavagens podem ser realizadas com a utilização de apenas uma dessas condições, por exemplo, condições de alto rigor, ou cada uma das condições pode ser usada, por exemplo, por 10-15 minutos cada, na ordem listada acima, repetindo qualquer uma ou todas as etapas listadas. No 10 entanto, como mencionado acima, as condições ótimas irão variar, dependendo da reação de hibridização em particular envolvida, e podem ser determinadas empiricamente.
Por exemplo, uma mudança na seqüência de uma região do genoma ou de um produto de expressão desta como, por 15 exemplo, uma inserção, uma eliminação, uma transversão, uma transição, é detectada com o uso de um método, por exemplo, reação em cadeia de polimerase (PCR), amplificação por deslocamento de fita, reação em cadeia de ligase, tecnologia de ciclagem de sonda ou um chip de microarranjo 20 de DNA, dentre outros.
Métodos de PCR são conhecidos na técnica e descritos, por exemplo, em Dieffenbach (ed) e Dveksler (ed) (Em: "PCR Primer: A Laboratory Manual", Cold Spring Harbour Laboratories, NY, 1995). Geralmente, para PCR, duas 25 moléculas não complementares de iniciador de ácido nucléico que compreendem pelo menos cerca de 15 nucleotídeos, mais preferivelmente pelo menos 2 0 nucleotídeos de comprimento, são hibridizadas para diferentes fitas de uma molécula de ácido nucléico-modelo, e cópias específicas da molécula de 30 ácido nucléico do modelo são amplificadas enzimaticamente. Os produtos de PCR podem ser detectados com o uso de eletroforesê e detecção com um marcador detectável que se liga aos ácidos nucléicos. Alternativamente, um ou mais dos oligonucleotídeos são rotulados com um marcador detectável 5 (por exemplo, um fluoróforo), e o produto da amplificação detectado usando, por exemplo, um lightcycler (Perkin Elmer, Wellesley, MA, EUA). Evidentemente, a presente invenção também engloba formas quantitativas de PCR como, por exemplo, ensaios Taqman.
A amplificação por deslocamento de fita (SDA) utiliza
oligonucleotídeos, uma DNA polimerase e uma endonuclease de restrição para amplificar uma seqüência-alvo. Os oligonucleotídeos são hibridizados para um ácido nucléicoalvo e a polimerase usada para produzir uma cópia dessa 15 região. Os duplexos de ácido nucléico copiado e ácido nucléico-alvo são então cortados com uma endonuclease que reconhece especificamente uma seqüência no começo do ácido nucléico copiado. A DNA polimerase reconhece o DNA cortado e produz outra cópia da região-alvo ao mesmo tempo, 20 deslocando o ácido nucléico gerado previamente. A vantagem da SDA é que ela ocorre em um formato isotérmico, facilitando, dessa forma, a análise automatizada de alto rendimento.
A reação em cadeia de ligase (descrita, por exemplo, 25 em EP 320.308 e U.S. 4.883.750) usa pelo menos dois oligonucleotídeos que se ligam a um ácido nucléico-alvo de tal forma que eles ficam adjacentes. Uma enzima ligase é então usada para ligar os oligonucleotídeos. Com a utilização de termociclagem, os oligonucleotídeos ligados 30 então se tornam um alvo para oligonucleotídeos adicionais. Os fragmentos ligados são então detectados, por exemplo, com o uso de eletroforese ou MALDI-TOF. Alternativamente, ou em adição, uma ou mais das sondas é marcada com um marcador detectável, facilitando, dessa forma, a detecção 5 rápida.
A tecnologia de ciclagem de sonda utiliza uma sonda sintética quimérica que compreende DNA-RNA-DNA que é capaz de hibridizar para uma seqüência-alvo. Mediante hibridização para uma seqüência-alvo, o duplexo RNA-DNA 10 formado é um alvo para kNase H, clivando, dessa forma, a sonda. A sonda clivada é então detectada, usando, por exemplo, eletroforese ou MALDI-TOF.
Métodos adicionais para a detecção de SNPs são conhecidos na técnica, e são revisados, por exemplo, em Landegren e cols., Genome Research 8: 769-776, 1998.
Por exemplo, um SNP que introduz ou altera uma seqüência que é uma seqüência de reconhecimento para uma endonuclease de restrição é detectado por digestão de DNA com a endonuclease, e detectando-se o fragmento de
2 0 interesse usando, por exemplo, Southern blotting (descrito
em Ausubel e cols. (Em: "Current Protocols in Molecular Biology". Wiley Interscience, ISBN 047 150338, 1987) e Sambrook e cols. (Em: "Molecular Cloning: Molecular Cloning: A Laboratory Manual", Cold Spring Harbor 25 Laboratories, Nova York, Terceira Edição 2001)). Alternativamente, um método de amplificação de ácido nucléico descrito supra é usado para amplificar a região que circunda o SNP. 0 produto da amplificação é então incubado com a endonuclease, e quaisquer fragmentos
3 0 resultantes detectados, por exemplo, por eletroforese, MALDI-TOF ou PCR.
A análise direta da seqüência de polimorfismos da presente invenção pode ser obtida cora o uso do método de terminação da cadeia didesoxi ou o método de Maxam-Gilbert 5 (veja Sambrook e cols., "Molecular Cloning, A Laboratory Manual" (2a Ed., CSHP, Nova York 1989); Zyskind e cols., "Recombinant DNA Laboratory Manual", (Acad. Press, 1988)). Por exemplo, uma região de DNA genômico que compreende um ou mais marcadores é amplificada com o uso de uma reação de
amplificação, por exemplo, PCR e, após a purificação do produto da amplificação, o ácido nucléico amplificado é usado em uma reação de seqüenciamento para determinar a seqüência de um ou de ambos os alelos no sítio de um SNP de interesse.
Alternativamente, um ou mais SNPs são detectados com o
uso de polimorfismo conformacional de fita simples (SSCP). O SSCP se baseia na formação de estruturas secundárias em ácidos nucléicos e na natureza seqüência-dependente dessas estruturas secundárias. Em uma forma dessa análise, um
método de amplificação como, por exemplo, um método descrito supra., é usado para amplificar um ácido nucléico que compreende um SNP. Os ácidos nucléicos amplificados são então desnaturados, resfriados e analisados usando, por exemplo, eletroforese em gel de poliacrilamida não
2 5 desnaturante, espectrometria de massa ou cromatografia
líquida (por exemplo, HPLC ou dHPLC). As regiões que compreendem seqüências diferentes formam estruturas secundárias diferentes e, em conseqüência, migram em taxas diferentes através, por exemplo, de um gel e/ou um campo
3 0 carregado. Evidentemente, um marcador detectável pode ser incorporado em uma sonda/iniciador útil na análise SSCP para facilitar a detecção-rápida do marcador.
Alternativamente, quaisquer mudanças de nucleotídeos podem ser detectadas usando, por exemplo, espectrometria de massa ou eletroforese capilar. Por exemplo, os produtos amplificados de uma região de DNA que compreendem um SNP de uma amostra de teste são misturados com produtos amplificados de um indivíduo que possui um genótipo conhecido no sítio do SNP. Os produtos são desnaturados e é permitido que eles sofram re-anelamento. As amostras que compreendem um nucleotideo diferente na posição do SNP não irão anelar completamente com uma molécula de ácido nucléico da amostra de controle, mudando, dessa forma, a carga e/ou a conformação do ácido nucléico, quando comparado com um ácido nucléico anelado completamente. Esse pareamento de bases incorreto é detectável usando, por exemplo, espectrometria de massa.
A PCR alelo-específica (como descrita, por exemplo, em Liu e cols., Genome Research, 7: 389-398, 1997) também é
2 0 útil para a determinação da presença de um ou outro alelo
de um SNP. É projetado um oligonucleotídeo no qual a maior parte da base 3 ' do oligonucleotídeo hibridiza para uma forma específica de um SNP de interesse (ou seja, alelo) . Durante uma reação de PCR, a extremidade 3 ' do 25 oligonucleotídeo não hibridiza para uma seqüência-alvo que não compreenda a forma particular do SNP detectado. Conseqüentemente, é produzido pouco ou nenhum produto de PCR, o que indica que uma base diferente daquela presente no oligonucleotídeo está presente no sítio de SNP na
3 0 amostra. Os produtos de PCR são então detectados usando, por exemplo, eletroforese em gel ou capilar ou espectrometria de massa.
Os métodos de éxtensão de iniciador (descritos, por exemplo, em Dieffenbach (ed) e Dveksler (ed) (Em: "PCR 5 Primer: A Laboratory Manual", Cold Spring Harbour Laboratories, NY, 1995)) também são úteis para a detecção de um SNP. É usado um oligonucleotídeo que hibridiza para a região de um ácido nucléico adjacente ao SNP. Esse oligonucleotídeo é usado em um protocolo de extensão de 10 iniciador com uma polimerase e um difosfato de nucleotideo livre que corresponde a uma ou a ambas as bases possíveis que ocorrem no sítio do SNP. De preferência, o difosfato de nucleotideo é rotulado com um marcador detectável (por exemplo, um fluoróforo) . Após a extensão do iniciador, os 15 difosfatos de nucleotideo marcados não ligados são removidos, por exemplo, com o uso de cromatograf ia por exclusão de tamanho ou eletroforese, ou hidrolisados usando, por exemplo, fosfatase alcalina, e a incorporação do nucleotideo marcado no oligonucleotídeo é detectada, 20 indicando a base que está presente no sítio do SNP. Alternativamente, ou em adição, como aqui exemplificado, os produtos da extensão de iniciador são detectados com a utilização de espectrometria de massa (por exemplo, MALDITOF) .
A presente invenção se estende à análise de alto
rendimento de formas de extensão de iniciador como, por exemplo, mini-seqüenciamento (Sy Vamen e cols., Genomics 9: 341-342, 1995), em que uma sonda ou um iniciador ou múltiplas sondas ou iniciadores são imobilizados em um suporte sólido (por exemplo, uma lâmina de vidro), uma amostra que compreende ácido nucléico é colocada em contato com a(s) sonda(s) ou o(s) iniciador(es), é realizada uma reação de extensão de iniciador, em que cada uma das bases de nucleotídeos livres A, C, G, T é marcada com um marcador 5 detectável diferente, e a presença ou ausência de um ou mais SNPs é determinada por determinação do marcador detectável ligado a cada sonda e/ou iniciador.
Moléculas de ácido nucléico locked (LNA) marcadas por fluorescência ou moléculas de proteína-ácido nucléico (PNA) 10 marcadas por fluorescência são úteis para a detecção de SNPs (como descrito em Simeonov e Nikiforov, Nucleic Acids Research, 30(17) : 1-5, 2002) . As moléculas de LNA e PNA se ligam, com afinidade elevada, ao ácido nucléico, em particular, ao DNA. Fluoróforos (em particular, rodomina ou 15 hexaclorofluoresceína) conjugados à sonda de LNA ou PNA fluorescem em um nível significativamente maior mediante hibridização da sonda para o ácido nucléico-alvo, comparados com uma sonda que não foi hibridizada para um ácido nucléico-alvo. No entanto, o nível de aumento da 20 fluorescência não é aumentado no mesmo nível quando ocorre até mesmo uma única não combinação de nucleotideo. Conseqüentemente, o grau de fluorescência detectado em uma amostra é indicativo da presença de uma não combinação entre a sonda de LNA ou PNA e o ácido nucléico-alvo como, 25 por exemplo, na presença de um SNP. De preferência, a tecnologia de LNA ou PNA marcado por fluorescência é usada para detectar uma única mudança de base em um ácido nucléico que foi amplificado previamente usando, por exemplo, um método de amplificação descrito supra.
Como ficará aparente para aqueles habilitados na técnica, a tecnologia de detecção de LNA ou PNA é passível de uma detecção de alto rendimento de um ou mais marcadores que imobilizam uma sonda de LNA ou PNA em um suporte sólido, como descrito em Orum e cols., Clin. Chem. 45:
5 1.898-1.905, 1999.
Similarmente, sinalizadores moleculares são úteis para a detecção de SNPs diretamente em uma amostra ou em um produto amplificado (veja, por exemplo, Mhlang e Malmberg, Methods 25: 463-471, 2001). Sinalizadores moleculares são moléculas de ácido nucléico de fita simples com uma estrutura stem-and-Ioop. A estrutura em Ioop é complementar à região que circunda o SNP de interesse. A estrutura em stem é formada por anelamento de dois "braços" complementares entre si em um dos lados da sonda (Ioop). Uma porção fluorescente é ligada a um braço e uma porção de extinção, que suprime qualquer fluorescência detectável quando o sinalizador molecular não está ligado a uma seqüência-alvo, é ligada ao outro braço. Mediante a ligação da região Ioop ao seu ácido nucléico-alvo, os braços são separados e a fluorescência é detectável. No entanto, até mesmo uma única não combinação de base altera significativamente o nível de fluorescência detectado em uma amostra. Conseqüentemente, a presença ou ausência de uma base em particular no sítio de um SNP é determinada pelo nível de fluorescência detectado.
A presente invenção engloba outros métodos de detecção de um SNP como, por exemplo, microarranjos de SNP (disponível por Affymetrix, ou descrito, por exemplo, em U.S. 6.468.743 ou Hacia e cols., Nature Genetics, 14: 441, 1996), ensaios Taqman (como descritos em Livak e cols., Nature Genetics, 9: 341-342, 1995), mini-seqüenciamento de fase sólida (como descrito em Syvamen e cols., Genomics, 13: 1.008-1.017, 1992), mini-seqüenciamento com FRET (como descrito em Chen e Kwok, Nucleic Acids Res. 25: 347-353,
1997) ou piro-mini-seqüenciamento (como revisado em Landegren e cols., Genome Res., 8(8): 769-776, 1998).
Naqueles casos em que o polimorfismo ou o marcador ocorre em uma região de ácido nucléico que codifica RNA, o referido polimorfismo ou marcador é detectado com o uso de
um método como, por exemplo, RT-PCR, NASBA ou TMA.
Métodos de RT-PCR são conhecidos na técnica e descritos, por exemplo, em Dieffenbach (ed) e Dveksler (ed) (Em: "PCR Primer: A Laboratory Manual", Cold Spring Harbour Laboratories, NY, 1995).
Métodos de TMA ou replicação de seqüência auto
sustentada (3SR) utilizam dois ou mais oligonucleotídeos que flanqueiam uma seqüência-alvo, uma RNA polimerase, RNase H e uma transcriptase reversa. Um oligonucleotídeo (que também compreende um sítio de ligação de RNA
polimerase) hibridiza para uma molécula de RNA que compreende a seqüência-alvo, e a transcriptase reversa produz uma cópia de cDNA dessa região. A RNase H é usada para digerir o RNA no complexo RNA-DNA, e o segundo oligonucleotídeo usado é para produzir uma cópia do cDNA. A
2 5 RNA polimerase é então usada para produzir uma cópia de RNA
do cDNA, e o processo é repetido.
Sistemas NASBA se baseiam na atividade simultânea de três enzimas (uma transcriptase reversa, RNase H e RNA polimerase) para amplificar seletivamente seqüências de
3 0 mRNA-alvo. 0 modelo de mRNA é transcrito para cDNA por transcrição reversa com o uso de um oligonucleotídeo que hibridiza para a seqüência-alvo e compreende um sítio de ligação de RNA polimerase em sua extremidade 5'. 0 RNA do modelo é digerido com RNase Heo DNA de fita dupla é 5 sintetizado. A RNA polimerase produz então múltiplas cópias de RNA do cDNA, e o processo é repetido.
A hibridização para e/ou amplificação de um marcador é detectável usando, por exemplo, eletroforese e/ou espectrometria de massa. A esse respeito, uma ou mais das
sondas/iniciadores e/ou um ou mais dos nucleotídeos usados em reações de amplificação podem ser rotulados com um marcador detectável para facilitar a detecção rápida de um marcador, por exemplo, um marcador fluorescente (por exemplo, Cy5 ou Cy3) ou um radioisótopo (por exemplo, 32P) .
Alternativamente, a amplificação de um ácido nucléico
pode ser monitorada continuamente com o uso de um método de análise da curva de fusão como, por exemplo, aquele descrito em, por exemplo, U.S. 6.174.670. Esses métodos são adequados à determinação do nível de uma forma de junção
2 0 alternativa em uma amostra biológica.
Os métodos da invenção podem identificar ocorrências de nucleotídeos em SNPs com o uso de seqüenciamento do genoma completo ou métodos de "microsseqüenciamento". 0 seqüenciamento do genoma completo de indivíduos identifica
todos os genótipos de SNP em uma única análise. Os métodos de microsseqüenciamento determinam a identidade somente de um único nucleotideo em um sítio "predeterminado". Esses métodos possuem utilidade particular na determinação da presença e identidade de polimorfismos em um
3 0 polinucleotídeo-alvo. Esses métodos de microsseqüenciamento, além de outros métodos para a determinação da ocorrência de nucleotídeos em Ioci de SNP são discutidos em Boyce-Jacino, e cols., Patente U.S. N0 6.294.336, aqui incorporada por referência.
Os métodos de microsseqüenciamento incluem o método de
"Genetic Bit Analysis" revelado por Goelet, P. e cols. (WO 92/15712, aqui incorporado por referência). Também foram descritos procedimentos adicionais de incorporação de nucleotideo, guiados por iniciador, para o teste de sítios 10 polimórficos em DNA (Komher e cols., Nucl. Acids. Res. 17, 7.779-7.784, 1989; Sokolov, Nucl. Acids. Res. 18, 3.671 (1990); Syvanen e cols., Genomics 8, 684-692, 1990; Kuppuswamy e cols., Proc. Natl. Acad. Sei. (U.S.A.) 88, 1.143-1.147, 1991; Prezant e cols., Hum. Mutat. 1, 159-164, 15 1992; Ugozzoli e cols., GATA 9, 107-112, 1992; Nyren e cols., Anal. Biochem. 208, 171-175, 1993; Wallace, WO 89/10414; Mundy, Patente U.S. N0 4.656.127; Cohen e cols., Patente Francesa N0 2.650.840; WO 91/02087) . Em resposta às dificuldades encontradas no emprego de eletroforese em gel 20 para a análise de seqüências, foram desenvolvidos métodos alternativos para microsseqüenciamento, por exemplo, Macevicz, Patente U.S. N0 5.002.867 aqui incorporada por referência. Boyce-Jacino e cols., Patente U.S. N° 6.294.336 fornecem um método de seqüenciamento em fase sólida para a 25 determinação da seqüência de moléculas de ácido nucléico (DNA ou RNA) por utilização de um iniciador que se liga seletivamente a um alvo de polinucleotídeo em um sítio em que o SNP é o nucleotideo mais à 31 ligado seletivamente ao alvo. Oliphant e cols., Supl. Biotechniques, junho de 2002,
3 0 descrevem o uso da Tecnologia de BeadArray™ para determinar a ocorrência de nucleotídeos de um SNP. Alternativamente, as ocorrências de nucleotídeos para SNPs podem ser determinadas com a utilização de um sistema "DNAMassARRAY" (Sequenom, San Diego, Califórnia), cujo 5 sistema combina SpectroChips™, microfluídica, nano1iberação(nanodispensing) , bioquímica e espectrometria de massa MALDI-TOF (espectrometria de massa por dessorção a laser com auxílio de matriz no modo tempo de vôo).
Métodos particularmente úteis incluem aqueles que são 10 facilmente adaptáveis a um formato de alto rendimento, a um formato multiplexo, ou a ambos. Sistemas de alto rendimento para a análise de marcadores, especialmente SNPs, podem incluir, por exemplo, uma plataforma como, por exemplo, a plataforma UHT SNP-IT™ (Orchid Biosciences, Princeton, 15 N.J., EUA), o sistema MassArray™ (Sequenom, San Diego, Califórnia, EUA), o sistema integrado de genotipagem de SNP (Illumina, San Diego, Califórnia, EUA), TaqMan™ (ABI, Foster City, Califórnia, EUA) , a amplificação por círculo rolante, a polarização fluorescente, dentre outros aqui
2 0 descritos acima. Em geral, SNP-IT™ é uma reação de extensão de iniciador em 3 etapas. Na primeira etapa, um polinucleotídeo-alvo é isolado de uma amostra por hibridização para um iniciador de captura, que fornece um primeiro nível de especificidade. Em uma segunda etapa, o 25 iniciador de captura é estendido a partir de um trisfosfato de nucleotideo que termina no sítio de SNP-alvo, que fornece um segundo nível de especificidade. Em uma terceira etapa, o trisfosfato de nucleotideo estendido pode ser detectado usando diversos formatos conhecidos, incluindo: 30 fluorescência direta, fluorescência indireta, um ensaio colorimétrico indireto, espectrometria de massa, polarização de fluorescência etc. As reações podem ser processadas em um formato de 3 84 poços em um formato
TM
automatizado com o uso de um instrumento SNPstream (Orchid BioSciences, Inc., Princeton, N.J.).
Sistema de alto rendimento para seleção genotípica
A presente invenção também fornece um sistema de alto rendimento para seleção genotípica em uma população atual que possui um pequeno tamanho efetivo da população, o 10 referido sistema compreendendo um suporte sólido que consiste basicamente em (ou que possui) ácidos nucléicos de seqüência diferente ligados direta ou indiretamente a ele, em que cada ácido nucléico de seqüência diferente compreende um marcador genético polimórfico derivado de um 15 ancestral ou fundador que é representativo da população atual.
Sistemas de alto rendimento exemplares são meios de hibridização, por exemplo, um dispositivo de microfluídica ou um meio de ensaio homogêneo. São conhecidos vários 20 dispositivos de microfluídica que incluem suportes sólidos com microcanais (veja, por exemplo, Patentes U.S. Nos 5.304.487, 5.110.745, 5.681.484 e 5.593.838). Em uma modalidade particularmente preferida, o sistema de alto rendimento compreende um chip de SNP que compreende 10.000- 25 100.000 oligonucleotídeos, cada um dos quais consistindo em uma seqüência que compreende um SNP. Cada um desses meios de hibridização é adequado para a determinação da presença ou ausência de um marcador associado a um traço.
Os ácidos nucléicos são tipicamente oligonucleotídeos,
3 0 anexados direta ou indiretamente ao suporte sólido. Conseqüentemente, os oligonucleotídeos são usados para determinar a ocorrência de nucleotídeos de um marcador associado a um traço .em virtude da hibridização de um ácido nucléico do indivíduo que está sendo testado para um 5 oligonucleotídeo de uma série de oligonucleotídeos ligados ao suporte sólido que estão sendo afetados pela ocorrência de nucleotídeos do marcador em questão, por exemplo, pela presença ou ausência de um SNP no ácido nucléico do indivíduo. Conseqüentemente, podem ser selecionados 10 oligonucleotídeos que se ligam em uma localização genômica de cada marcador ou próximo a ela. Esses oligonucleotídeos podem incluir oligonucleotídeos diretos (forward) e reversos que podem apoiar a amplificação de um marcador polimórfico em particular presente em um ácido nucléico15 modelo obtido do indivíduo que está sendo testado. Alternativamente, ou em adição, os oligonucleotídeos podem incluir seqüências de extensão do iniciador que hibridizam próximos a um marcador para, dessa forma, apoiar a extensão para o marcador para fins de identificação. Um método de 20 detecção adequado irá detectar a ligação ou rotulagem dos oligonucleotídeos, por exemplo, em um método de genotipagem aqui descrito.
Foram descritas na técnica metodologias para a produção de arranjos imobilizados de moléculas de DNA. 25 Geralmente, a maioria dos métodos descreve como sintetizar arranjos de moléculas de ácido nucléico de fita simples, usando, por exemplo, técnicas de mascaramento para formar várias permutações de seqüências nas várias posições distintas no substrato sólido. A Patente U.S. N0 5.837.832,
3 0 cujo teor é aqui incorporado por referência, descreve um método aperfeiçoado para a produção de arranjos de DNA imobilizados em substratos de silicio com base em uma tecnologia de integração em grande escala. Em particular, a Patente U.S. N0 5.837.832 descreve uma estratégia 5 denominada "tiling" para sintetizar conjuntos específicos de sondas em localizações espacialmente definidas em um substrato, os quais são usados para produzir o arranjo de DNA imobilizado. A Patente U.S. N° 5.837.832 também fornece referências para técnicas anteriores que também podem ser 10 usadas.
0 DNA pode ser sintetizado in si tu na superfície do substrato. No entanto, o DNA também pode ser impresso diretamente sobre o substrato usando, por exemplo, dispositivos robóticos equipados com pinos ou dispositivos 15 piezelétricos. Microarranjos são geralmente produzidos em etapas, pela síntese in si tu do alvo diretamente sobre o suporte ou, alternativamente, por deposição exógena de alvos pré-preparados. Fotolitografia, microspotting mecânico e a tecnologia de jato de tinta são geralmente
2 0 empregados para a produção de microarranjos.
Na fotolitografia, um wafer de vidro, modificado com grupos de proteção fotolábeis, é ativado seletivamente, por exemplo, para síntese de DNA, por exposição luminosa através de uma fotomáscara. Ciclos repetidos de desproteção 25 e acoplamento permitem a preparação de microarranjos de oligonucleotídeos de alta densidade (veja, por exemplo, a Patente U.S. N0 5.744.305, emitida em 28 de abril de 1998) .
Microspotting engloba tecnologias de deposição que permitem a produção automatizada de microarranjos, por impressão de pequenas quantidades de substâncias-alvo préproduzidas sobre superfícies sólidas. A impressão é obtida por contato direto da superfície entre o substrato de impressão e um mecanismo de liberação, por exemplo, um pino ou uma capilar. Sistemas robóticos de controle e cabeças de 5 impressão multiplexadas permitem a fabricação automatizada de microarranjos.
As tecnologias de jato de tinta utilizam o efeito piezelétrico e outras formas de propulsão para transferir substâncias bioquímicas de bocais em miniatura para 10 superfícies sólidas. A utilização de piezeletricidade, a amostra-alvo é expelida por passagem de uma corrente elétrica através de um cristal piezelétrico que se expande para expelir a amostra. As tecnologias de propulsão piezelétrica incluem dispositivos contínuos e drop-on15 demand. Além dos jatos de tinta piezelétricos, a cabeça pode ser usada para formar e propelir gotas de líquido usando cabeças de jato de tinta bubble-jet ou térmicas; no entanto, esses jatos de tinta térmicos tipicamente não são adequados à transferência de materiais biológicos devido ao 20 calor que freqüentemente é danoso às amostras biológicas. Exemplos do uso da tecnologia de jato de tinta incluem a Patente U.S. N0 5.658.802 (emitida em 19 de agosto de 1997) .
Vários ácidos nucléicos são tipicamente imobilizados sobre ou em regiões distintas de um substrato sólido. O substrato é poroso para permitir a imobilização dentro do substrato, ou substancialmente não poroso para permitir a imobilização na superfície.
O substrato sólido pode ser feito de qualquer material ao qual os polipeptídeos possam se ligar, direta ou indiretamente. Exemplos de substratos sólidos adequados incluem vidro plano, wafers de silício, mica, cerâmicas e polímeros orgânicos, tais como plásticos, incluindo poliestireno e polimetacrilato. É possível utilizar 5 membranas semipermeáveis como, por exemplo, membranas de nitrocelulose ou náilon, que são amplamente disponíveis. As membranas semipermeáveis são montadas em uma superfície sólida mais robusta como, por exemplo, vidro. As superfícies podem ser opcionalmente revestidas com uma 10 camada de metal, por exemplo, ouro, platina ou outro metal de transição.
De preferência, o substrato sólido é geralmente um material que possui uma superfície rígida ou semi-rígida. Em modalidades preferidas, pelo menos uma superfície do 15 substrato será substancialmente plana, embora em algumas modalidades seja desejável separar fisicamente as regiões de síntese para polímeros diferentes com, por exemplo, regiões elevadas ou canais entalhados. Prefere-se também que o substrato sólido seja adequado à aplicação de alta 20 densidade de seqüências de DNA em áreas distintas tipicamente de 50 a 100 μτη, gerando uma densidade de 10.000 a 40.000 cm'2.
O substrato sólido é dividido convenientemente em seções. Isso é obtido por técnicas como fotogravura, ou pela aplicação de tintas hidrofóbicas, por exemplo, tintas baseadas em teflon (Cel-line, EUA).
Posições distintas, nas quais cada membro diferente do arranjo está localizado, podem ter qualquer formato conveniente, por exemplo, circulares, retangulares, 3 0 elípticas, em forma de cunha etc. A adesão dos ácidos nucléicos ao substrato pode ser covalente ou não covalente, geralmente por meio de uma camada de moléculas à qual os ácidos nucléicos se ligam. Por exemplo, as sondas/iniciadores de ácido nucléico podem 5 ser marcadas com biotina, e o substrato revestido com avidina e/ou estreptavidina. Uma característica conveniente da utilização de sondas/iniciadores biotinilados é que a eficiência de acoplamento ao substrato sólido é facilmente determinada.
Uma interface química pode ser fornecida entre o
substrato sólido, por exemplo, no caso de vidro, e as sondas/iniciadores. Exemplos de interfaces químicas adequadas incluem hexaetileno glicol, polilisina. Por exemplo, a polilisina pode ser modificada quimicamente com 15 o uso de procedimentos padronizados para introduzir um ligante de afinidade.
Outros métodos para a adesão das sondas/iniciadores à superfície de um substrato sólido incluem o uso de agentes de acoplamento conhecidos na técnica, por exemplo, como descrito em WO 98/49557.
0 sistema de alto rendimento da presente invenção é projetado para determinar ocorrências de nucleotídeos de um SNP ou de uma série de SNPs. Os sistemas podem determinar ocorrências de nucleotídeos de um mapa inteiro de SNP do genoma completo de alta densidade.
Sistemas de alto rendimento para a análise de marcadores, especialmente SNPs, podem incluir, por exemplo, uma plataforma como, por exemplo, a plataforma UHT SNP-IT (Orchid Biosciences, Princeton, N.J., EUA) o sistema MassArray™ (Sequenom, San Diego, Califórnia, EUA) , o sistema integrado de genotipagem SNP (Illumina, San Diego, Califórnia, .EUA), TaqMan™ (ABI, Foster City, Califórnia, EUA) . - ArranjOs de ácido nucléico exemplares são do tipo descrito em WO 95/11995. WO 95/11995 também descreve subarranjos otimizados para a detecção de uma forma variante de um polimorfismo pré-caracterizado. Esse subarranjo contém sondas projetadas para serem complementares a uma segunda seqüência de referência, que é uma variante alélica da primeira seqüência de referência. A inclusão de um segundo grupo (ou de grupos adicionais) pode ser particularmente útil para a análise de subseqüências curtas de uma seqüência de referência primária na qual se espera a ocorrência de múltiplas mutações dentro de uma distância curta adequada ao comprimento das sondas (por exemplo, duas ou mais mutações dentro de 9 a 21 bases) . Mais preferivelmente, o sistema de alto rendimento compreende um microarranjo de SNP, tal como aqueles disponíveis por Affymetrix ou descritos, por exemplo, em U.S. 6.468,743 ou Hacia e cols., Nature Genetics, 14: 441, 1996.
Os arranjos de DNA são tipicamente lidos ao mesmo tempo por uma câmera de dispositivo de carga acoplada (CCD) ou por um sistema de imagem confocal. Alternativamente, o arranjo de DNA pode ser colocado para detecção em um 25 aparelho adequado que pode se mover em uma direção x-y, por exemplo, uma leitora de placas. Dessa forma, a mudança das características para cada posição distinta é medida automaticamente por movimentação controlada por computador do arranjo para colocar cada elemento distinto alinhado ao 30 meio de detecção. O meio de detecção é capaz de interrogar cada posição no arranjo da biblioteca óptica ou eletricamente. Exemplos de meios dé detecção adequados incluem câmeras de CCD ou sistemas de imagem confocal.
O sistema pode ainda incluir um mecanismo de detecção
para a detecção da ligação da série de oligonucleotídeos à série de SNPs. Esses mecanismos de detecção são conhecidos na técnica.
O sistema de alto rendimento da presente invenção pode incluir um mecanismo de manipulação de reagente que pode ser usado para aplicar um reagente, tipicamente um líquido, ao suporte sólido.
0 sistema de alto rendimento também pode incluir um mecanismo eficaz para mover um suporte sólido e um mecanismo de detecção.
Estimativa do valor genético
Qualquer um de vários métodos estatísticos é usado para estimar o valor genético no método da presente invenção, preferivelmente com o uso de meios computacionais, incluindo abordagens de reamostragem, por exemplo, testes de randomização e bootstrapping, que permitem a construção de intervalos de confiança, e testes de significância adequados, por exemplo, Melhores Preditores Lineares Não Viciados (BLUP; Henderson Em: "Applications of Linear Models in Animal Breeding", Universidade de GueIph, GueIph, Ontário, Canadá; Lynch e Walsh, Em: "Genetics and Analysis of Quantitative Traits", Sunuaer Associates, Sunderl e MA, EUA, 1998); a abordagem de Monte Carlo por Cadeia de Markov (MCMC) (Geyer e cols., Stat. Sei. 7, 73-511, 1992; Tierney e cols., Ann. Statist. 22, 1.701-1.762, 1994; Tanner e cols., Em: "Tools for Statistical Analysis", Springer-Verlag, Berlin/Nova York, 1996); o amostrador 5He GiBbs (Geirian e cols., IEEE Trans. Pattern Anal. Mach. Intell. 6, 721-741, 1984); distribuição 5 posterior bayesiana (por exemplo, Smith e cols., J. Royal Statist. Soc. Ser. B55, 3-23, 1993). Esses métodos são bem conhecidos por aqueles habilitados na técnica.
De preferência, os EBVs são calculados com o uso de um método designado "Bayes 2" por Meuwissen e cols., Genetics 10 157, 1.819-1.829 (2001) . O método de Bayes 2 permite que alguns segmentos cromossômicos tenham um efeito maior sobre o traço do que outros. O modelo estatístico também poderia ajustar o efeito de cada posição no genoma usando, por exemplo, BLUP, para calcular o efeito de quaisquer alelos 15 de QTL presentes naquela posição em todos os gametas representados na população. Alternativamente, o relacionamento médio entre os animais pode ser estimado pelos alelos do marcador que, por inferência, carregam, possivelmente ponderando cada posição no genoma quanto à
2 0 sua importância no controle do traço. Isso presume que cada segmento cromossômico seja derivado de um ancestral ou fundador fundamental com recombinação mínima ou ausente dentro do segmento, uma suposição verdadeira quando o número de gerações entre o ancestral ou fundador e o
2 5 indivíduo de interesse é baixo, ou seja, menos do que cerca
de 10 gerações. Por exemplo, a matriz pode ser uma matriz "idêntica por descendência" (IBD) cujos elementos gij são a expectativa do número de segmentos cromossômicos carregados pelo indivíduo j que são IBD com um alelo escolhido
3 0 aleatoriamente do indivíduo i, condicionado às informações do pedigree e aos dados de marcadores. As matrizes IBD podem ser computadas para diferentes segmentos cromossômicos, por exemplo, espaçados ao longo do genoma. As matrizes IBD também podem ser ponderadas ao longo de 5 posições e cromossomos. Diferentes números de segmentos cromossômicos podem ser usados para computar uma matriz IBD. A precisão da avaliação pode ser computada como a correlação entre os valores genéticos reais e os estimados. Para o cálculo do EBV a partir de marcadores de DNA do
genoma completo, é conveniente considerar o processo como compreendendo três etapas:
1. Utilização dos marcadores para deduzir o genótipo de cada animal em cada QTL;
2. Estimativa do efeito de cada genótipo do QTL sobre
o traço; e
3. A soma dos efeitos do QTL para candidatos à seleção para se obter seu EBV genômico (GEBV).
Essas etapas são descritas com mais detalhes nos parágrafos seguintes.
2 0 Utilização dos marcadores para deduzir o genótipo de cada
animal em cada QTL
O método mais simples para deduzir genótipos do QTL é o tratamento dos marcadores como se fossem QTL e para estimar os efeitos dos alelos ou genótipos dos marcadores.
Aqui, o parâmetro crucial é a proporção da variância de QTL explicada pelos marcadores (r2). Essa é dependente do LD entre o QTL e um marcador ou uma combinação linear de marcadores. 0 grau de LD e, portanto, r2, é altamente variável. O r2 médio declina à medida que a distância entre
3 0 os dois Ioci aumenta. Por exemplo, no gado Holstein, o r2 médio quando os Ioci estão afastados em 50 kb é de 0,35. Para se obter oim espaçamento médio de 50 kb, são necessários 60.000 marcadores espaçados igualmente. Como é pouco provável que os marcadores estejam espaçados 5 igualmente, e em função da natureza variável do LD, ainda não seria de se esperar que todos os QTLs tivessem um SNP em LD completo com eles. Isso sugere que precisamos de marcadores mais densos do que os disponíveis atualmente. Existe tecnologia disponível para que isso seja obtido (por 10 exemplo, Parks e cols. publicação online Nature Genet., 6 de j unho de 2 0 0 7).
Uma alternativa ao uso de marcadores de genótipos únicos é a construção de haplótipos com base em vários marcadores. Um QTL que não esteja em LD completo com 15 qualquer marcador individual pode estar em LD completo com um haplótipo multimarcadores. Por exemplo, com a utilização de 9.323 genótipos de SNP de gado Angus, e considerando-se um SNP escolhido aleatoriamente como substituto para um QTL, a proporção de variância explicada por um haplótipo de 20 marcadores circundantes pode ser aumentada de 0,2 para o marcador mais próximo para 0,5 8 para um haplótipo de 6 marcadores. 0 uso de múltiplos genótipos marcadores, mas sem a dedução de haplótipos, por exemplo, com regressão de marcadores múltiplos, geralmente estará entre esses dois 25 limites. Tipicamente, há muitos haplótipos presentes em uma população e, portanto, a quantidade de dados com os quais se estima o efeito de cada um é reduzida, e isso reduzirá a precisão com a qual cada efeito de haplótipo é estimado. No entanto, o aumento da variância de QTL explicado pela
3 0 utilização de haplótipos de marcadores mais do que compensa a diminuição da precisão da estimativa de um número maior de efeitos de haplótipo, de tal forma que os haplótipos prevêem o efeito dos alelos de QTL mais precisamente do que um marcador único. A vantagem de haplótipos em relação aos 5 marcadores únicos diminui à medida que o r2 entre marcadores adjacentes aumenta. Com r2 = 0,215 entre marcadores adjacentes, a abordagem de haplótipo e a abordagem de marcador único fornecem precisões muitos similares.
À medida que o número total de animais com fenótipos e
genótipos marcadores aumenta, a precisão da estimativa dos efeitos do genótipo marcador irá se aproximar a 1,0, o mesmo ocorrendo com a precisão da estimativa dos efeitos de haplótipo. Mas a precisão para haplótipo alcança 1,0 mais lentamente do que a precisão da estimativa dos efeitos de SNP, pois há mais de 2 efeitos de haplótipos por QTL a serem estimados. Portanto, a vantagem de haplótipos em relação aos marcadores únicos aumenta à medida que a quantidade de dados para a estimativa aumenta, especialmente em densidades de marcador menores. A precisão da utilização de marcadores únicos pode ser maior do que a utilização de haplótipos de marcadores caso haja um número limitado de registros fenotípicos para estimar os efeitos, e o nível de LD entre os marcadores únicos e QTLs seja muito elevado.
Uma alternativa ao tratamento de um haplótipo de marcadores como se fossem um alelo de QTL é o atamento de cada gameta como portador de um alelo de QTL diferente, mas estimando-se a correlação entre os efeitos desses alelos com base nos marcadores circundantes. Uma análise de ligação rastreia os alelos de QTL pelo pedigree conhecido com o uso dos marcadores, e calcula a probabilidade de que quaisquer dois alelos sejam idênticos por descendência (IBD) a partir de um ancestral ou fundador comum dentro do 5 pedigree. A probabilidade de que dois alelos de QTL sejam IBD em função de um ancestral ou fundador comum fora do pedigree pode ser avaliada a partir da similaridade dos alelos marcadores que circundam o QTL presumindo-se um modelo evolutivo para o desequilíbrio de ligação entre os 10 marcadores e os QTLs. A análise de ligação e a análise de LD podem ser combinadas para estimar probabilidades de uma matriz de IBD entre todos os alelos de QTL, e essas podem ser usadas para estimar os efeitos de todos os alelos de QTL. Os erros no posicionamento de marcadores no genoma 15 reduzirão a precisão da inferência de haplótipos e, portanto, a precisão de GEBVs resultante tanto da abordagem de haplótipo quanto da abordagem de IBD.
Em densidades de marcador baixas (por exemplo, r2 entre marcadores adjacentes menor do que 0,2), a abordagem 20 de IBD é preferida em relação à abordagem de haplótipo ou à abordagem de marcador único. Em densidades de marcador elevadas, os três métodos fornecem aproximadamente a mesma precisão.
Estimativa do efeito de cada genótipo do QTL sobre traço O ganho genético tem o seu maior valor caso a
estimativa do valor genético (g) possua a propriedade GEBV = E (g I "dados"). Na medida em que o EBV é calculado pela soma dos efeitos estimados de todos os QTLs (u), a propriedade desejada para o EBV é obtida estimando-se de
3 0 cada efeito do QTL por: ü = E (u I "dados")
ém que o estimador apropriado é:
A Jll * p(dados I li)j?(li)du
jp(dados I U ) p(u)du
em que:
1. p(dados Iu) é uma probabilidade; e
2. p(u) é uma distribuição prévia de efeitos do QTL.
Conseqüentemente, o estimador dos efeitos do QTL
depende da distribuição prévia de efeitos do QTL. Como tipicamente testamos um QTL em muitas posições (por exemplo, 10.000 SNPs), esperamos que não haja QTL na maioria dessas posições. Portanto, a distribuição prévia p(u) deve ter uma probabilidade elevada para p(0) para o 15 traço em questão. Por exemplo, traços de produção de leite no gado leiteiro são estimados como sendo determinados por pelo menos cerca de 150 QTLs, e a distribuição de seus efeitos é estimada como sendo aproximadamente exponencial.
Alternativamente, é empregado um método de mínimos
2 0 quadrados para estimar o efeito de cada QTL sobre um traço. A estimativa por mínimos quadrados eqüivale a pressupor uma distribuição prévia de efeitos do QTL com uma variância infinitamente grande. Com o uso de mínimos quadrados, somente um QTL com um grande efeito será detectado e usado 25 e, dessa forma, nem toda a variância genética será capturada pelos marcadores. Presumindo-se que os efeitos do QTL são retirados da distribuição normal com variância constante através de segmentos cromossômicos, é derivada uma estimativa de BLUP em que todos os efeitos são 30 estimados simultaneamente, derivando, dessa forma, estimativas que possuem uma melhor correlação com os BVs verdadeiros. No entanto, é preferida uma análise bayesiana que utilize uma distribuição prévia mais apropriada dos efeitos do QTL. Para situações nas quais a maioria dos QTLs 5 possua efeito zero, mínimos quadrados e BLUP fazem com que esses efeitos zero sejam estimados como sendo pequenos, mas não zero, e seu efeito cumulativo acrescenta ruído às estimativas.
Melhores estimativas são obtidas quando muitos QTLs 10 possíveis são estimados como tendo efeito zero ou, de forma equivalente, excluídos do modelo. Se todos os efeitos do QTL fossem de uma distribuição exponencial refletida (ou seja, sem peso extra em zero) , prefere-se um estimador denominado LASSO (Tibshirani e cols., J. Royal Stat. Soc. 15 Ser. B 58, 267-288, 1996). No entanto, na situação em que muitos efeitos verdadeiros são zero, LASSO ainda estima muitos efeitos não zero. Uma alternativa pragmática é excluir do modelo todos os efeitos, exceto os mais altamente significativos, por exemplo, ajustando-se um 20 limiar de significância de tal forma que seja esperado que somente um falso positivo por genoma forneça um EBV altamente correlacionado ao BV. No entanto, se os efeitos desse QTL significativo são estimados por mínimos quadrados, os efeitos ainda serão superestimados e podem 25 necessitar de correção com o uso de validação cruzada, por exemplo, como descrito por Whittaker e cols., Genet. Res. 69, 137-144, (1997). Isso envolve a estimativa dos efeitos em duas partes independentes dos dados, e o cálculo da regressão de um conjunto de soluções na outra. As soluções
3 0 são então regredidas por esse coeficiente de regressão para gerar estimativas equilibradas. A validação cruzada também pode ser usada para escolher entre modelos conflitantes. Dentro dè um conjunto de dados, a adição de QTLs extras aumenta a precisão da previsão, mas a precisão de GEBVs em 5 um conjunto de dados independente pode ser usada para avaliar se a precisão foi realmente aumentada.
De preferência, é empregada uma prévia explícita em que se presume que os efeitos do QTL são retirados de uma distribuição normal, mas que a variância daquela 10 distribuição varie entre QTLs, e que a distribuição de variâncias siga uma distribuição qui-quadrada invertida. Uma vantagem da utilização da prévia explícita é que as estimativas das QTLs maiores ou mais significantes não são superestimadas. Isso significa que os efeitos podem ser 15 estimados a partir de todos os dados disponíveis, independentemente de se os dados eram parte daqueles usados para descobrir o QTL ou não. Isso fornece uma vantagem importante, na medida em que a seleção genômica se torna implementada na indústria e se torna impossível distinguir 20 nitidamente entre dados descobertos (nos quais as estimativas por mínimos quadrados são tendenciosos) e dados de validação independentes (nos quais são não tendenciosos).
Em todos os métodos acima para estimativa do BV, um 25 termo poligênico pode ser adicionado ao modelo para ser responsável pela variância genética não explicada pelos marcadores. Quando um marcador em um momento é testado quanto à significância, a omissão do termo poligênico do modelo produz a ocorrência de cerca de duas vezes mais 30 falsos positivos do que os indicados pelo limiar de significância. Isso ocorre porque, dentro de um conjunto de dados, todos os marcadores e QTLs estão correlacionados através do relacionamento de pedigree entre os animais. Conseqüentemente, qualquer marcador pode, ao acaso, estar 5 correlacionado com um QTL um pouco afastado ou até mesmo em outro cromossomo e, dessa forma, parecer ter um efeito que é, na verdade, um artefato da estrutura do pedigree. Até mesmo quando todos os QTLs estiverem adaptados simultaneamente, pode ser desejável adaptar um efeito 10 poligênico, já que isso irá capturar, em algum grau, aqueles QTLs que estão associados aos marcadores ou haplótipos em níveis elevados de r2.
De preferência, são empregados números grandes de animais com genótipos e fenótipos marcadores para estimar efeitos do QTL, preferivelmente cerca de 2.000 registros ou mais.
Construção da base de dados
Ficará evidente a partir da descrição aqui apresentada que a presente invenção fornece para o armazenamento de 2 0 informações que pertencem a vários parâmetros produzidos por ou usados no desempenho da genotipagem da invenção e seleção de métodos na forma de uma ou mais bases de dados. Bases de dados exemplares compreendem dados selecionados do grupo que consiste em:
2 5 (i) valores genéticos estimados para um ou mais
indivíduos de uma população, por exemplo, uma população que possui um pequeno tamanho efetivo da população;
(ii) dados sobre ancestrais para indivíduos;
(iii) dados sobre segmentos cromossômicos para os
3 0 indivíduos na população atual; (iv) dados sobre segmentos cromossômicos para ancestrais de indivíduos na população atual;
(v) dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos, por exemplo, dados sobre
genótipos marcadores de um ou mais ancestrais de um ou mais conjuntos mínimos de ancestrais, cada um dos quais é representativo de uma população que possui um pequeno tamanho efetivo da população, em que os genótipos marcadores estão dispostos em grupos de ligação, e/ou dados 10 sobre genótipos marcadores de um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população e um ou mais conjuntos mínimos de ancestrais representativos de um ou mais indivíduos e, opcionalmente, das linhagens entre o marcador de um ou mais indivíduos e 15 os ancestrais, em que os genótipos marcadores estão opcionalmente dispostos em grupos de ligação;
(vi) dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais;
(vii) dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos;
(viii) dados sobre material reprodutivo ou regenerativo obtido pela realização de um processo da invenção de acordo com qualquer modalidade aqui descrita;
(ix) dados sobre pedigree e fenótipo, por exemplo,
2 5 obtidos de um ou mais registros de pedigree e/ou fenótipo;
e
(x) combinações de quaisquer dois ou mais de (i) a
(ix) ·
De preferência, uma base de dados da presente invenção
3 0 compreende informações em relação à localização e ocorrências de nucleotídeos de marcadores genéticos, por exemplo, SNPs para ancestrais significantes ou indivíduos reprodutores em uma população e, mais preferivelmente, informações que pertencem aos marcadores genéticos usados 5 no sistema de alto rendimento da presente invenção, ou dados que pertencem aos marcadores suficientes que sejam representativos de um genoma de uma população, ou seja, que transpõem o genoma e que compreendem polimorfisraos suficientes que sejam úteis para a varredura do genoma 10 completo. Os dados podem estar dispostos em grupos de ligação, opcionalmente de acordo com um segmento cromossômico com o qual estão em desequilíbrio de ligação.
As informações em relação à localização genômica de um marcador podem ser fornecidas, por exemplo, por inclusão de 15 informações de seqüências de seqüências consecutivas que circundam um polimorfismo, ou por fornecimento de um número de posição para o polimorfismo com relação a uma entrada de seqüência disponível, por exemplo, uma entrada de seqüência do Genbank, ou uma entrada de seqüência para uma base de
2 0 dados privada, ou uma base de dados licenciada
comercialmente de seqüências de DNA. A base de dados também pode incluir informações em relação às ocorrências de nucleotídeos de marcadores polimorficos.
Uma base de dados da presente invenção pode incluir outras informações em relação aos marcadores ou haplótipos, por exemplo, informações em relação à freqüência de ocorrência em uma população.
Uma base de dados pode ser dividida em várias partes, em que cada parte compreende informações que são diferentes
3 0 em termos de natureza, por exemplo, uma parte para cada um de (i) a (ix) supra ou, alternativamente, uma parte para o armazenamento de dados de seqüências e outra parte para o armazenamento de informações em relação às seqüências, por exemplo, dados que pertencem ao ancestral fundador ou ao indivíduo do qual a seqüência é derivada.
Uma base de dados também pode conter registros que representam informações adicionais sobre um marcador, por exemplo, informações que identificam o genoma no qual um marcador em particular é encontrado, ou dados da freqüência 10 de ocorrência de nucleotídeos, ou características de uma biblioteca ou clone ou indivíduo que gerou a seqüência de DNA, ou o relacionamento da seqüência que circunda um marcador polimorfico com seqüências de DNA similares em outras espécies.
Uma base de dados da presente invenção pode ser uma
base de dados de arquivo plano ou uma base de dados relacionai ou uma base de dados orientada por objeto. A base de dados pode ser interna, ou seja, uma base de dados privada, não acessível a usuários externos, e tipicamente 20 mantida protegida por um firewall, por uma empresa. Alternativamente, a base de dados pode ser externa, ou seja, acessível aos usuários externos em virtude de estarem localizadas fora de uma base de dados interna, e tipicamente mantida por uma entidade diferente em relação a 2 5 uma base de dados interna.
Diversas bases de dados externas públicas de seqüências biológicas, particularmente bases de dados de SNPs, estão disponíveis e podem ser usadas com a presente invenção. Por exemplo, a base de dados dbSNP disponível pelo "National Center for Biological Information" (NCBI), parte da "National Library of Medicine" , EUA, pode ser usada com a presente invenção para fornecer informações genômicas comparativas para auxiliar na identificação de SNPs de diversas populações de melhoramento genético 5 diferentes.
Em um exemplo adicional, a base de dados compreende uma população de informações que pode ser modificada por usuários para a inclusão de novas informações, por exemplo, valores genéticos reais de seleção artificial ou de 10 programas de melhoramento, marcadores recém identificados, haplótipos, traços, segmentos cromossômicos e suas associações. A população de informações é tipicamente incluída dentro de uma base de dados, e pode ser identificada com o uso dos métodos da presente invenção. 15 Por exemplo, uma população de informações pode incluir todos os SNPs e/ou haplótipos de um mapa de SNP do genoma completo para um conjunto de ancestrais e/ou indivíduos em particular em uma população que possui um pequeno tamanho efetivo da população.
2 0 Sistema de computador
Um sistema de computador da presente invenção compreende uma base de dados, como aqui descrita, e uma interface do usuário capaz de receber a entrada de dados, por exemplo, para pesquisar a base de dados e exibir os 25 resultados de uma pesquisa na base de dados. A interface também pode permitir a população de um ou mais campos de dados na base de dados, quando um usuário possuir autoridade para a inserção de informações. A interface pode ser uma interface gráfica do usuário em que são feitas 30 entradas e seleções, por exemplo, com a utilização de uma série de menus, caixas de diálogo e/ou botões selecionáveis. A interface tipicamente conduz um usuário por uma série de telas que começam com um menu principal. A interface do usuário pode incluir links para acessar 5 informações adicionais, incluindo informações de outras bases de dados externas ou internas.
Um sistema de computador da presente invenção que processa dados inseridos e exibe os resultados de uma pesquisa na base de dados tipicamente compreenderá uma
unidade de processamento que executa um programa de computador como, por exemplo, um programa de computador que compreende um código do programa legível por computador incorporado em um meio utilizável por computador e presente em uma função de memória conectado à unidade de
processamento. A função de memória pode ser ROM ou RAM. 0 programa de computador é tipicamente lido e executado pela unidade de processamento. 0 código do programa legível por computador está relacionado a diversos arquivos de dados armazenados em uma base de dados.
2 0 Por exemplo, o programa de computador também pode
compreender um código do programa legível por computador para o fornecimento de uma interface do usuário capaz de permitir que um usuário insira ocorrências de nucleotídeos da série de SNPs, a localização de dados que correspondem à
2 5 informação pesquisada inserida e a exibição dos dados que
correspondem à pesquisa inserida.
Os dados que correspondem às informações de pesquisa inseridas informação são tipicamente localizados pesquisando-se uma base de dados como descrita acima.
3 0 Em outro exemplo, o sistema de computador e o programa de computador são usados para realizar um método da presente invenção, pôr exemplo, um método para estimar o valor genético dé um indivíduo.
Um sistema de computador da presente invenção pode ser um computador isolado, um sistema de rede convencional, incluindo um ambiente cliente/servidor e um ou mais servidores de bases de dados e/ou um dispositivo manual. Diversos sistemas de rede convencionais, incluindo uma rede de área local (LAN) ou uma rede de área expandida (WAN) , são conhecidos na técnica. Adicionalmente, ambientes cliente/servidor, servidores de bases de dados e redes são bem documentados na técnica, no comércio e na literatura de patentes. Por exemplo, o servidor da base de dados pode executar um sistema operacional como, por exemplo, UNIX, que processa um sistema de gerenciamento relacionai de base de dados, uma aplicação da Internet e um servidor da Internet. Quando o sistema de computador for um dispositivo manual, ele poderá ser um assistente digital pessoal (PDA) ou outro tipo de dispositivo manual, dos quais muitos são conhecidos.
A presente invenção á ainda descrita com referência ao seguinte exemplo não limitante.
Exemplo 1
Método-modelo de seleção artificial para uma população de gado Holstein
Fundamentos
Muitas raças de animais de criação possuem um pequeno tamanho efetivo da população de 50-100, incluindo a população de gado Holstein. Isso significa que a maioria
3 0 dos segmentos cromossômicos encontrados em animais da geração atual se reporta a um de menos do que cerca de 100 ancestrais fundamentais em poucas gerações. Esse tempo de coalescência curto significa que os segmentos cromossômicos são grandes e poderiam ser reconhecidos por seu haplótipo 5 em um grupo de marcadores. Conseqüentemente, podemos efetuar a genotipagem in silico da seguinte forma:
1. Genotipagem dos ancestrais fundamentais para um conjunto de marcadores densos;
2. Genotipagem de indivíduos da população/geração
atual para marcadores suficientes para permitir que
segmentos cromossômicos sejam combinados com os segmentos carregados pelos ancestrais fundamentais; e
3. Inferência de que os genótipos de indivíduos na população atual/geração são iguais àqueles do ancestral ou
fundador fundamental para o segmento cromossômico que combina.
Por esse meio, é possível genotipar grandes números de indivíduos na população atual para um número moderado de marcadores, embora por obtenção de genótipos in silico para
2 0 um grande número de marcadores. Na medida em que o custo do (re)seqüenciamento do genoma cai, essa genotipagem in silico pode ser estendida ao seqüenciamento in silico. Ou seja, os ancestrais fundamentais são seqüenciados e depois a seqüência genômica completa é imputada para segmentos
2 5 cromossômicos em animais atuais que combinam com o segmento
cromossômico em ancestrais fundamentais.
A genotipagem e o seqüenciamento in silico da presente invenção se utilizam dos relacionamentos conhecidos entre indivíduos da população atual e os ancestrais fundamentais,
3 0 reduzindo, dessa forma, o número de marcadores que devem ser genotipados nos indivíduos da população atual.
Esse método reduz o custo da seleção genômica por redução do número de marcadores que devem ser genotipados nos candidatos à seleção. O método também identifica os polimorfismos causais subjacentes ao QTL. Se cada QTL é atacado separadamente, o seqüenciamento do genoma é focalizado em uma região em particular. No entanto, como há muitos QTLs que afetam muitos traços de interesse, essa é uma abordagem muito ineficiente e é, portanto, desejável realizar o (re)seqüenciamento do genoma completo e buscar muitos QTLs simultaneamente. Com a realização dos métodos in silico da presente invenção, será possível inferir as seqüências de milhares de genomas em anos, por exemplo, por genotipagem de uma grande amostra de animais que foi registrada para muitos traços de interesse (por exemplo, traços de doença) para um número moderado de marcadores, seqüenciando-se os genomas dos ancestrais fundamentais, rastreando-se de forma retrógrada os segmentos cromossômicos dos indivíduos da população atual até seus ancestrais, inferindo-se a seqüência genômica completa em cada animal e realizando-se a análise de seqüências do genoma completo (GWAS) com base na seqüência genômica completa inferida. Procedendo dessa forma, o método da presente invenção é útil para a identificação de grandes números de mutações que afetam a suscetibilidade a doenças ou outros traços.
Métodos e resultados
A presente invenção fornece um método de seleção artificial que compreende:
1. Identificação do conjunto mínimo de ancestrais fundamentais que representam a maioria dos segmentos cromossômicos em uma população atual;
2. Genotipagem dos ancestrais fundamentais para um conjunto de marcadores densos;
3. Genotipagem de um ou mais indivíduos de uma
população atual para marcadores suficientes para, dessa forma, permitir que segmentos cromossômicos sejam combinados com os segmentos carregados pelos ancestrais fundamentais;
4. Rastreamento dos segmentos cromossômicos de um ou
mais indivíduos do gado da população atual até um ancestral fundamental;
5. Inferência de que os genótipos de marcadores dentro de um ou mais segmentos cromossômicos de um ou mais
indivíduos na população atual são iguais àqueles do ancestral fundamental; e
6. Utilização do genótipo inferido de um ou mais indivíduos na população atual para estimar o valor genético dos referidos um ou mais indivíduos.
Essas etapas são descritas com mais detalhes com
referência à seleção artificial de gado Holstein.
1. Identificação do conjunto mínimo de ancestrais fundamentais que representam a maioria dos segmentos cromossômicos em uma população atual
Ancestrais fundamentais para uma população de gado
Holstein são determinados, por exemplo, com base em pedigrees conhecidos e/ou por estimativa dos relacionamentos entre animais por análise de ligação de marcador de DNA. A estimativa de ancestrais fundamentais
3 0 com base em marcadores de DNA fornece uma estimativa mais precisa dos relacionamentos entre animais do que o pedigree "conhecido" que é freqüentemente incompleto e contém erros. De preferência, uma matriz A estimada a partir dos marcadores de DNA e/ou a matriz A derivada do pedigree é 5 usada para identificar os ancestrais fundamentais.
Com a utilização da matriz aditiva de relacionamento (A) aqui descrita acima, foram obtidos os ancestrais fundamentais fornecidos nas Tabelas 2 e 3 para uma população de 2.300 animais de gado Holstein.
2. Genotipagem dos ancestrais fundamentais para um conjunto de marcadores densos
Como não possuíamos genótipos nos ancestrais fundamentais da população de gado Holstein sob estudo, modelamos a população ancestral usando uma população
fundadora de 425 animais sem ancestrais e progenitoras conhecidos. Na prática, seriam necessários menos ancestrais fundamentais do que esse número, pois estão disponíveis pedigrees mais completos ou os relacionamentos são mais facilmente deduzidos a partir dos dados de marcadores.
2 0 Então inferimos os genótipos dos fundadores com base
nos genótipos de seus parentes para 11 marcadores microssatélites que englobam 2,9 cM do cromossomo 21, usando um método de Monte Carlo por Cadeia de Markov (MCMC) descrito originalmente por Schafer, J.L. (1997), "Analysis
of Incomplete Multivariate Data", Nova York: Chapman e Hall. Nessa abordagem, o genótipo de cada animal é deduzido a partir de uma distribuição condicional posterior nos genótipos de progenitores, avós, prole, netos e parceiros. Uma amostra da distribuição de genótipos posterior foi
3 0 usada, e os genótipos inferidos nos animais fundadores foram então considerados como sendo os genótipos verdadeiros.
De preferência, seria derivado o conjunto de dados de genótipos de ancestrais listado na Tabela 2 ou 3 para um 5 conjunto de marcadores densos por abordagens de genotipagem padronizadas com o uso de sêmen como uma fonte de material genético para genotipagem e/ou com base em dados disponíveis de genótipo e, opcionalmente, combinado com um método de MCMC para inferir ou imputar os valores ausentes. 10 3. Genotipagem de um ou mais indivíduos de uma população atual para marcadores suficientes para, dessa forma, permitir que segmentos cromossômicos sejam combinados com os segmentos carregados pelos ancestrais fundamentais
Utilizamos um conjunto de dados de 2.300 animais de 15 gado Holstein que foram genotipados para até 11 marcadores microssatélites que englobam 2,9 cM do cromossomo 21. Dez desses marcadores foram tratados como os marcadores que foram genotipados na população atual e nos fundadores. O marcador restante (11°) foi tratado como um marcador que
2 0 foi genotipado somente na população fundadora, juntamente com outros marcadores desconhecidos que são genotipados apenas nos fundadores. Consideramos que isso era suficiente para testar rigorosamente o método da invenção, pois esse 11° marcador possui cinco (5) alelos quase igualmente 25 comuns e, em conseqüência, representava um marcador difícil para se prever um genótipo. Genótipos em outros marcadores, tais como SNPs, seriam mais fáceis de se prever do que o exemplo aqui fornecido.
Para testar a precisão do método da invenção nesse sistema-modelo, definimos então um subconjunto de "candidatos à seleção" a partir da população atual como aqueles animais que não possuem prole, mas com um ancestral e progenitora conhecidos. Os candidatos ã seleção foram genotipados no 11° marcador na região de 2,9 cM do 5 cromossomo 21; no entanto, aquele genótipo marcador conhecido foi então mascarado ou oculto da análise, de tal forma que fosse pressuposto que os candidatos à seleção eram conhecidos para um máximo de marcadores microssatélites nessa região do cromossomo. Essa análise 10 cega dos marcadores para os candidatos à seleção foi realizada para permitir que comparássemos o verdadeiro genótipo marcador com o genótipo marcador previsto pela análise, ou seja, quando o valor ausente estivesse oculto.
4. Rastreamento dos segmentos cromossômicos de um ou mais indivíduos da população atual gado até um ancestral fundamental.
No sistema-modelo, como um segmento específico do cromossomo 21 foi empregado para modelar a precisão do método, não foi estritamente necessário rastrear de forma
2 0 retrógrada os segmentos cromossômicos dos candidatos à
seleção até um ancestral fundamental.
Apesar dessa limitação, comparamos os genótipos dos candidatos à seleção dentro da região de 2,9 cM do cromossomo 21 para um subconjunto limitado de marcadores 25 para os quais foram genotipados para inferir os genótipos dos fundadores na mesma região do cromossomo, e alinhamos os marcadores para, desse modo, rastrear os segmentos cromossômicos de um ou mais indivíduos da população atual de gado até um fundador em particular.
3 0 Os segmentos cromossômicos foram rastreados através do pedigree dos candidatos à seleção até os fundadores com base nos marcadores com o uso do mesmo programa de MCMC acima.
5. Inferência de que os genótipos de marcadores dentro de 5 um ou mais segmentos cromossômicos de um ou mais indivíduos na população atual são iguais àqueles do ancestral fundamental
O genótipo ausente, ou seja, oculto, nos candidatos à seleção, foi inferido pelo programa de MCMC porque ele 10 rastreia de forma retrógrada a origem de cada posição do cromossomo em um candidato à seleção até um dos fundadores nos quais o 11° genótipo marcador era conhecido. Em 96% dos casos, o genótipo previsto estava de acordo com o genótipo verdadeiro. Os dados estão disponíveis mediante 15 solicitação.
Nesse exemplo, os genótipos marcadores dos fundadores foram, na verdade, inferidos a partir de genótipos de parentes, mas idealmente seriam conhecidos. Eles são inferidos a partir de parentes nesse exemplo porque o DNA 20 para genotipagem dos fundadores não estava disponível. Dessa forma, testamos o método sob condições desfavoráveis e concluímos que em condições mais favoráveis, em que os genótipos dos fundadores ou ancestrais são conhecidos, o método apresentaria resultados que são iguais àqueles do 25 presente exemplo ou melhores.
Vários outros métodos analíticos poderiam ser empregados para inferir os genótipos ausentes dos candidatos à seleção, por exemplo, um algoritmo de peeling baseado no pedigree que inclui múltiplos peelings
3 0 repetitivos, por exemplo, aquele descrito por Meuwissen e cols., Genetics 161, 373-379, 2002.
Alternativamente, ou em adição, um método projetado para animais não relacionados, por exemplo, com o uso do algoritmo "fastPHÀSÉ" disponível pela Universidade de 5 Washington, Ann Arbor, MI 48109- 2029, EUA. O algoritmo "fastPHASE" implementa métodos para a estimativa de haplótipos e genótipos ausentes a partir de dados de genótipo de SNP da população. Quando usado em animais relacionados, "fastPHASE" reconhece haplótipos comuns 10 derivados de ancestrais fundamentais. Por exemplo, também testamos a precisão de fastPHASE no método da invenção, usando o mesmo conjunto de dados que acima. Analisamos um conjunto de dados de 680 animais dos quais 6 ou mais dos 11 genótipos marcadores eram conhecidos. Metade desses animais 15 foi usada como um conjunto experimental e metade foi candidata à seleção. 0 genótipo no marcador foi ocultado da análise de fastPHASE. Nessa variação, 91% de genótipos ausentes foram previstos corretamente com o uso de fastPHASE.
2 0 A presente invenção também engloba o uso de duas
etapas para inferir genótipos em candidatos à seleção a partir daqueles ancestrais fundamentais. Por exemplo, 100 ancestrais fundamentais podem ser genotipados para todos os marcadores conhecidos (por exemplo, 1.000.000 marcadores), 25 ou completamente seqüenciados. Todos os machos usados para cruzamento ou todos os machos reprodutores usados para cruzamento podem ser genotipados separadamente para um subconjunto dos marcadores conhecidos, por exemplo, 50.000 marcadores, e os candidatos à seleção genotipados para
3 0 menos marcadores, por exemplo, somente 2.000 marcadores. Os segmentos cromossômicos nos candidatos à seleção podem então ser rastreados ao longo de uma ou poucas gerações para os machos do cruzamento e podem ser rastreados até os ancestrais fundamentais. Isso utiliza genotipagem de alto 5 rendimento (50.000 marcadores) em uma pequena fração da população total.
6. Utilização do genótipo inferido de um ou mais indivíduos na população atual para estimar o valor genético dos referidos vim ou mais indivíduos.
Os métodos padronizados aqui descritos são usados para
prever o valor genético do candidato à seleção a partir dos genótipos inferidos dos marcadores. Todos eles utilizam uma equação que prevê o BV de genótipos marcadores que é derivado pela análise de uma amostra de animais que possuem
ambos os genótipos e um dos valores genéticos estimados (EBVs) ou registros fenotípicos. Um método preferido aqui descrito calcula o valor esperado do BV condicional nos genótipos marcadores e em uma distribuição prévia dos efeitos de genes sobre o traço de interesse. Métodos para a
estimativa dessa distribuição prévia são disponíveis publicamente.
Conclusões
0 modelo aqui descrito para uma população de gado Holstein é facilmente extrapolado e aplicável aos estudos
2 5 de genoma inteiro que empregam ancestrais em contraste com
fundadores. No método da invenção, um grupo de ancestrais fundamentais seria genotipado para muitos marcadores; os candidatos à seleção seriam genotipados para um número menor de marcadores; os segmentos cromossômicos dos
3 0 candidatos à seleção seriam rastreados de forma retrógrada até aqueles ancestrais fundamentais, e isso permitiria' que todos os genótipos marcadores conhecidos nos ancestrais fundamentais fossem imputados aos candidatos à seleção. Na exemplificação aqui apresentada, tratamos todos os animais 5 com genótipos conhecidos para até 11 marcadores como os candidatos à seleção. e depois rastreamos o pedigree conhecido desses animais o mais longe possível para identificar 425 fundadores que não possuíssem dois progenitores conhecidos. Dessa forma, esses 425 fundadores 10 são realmente representativos de ancestrais fundamentais nesse exemplo. Esse é um número maior de ancestrais fundamentais do que o normal; no entanto, o maior tamanho da população fundadora é uma conseqüência de dados de pedigree incompletos e de dados de genótipo deficientes 15 para os ancestrais mostrados nas Tabelas 2 e 3. Dez dos marcadores foram considerados equivalentes ao pequeno número de marcadores genotipado nos candidatos à seleção. Um desses marcadores foi tratado como um exemplo dos muitos marcadores genotipados nos ancestrais fundamentais que 2 0 desejamos imputar aos candidatos à seleção. Como os ancestrais fundamentais não foram genotipados para os 11 marcadores, empregamos modelagem MCMC para deduzir os genótipos marcadores dos 425 fundadores. Então executamos o programa de MCMC novamente com o 11° genótipo marcador
2 5 deletado nos candidatos ã seleção, e usamos o programa de
MCMC para imputar o genótipo ausente. Inferimos apenas um genótipo ausente, mas é um exemplo típico porque, tendo sido os fundadores genotipados para 110 marcadores, seria possível inferir os 100 marcadores ausentes tão
3 0 precisamente quanto esse único marcador realmente inferido por repetição do processo. Por exemplo, o método pode ser testado em um conjunto adicional de dados dos genótipos de cerca de 700 touros Holstein para 50.000 marcadores de SNP com a utilização de um ensaio Illumina, que formam os 5 candidatos ã seleção, do qual os dados sobre todos os SNPs, com a exceção de 2.000, estão ocultos ou mascarados; e os genótipos de ancestrais fundamentais desses touros determinados e usados para imputar/inferir os 48.000 genótipos ausentes nos candidatos à seleção.
Esperamos que o método da invenção tenha um melhor
desempenho nesse modelo porque, em nosso modelo, a necessidade de inferir os genótipos de ancestrais fundamentais a partir daqueles de seus parentes significa que os genótipos em ancestrais fundamentais podem conter 15 alguns erros. Em uma aplicação ideal, o pedigree seria conhecido e/ou os genótipos nos ancestrais fundamentais seriam conhecidos, permitindo, dessa forma, que candidatos à seleção sejam rastreados de forma retrógrada até um número menor de ancestrais fundamentais. Dessa forma, a
2 0 exemplificação aqui apresentada demonstra que o método funcionará até mesmo em uma situação desfavorável na qual os genótipos de ancestrais fundamentais tenham que ser inferidos a partir daqueles de seus parentes.

Claims (42)

1. Método de seleção artificial para um gene ou lócus único, o referido método caracterizado por compreender a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um segmento cromossômico que compreende um gene ou lócus de interesse, a inferência de que os genótipos para um ou mais marcadores no lócus ou QTL são iguais aos de um ancestral ou fundador do qual o segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base no genótipo inferido, em que o ancestral ou fundador é um ancestral ou fundador que fornece uma contribuição genética de longo prazo significativa para uma população atual e em que o genótipo do ancestral ou fundador para um ou mais marcadores informativos e para o lócus ou QTL é substancialmente conhecido.
2. Método de seleção artificial para um ou mais Ioci ou QTLs, o referido método caracterizado por compreender a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou mais segmentos cromossômicos, cada um contendo um ou mais Ioci ou QTLs de interesse, a inferência de que os genótipos em um ou mais Ioci ou QTLs são iguais ao de um ancestral ou fundador do qual um segmento cromossômico é derivado, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que um ou mais ancestrais e/ou fundadores é um ancestral ou fundador que fornece uma contribuição genética de longo prazo significativa para uma população atual, e em que os genótipos de um ou mais ancestrais e/ou fundadores para um ou mais marcadores informativos e para os Ioci ou QTLs são substancialmente conhecidos.
3. Método de seleção artificial, caracterizado por compreender a genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em diversos segmentos cromossômicos, a inferência de que os genótipos de cada segmento cromossômico são iguais aos de um ou mais ancestrais e/ou fundadores dos quais os segmentos cromossômicos são derivados, e estimando-se o valor genético do indivíduo com base nos genótipos inferidos, em que cada ancestral ou fundador é um ancestral ou fundador que fornece uma contribuição genética de longo prazo significativa para uma população atual e em que os genótipos de um ou mais ancestrais e/ou fundadores para um ou mais marcadores informativos são substancialmente conhecidos.
4. Método, de acordo com qualquer uma das reivindicações 1, 2 ou 3, caracterizado pelo fato de que o referido método compreende: (i) opcionalmente, a determinação de um conjunto mínimo de ancestrais e/ou fundadores representativo da população atual; (ii) opcionalmente, a genotipagem de um ou mais ancestrais e/ou fundadores para marcadores conhecidos; (iii) genotipagem de um indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou em diversos segmentos cromossômicos; (iv) opcionalmente, o rastreamento retrógrado das linhagens de um ou diversos segmentos cromossômicos até um ou mais ancestrais e/ou fundadores dos quais são derivados; (v) a inferência de que os genótipos de cada segmento cromossômico são iguais aos de um ou mais ancestrais e/ou fundadores dos quais os segmentos cromossômicos são derivados; e (vi) estimando-se o valor genético do indivíduo com base nos genótipos inferidos.
5. Método, de acordo com qualquer uma das reivindicações 1, 2, 3 ou 4, caracterizado ainda por compreender o rastreamento retrógrado da linhagem de um ou mais segmentos cromossômicos até um ou mais ancestrais e/ou fundadores dos quais são derivados.
6. Método, de acordo com a reivindicação 5, caracterizado por compreender o rastreamento retrógrado de segmentos cromossômicos individuais em membros da população até os ancestrais fundamentais e/ou fundadores por um processo que compreende o rastreamento de segmentos cromossômicos em candidatos à seleção da população atual até um ou mais ancestrais e/ou fundadores imediatos com o uso de um pequeno número de marcadores, e rastreando-se os segmentos cromossômicos nos ancestrais e/ou fundadores imediatos até segmentos cromossômicos correspondentes em um ou mais ancestrais fundamentais e/ou fundadores.
7. Método, de acordo com a reivindicação 5 ou 6, caracterizado por compreender o rastreamento retrógrado dos segmentos cromossômicos nos ancestrais e/ou fundadores imediatos até os segmentos cromossômicos nos ancestrais fundamentais e/ou fundadores com o uso de marcadores.
8. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6 ou 7, caracterizado pelo fato de que o referido método compreende: (i) a genotipagem de ura indivíduo em uma população atual quanto à presença ou ausência de um ou mais marcadores informativos em um ou em diversos segmentos cromossômicos; (ii) opcionalmente, a determinação de um conjunto mínimo de ancestrais e/ou fundadores representativo da população atual; (iii) o rastreamento retrógrado das linhagens dos diversos segmentos cromossômicos até um ou mais ancestrais e/ou fundadores dos quais são derivados; (iv) opcionalmente, a genotipagem de um ou mais ancestrais e/ou fundadores para marcadores conhecidos; (v) a inferência de que os genótipos de cada segmento cromossômico são iguais aos de um ou mais ancestrais e/ou fundadores dos quais os segmentos cromossômicos são derivados; e (vi) estimando-se o valor genético do indivíduo com base nos genótipos inferidos.
9. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7 ou 8, caracterizado pelo fato de que a população é uma população de plantas que possui um pequeno tamanho efetivo da população.
10. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8 ou 9, caracterizado pelo fato de que a população é uma população de animais que possui um pequeno tamanho efetivo da população.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a população é uma população de animais que possui um pequeno tamanho efetivo da população, sendo selecionada de gado, carneiros, porcos, aves, peixes e crustáceos.
12. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que a população é uma população de gado Holstein.
13. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ou 12, caracterizado pelo fato de que os marcadores dentro de cada segmento cromossômico estão em desequilíbrio de ligação.
14. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ou 13, caracterizado pelo fato de que os marcadores são selecionados de um alelo, haplótipo, haplogrupo, lócus, lócus de traço quantitativo, polimorfismo, STR e combinações destes.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que os marcadores são polimorfismos nucleares únicos (SNPs).
16. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou 15, caracterizado ainda por compreender a inferência do pedigree do indivíduo a partir de marcadores que são usados para rastrear segmentos cromossômicos.
17. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 ou 16, caracterizado pelo fato de que o pedigree de individual é conhecido.
18. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, .14, 15, 16 ou 17, caracterizado ainda por compreender a caracterização dos ancestrais e/ou fundadores por genotipagem de um ou mais ancestrais e/ou fundadores para marcadores conhecidos.
19. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17 ou 18, caracterizado ainda por compreender a identificação dos ancestrais e/ou fundadores.
20. Método, de acordo com a reivindicação 19, caracterizado pelo fato de que os ancestrais e/ou fundadores são determinados por determinação de um conjunto mínimo de ancestrais e/ou fundadores representativo da população atual.
21. Método, de acordo com qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17, 18, 19 ou20, caracterizado pelo fato de que seqüências genômicas dos ancestrais fundamentais e/ou fundadores são conhecidas e em que o referido método compreende a inferência de seqüências genômicas de indivíduos na população atual.
22. Meio legível por computador para uso em seleção artificial, o referido meio legível por computador caracterizado por compreender uma base de dados de valores genéticos estimados para um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população e, opcionalmente, compreendendo dados selecionados do grupo que consiste em: dados sobre ancestrais e/ou fundadores de indivíduos na população atual; dados sobre indivíduos na população atual; dados sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais e/ou fundadores de indivíduos na população atual; dados sòbré genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais e/ou fundadorres ;dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes, em que os valores genéticos estimados são obtidos pela realização do método de qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17, 18, 19 , 20 OU 21.
23. Meio legível por computador, de acordo com a reivindicação 22, caracterizado pelo fato de que os genótipos marcadores de um ou mais ancestrais estão dispostos em grupos de ligação.
24. Sistema de computador para uso em seleção artificial, caracterizado por compreender: (i) uma base de dados de valores genéticos estimados para um ou mais indivíduos de uma população que possui um pequeno tamanho efetivo da população e que compreende, opcionalmente, dados selecionados do grupo que consiste em: dados sobre ancestrais e/ou fundadores para indivíduos; dados sobre segmentos cromossômicos para os indivíduos na população atual; dados sobre segmentos cromossômicos para ancestrais e/ou fundadores de indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para os indivíduos na população atual; dados sobre genótipos marcadores em segmentos cromossômicos para ancestrais e/ou fundadores; dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes, em que os valores genéticos estimados são obtidos pela realização do método de qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou 21; e (ii) uma interface do usuário que permite que um ncnár^Q 2Γ3. dcidos cju0 j30ü*t sncstTL ci um indivíduo S j ou pesquise a base de dados e/ou exiba resultados de uma pesquisa na base de dados.
25. Sistema de computador, de acordo com a reivindicação 24, caracterizado pelo fato de que os genótipos marcadores de um ou mais ancestrais e/ou fundadores estão dispostos em grupos de ligação.
26. Sistema de computador, de acordo com a reivindicação 24 ou 25, caracterizado pelo fato de que os dados que pertencem a um indivíduo são selecionados de dados sobre segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos, ocorrências de nucleotídeos para o indivíduo e combinações destes.
27. Uso do método de qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou 21, caracterizado por ser usado para a seleção de um indivíduo ou material reprodutivo ou regenerativo do indivíduo para uso em melhoramento genético, inseminação artificial, fertilização in vitro, implantação de embrião ou transgênicos.
28. Processo para a produção de ganho genético em uma população, caracterizado por compreender a realização do método de qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou 21 e a seleção de um indivíduo que possui um valor genético estimado elevado de uma população.
29. Processo, dé acordo com a reivindicação 28, caracterizado por compreender a obtenção de material reprodutivo ou regenerativo do indivíduo selecionado.
30. McLt 02T3_cll £*0]p3ΓOd/LltÍVO OU 2Γ0^0η.02Γ3^ÍVO C3.rS.CÜ£rÍ.ZclCÍ.0 por ser obtido pela realização do processo da reivindicação 29 .
31. Meio legível por computador, caracterizado por compreender uma base de dados de dados que pertencem ao material reprodutivo ou regenerativo obtido pela realização do processo da reivindicação 29.
32. Meio legível por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que os dados que pertencem ao material reprodutivo ou regenerativo são combinados com dados selecionados do grupo que consiste em: dados sobre ancestrais para o material; dados sobre segmentos cromossômicos para o material; dados sobre segmentos cromossômicos para ancestrais e/ou fundadores do material; dados sobre genótipos marcadores em cada segmento cromossômico para o material; dados sobre genótipos marcadores em cada segmento cromossômico para ancestrais e/ou fundadores; dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes.
33. Sistema de computador para uso em seleção artificial, caracterizado por compreender: (i) uma base de dados de dados que pertencem ao material reprodutivo ou regenerativo obtido pela realização do processo da reivindicação 2 9 e que compreende, opcionalmente, dados selecionados do grupo que consiste em: dados sobre ancestrais e/ou fundadores do material; dados sobre segmentos cromóssômicos para o material; dados sobre segmentos cromossômicos para ancestrais e/ou fundadores do material; dados sobre genótipos marcadores em cada segmento cromossomico para o maerial ; dados sobre genotips marcadores em cada segmento cromossômico para ancestrais e/ou fundadores; dados sobre linhagens entre os genótipos marcadores e/ou segmentos cromossômicos; e combinações destes; e (ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo e/ou pesquise a base de dados e/ou exiba resultados de uma pesquisa na base de dados.
34. Sistema de computador de acordo com a reivindicação 33, caracterizado pelo fato de que genótipos marcadores de um ou mais ancestrais e/ou fundadores estão dispostos em grupos de ligação.
35. Sistema de computador, de acordo com a reivindicação 33 ou 34, caracterizado pelo fato de que os dados que pertencem a um indivíduo são selecionados de dados sobre segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos, ocorrências de nucleotídeos para o indivíduo e combinações destes.
36. Processo para a produção de ganho genético em uma população, caracterizado por compreender: (i) a realização do método de qualquer uma das reivindicações 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17, 18, 19, 20 ou 21 para, dessa forma, estimar o valor genético de um ou mais indivíduos em uma população; (ii) a seleção de um indivíduo de (i) que possui um valor genético estimado elevado; (iii) a obtenção de material reprodutivo ou regenerativo do indivíduo selecionado; e {iv) a produção de um ou mais indivíduos ou uma ou mais gerações de indivíduos a partir do material reprodutivo ou regenerativo.
37. Não humano caracterizado por ser produzido pela realização do método da reivindicação 36.
38. Método para a determinação de um conjunto de ancestrais e/ou fundadores que é representativo de uma população atual que possui um pequeno tamanho efetivo da população, o referido método caracterizado por compreender a determinação das contribuições de longo prazo de ancestrais e/ou fundadores para a população com referência aos pedigrees de indivíduos da população atual, e a seleção daqueles indivíduos que fornecem as maiores contribuições de longo prazo para uma população atual, de tal forma que o menor número de ancestrais e/ou fundadores seja selecionado para substancialmente descrever a variância na população atual.
39. Meio legível por computador para uso em seleção artificial, o referido meio legível por computador caracterizado por compreender uma base de dados de um ou mais conjuntos de ancestrais e/ou fundadores que são representativos de uma ou mais populações atuais que possuem um pequeno tamanho efetivo da população produzidos pela realização do método da reivindicação 38, e que compreende, opcionalmente, dados adicionais selecionados do grupo que consiste em: dados sobre valores genéticos reais ou estimados- para um ou mais ancestrais e/ou fundadores; dados sóbré se^mêntos cròmóssômicos para ancestrais de indivíduos na população atual; dados sobre um ou mais marcadores contidos dentro de um ou mais segmentos cromossômicos para ancestrais e/ou fundadores de indivíduos na população atual; e combinações destes.
40. Sistema de computador para uso em seleção artificial, caracterizado por compreender: (i) uma base de dados de um ou mais conjuntos de ancestrais e/ou fundadores que são representativos de uma ou mais populações atuais que possuem um pequeno tamanho efetivo da população produzidos pela realização do método da reivindicação 38 e, opcionalmente, compreendendo dados adicionais selecionados do grupo que consiste em: dados sobre valores genéticos reais ou estimados para um ou mais ancestrais e/ou fundadores; dados sobre segmentos cromossômicos para ancestrais e/ou fundadores de indivíduos na população atual; dados sobre um ou mais marcadores contidos dentro de um ou mais segmentos cromossômicos para ancestrais e/ou fundadores de indivíduos na população atual e combinações destes; e (ii) uma interface do usuário que permite que um usuário insira dados que pertencem a um indivíduo e/ou pesquise a base de dados e/ou exiba resultados de uma pesquisa na base de dados.
41. Sistema de computador, de acordo com a reivindicação 40, caracterizado pelo fato de que os genótipos marcadores de um ou mais ancestrais e/ou fundadores estão dispostos em grupos de ligação.
42. Sistema de computador, de acordo com a reivindicação 40 ou 41, caracterizado pelo fato de que os dados que pertencem à um indivíduo são selecionados de dados sobre segmento cromossômico, marcador genético, haplótipo, haplogrupo, seqüência de nucleotídeos, ocorrências cl0 nucXsotl.cí.00s Ρ3.2Γ3. o inçii\rícL\io 0 comi)i_íiciçÔ0s destes.
BRPI0721009-4A 2006-12-21 2007-12-21 Método de seleção artificial em uma população não humana de plantas ou animais que possui um pequeno tamanho populacional efetivo menor do que 1000 indivíduos, uso dométodo, processo para produção de ganho genético em uma população, e método de seleção artificial em pecuária BRPI0721009B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US87662306P 2006-12-21 2006-12-21
US60/876,623 2006-12-21
PCT/AU2007/002006 WO2008074101A2 (en) 2006-12-21 2007-12-21 Artificial selection method and reagents

Publications (2)

Publication Number Publication Date
BRPI0721009A2 true BRPI0721009A2 (pt) 2014-07-29
BRPI0721009B1 BRPI0721009B1 (pt) 2019-08-20

Family

ID=39536762

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0721009-4A BRPI0721009B1 (pt) 2006-12-21 2007-12-21 Método de seleção artificial em uma população não humana de plantas ou animais que possui um pequeno tamanho populacional efetivo menor do que 1000 indivíduos, uso dométodo, processo para produção de ganho genético em uma população, e método de seleção artificial em pecuária

Country Status (9)

Country Link
US (3) US20120144508A1 (pt)
EP (2) EP2120543B1 (pt)
AU (1) AU2007335195B2 (pt)
BR (1) BRPI0721009B1 (pt)
CA (1) CA2673174C (pt)
DK (1) DK2120543T3 (pt)
ES (1) ES2701872T3 (pt)
NZ (1) NZ577870A (pt)
WO (1) WO2008074101A2 (pt)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK2120543T3 (en) * 2006-12-21 2019-01-14 Agriculture Victoria Serv Pty METHOD AND REAGENTS OF ARTIFICIAL SELECTION
NZ591236A (en) * 2008-08-19 2012-11-30 Viking Genetics Fmba Methods for determining a breeding value based on a plurality of genetic markers
WO2010068999A1 (en) * 2008-12-19 2010-06-24 Genetysis Pty Ltd Method for identifying an animal suitable for breeding
US8597887B2 (en) 2009-04-09 2013-12-03 Genome Atlantic Genetic marker identification in atlantic cod
US10920242B2 (en) 2011-02-25 2021-02-16 Recombinetics, Inc. Non-meiotic allele introgression
US9528124B2 (en) 2013-08-27 2016-12-27 Recombinetics, Inc. Efficient non-meiotic allele introgression
EP3135103B1 (en) * 2013-06-14 2019-09-04 Keygene N.V. Directed strategies for improving phenotypic traits
EP3084665A4 (en) * 2013-12-19 2017-10-11 Genoscoper Oy Method and arrangement for matching mammals by comparing genotypes
US11377687B2 (en) 2015-10-16 2022-07-05 Inguran, Llc Methods of genomic evaluation in livestock
CN106086172B (zh) * 2016-06-13 2019-09-17 江苏省家禽科学研究所 一种鸡保种群个体选配优化的方法
CN109169516B (zh) * 2018-10-30 2021-07-06 扬州大学实验农牧场 一种高抗节粮型优质蛋鸡的培育方法
CN110564832B (zh) * 2019-09-12 2023-06-23 广东省农业科学院动物科学研究所 一种基于高通量测序平台的基因组育种值估计方法与应用
CN110853711B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草果糖含量的全基因组选择模型及其应用
CN111466336A (zh) * 2020-04-15 2020-07-31 新疆农垦科学院 一种肉用绵羊新品系培育方法
CN112088838B (zh) * 2020-09-29 2021-12-24 邢国兵 一种龟鳖孵化系统
EP4255174A2 (en) * 2020-12-02 2023-10-11 Monsanto Technology LLC Methods and systems for automatically tuning weights associated with breeding models

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8311018D0 (en) 1983-04-22 1983-05-25 Amersham Int Plc Detecting mutations in dna
US4883750A (en) 1984-12-13 1989-11-28 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
AU622426B2 (en) 1987-12-11 1992-04-09 Abbott Laboratories Assay using template-dependent nucleic acid probe reorganization
US5002867A (en) 1988-04-25 1991-03-26 Macevicz Stephen C Nucleic acid sequence determination by multiple mixed oligonucleotide probes
AU3694689A (en) 1988-04-28 1989-11-24 Mark H. Skolnick Amplified sequence polymorphisms (asps)
US5041371A (en) 1989-03-15 1991-08-20 Wisconsin Alumni Research Foundation Genetic marker for superior milk products in dairy cattle
US5110745A (en) 1989-06-01 1992-05-05 The Trustees Of The University Of Pennsylvania Methods of detecting glycated proteins
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
FR2650840B1 (fr) 1989-08-11 1991-11-29 Bertin & Cie Procede rapide de detection et/ou d'identification d'une seule base sur une sequence d'acide nucleique, et ses applications
US6004744A (en) 1991-03-05 1999-12-21 Molecular Tool, Inc. Method for determining nucleotide identity through extension of immobilized primer
US5304487A (en) 1992-05-01 1994-04-19 Trustees Of The University Of Pennsylvania Fluid handling in mesoscale analytical devices
US5374523A (en) 1992-08-10 1994-12-20 Monsanto Company Allelic variants of bovine somatotropin gene:genetic marker for superior milk production in bovine
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
JPH09507121A (ja) 1993-10-26 1997-07-22 アフィマックス テクノロジーズ ナームロゼ ベノートスハップ 生物学的チップ上の核酸プローブアレー
US5614364A (en) 1994-05-16 1997-03-25 Iowa State University Research Foundation, Inc. Genetic marker for improved milk production traits in cattle
US5585069A (en) 1994-11-10 1996-12-17 David Sarnoff Research Center, Inc. Partitioned microelectronic and fluidic device array for clinical diagnostics and chemical synthesis
US5658802A (en) 1995-09-07 1997-08-19 Microfab Technologies, Inc. Method and apparatus for making miniaturized diagnostic arrays
WO1997035033A1 (en) 1996-03-19 1997-09-25 Molecular Tool, Inc. Method for determining the nucleotide sequence of a polynucleotide
DK1179600T3 (da) 1996-06-04 2005-09-05 Univ Utah Res Found Overvågning af hybridisering under PCR
EP0821070A1 (en) 1996-07-22 1998-01-28 Carelli, Claude Marcel Henri Pit-1 gene polymorphism and trait selection in animals
AU7164998A (en) 1997-04-28 1998-11-24 B-E Safe, Inc. Taxonomic identification of microorganisms, proteins and peptides involved in vertebrate disease states
US6468743B1 (en) 1998-05-18 2002-10-22 Conagra Grocery Products Company PCR techniques for detecting microbial contaminants in foodstuffs
DE60126307T2 (de) 2000-10-31 2007-12-27 Michel Alphonse Julien Georges Marker-unterstützte auswahl von rindvieh für verbesserte milchproduktion unter verwendung des diacylglycerin-acyltransferase-gens dgat1
WO2003004630A2 (en) 2001-07-06 2003-01-16 Arbeitsgemeinschaft Deutscher Rinderzüchter E.V. (Adr) Method for determining the genetic predisposition of a mammal for its milk fat content and/or for its intramuscular fat content
DE60225196T2 (de) 2002-06-05 2009-02-12 Paulette Berzi Marker-unterstützte rinderauswahl für verbesserte milchzusammensetzung
EP1424400A1 (en) 2002-11-26 2004-06-02 Arysta Lifescience Corporation Methods and kits for the selection of animals having certain milk production capabilities, based on the analysis of a polymorphism in the growth hormone receptor gene
WO2004083456A1 (en) 2003-03-18 2004-09-30 Quantum Genetics Ireland Limited Systems and methods for improving protein and milk production of dairy herds
US20050123929A1 (en) 2003-12-04 2005-06-09 Wisconsin Alumni Research Foundation Methods and compositions for genetically detecting improved milk production traits in cattle
US20070105107A1 (en) * 2004-02-09 2007-05-10 Monsanto Technology Llc Marker assisted best linear unbiased prediction (ma-blup): software adaptions for large breeding populations in farm animal species
US8883129B2 (en) 2005-01-13 2014-11-11 The Procter & Gamble Company Enhanced efficacy antiperspirant active
US8315816B2 (en) 2005-02-16 2012-11-20 Genetic Technologies Limited Methods of genetic analysis involving the amplification of complementary duplicons
DK2120543T3 (en) * 2006-12-21 2019-01-14 Agriculture Victoria Serv Pty METHOD AND REAGENTS OF ARTIFICIAL SELECTION

Also Published As

Publication number Publication date
EP2120543B1 (en) 2018-09-26
US20190226035A1 (en) 2019-07-25
NZ577870A (en) 2014-01-31
DK2120543T3 (en) 2019-01-14
EP2120543A2 (en) 2009-11-25
WO2008074101A3 (en) 2009-03-05
BRPI0721009B1 (pt) 2019-08-20
US10179938B2 (en) 2019-01-15
US20120144508A1 (en) 2012-06-07
AU2007335195A1 (en) 2008-06-26
US20140220575A1 (en) 2014-08-07
EP2120543A4 (en) 2011-01-26
WO2008074101A2 (en) 2008-06-26
EP3437469A1 (en) 2019-02-06
CA2673174A1 (en) 2008-06-26
AU2007335195B2 (en) 2013-12-19
ES2701872T3 (es) 2019-02-26
CA2673174C (en) 2016-11-08

Similar Documents

Publication Publication Date Title
US10179938B2 (en) Artificial selection method and reagents
Georges et al. Harnessing genomic information for livestock improvement
Van Eenennaam et al. Applied animal genomics: results from the field
Küpper et al. A supergene determines highly divergent male reproductive morphs in the ruff
Gavery et al. Characterization of genetic and epigenetic variation in sperm and red blood cells from adult hatchery and natural-origin steelhead, Oncorhynchus mykiss
US20100162423A1 (en) Methods and Systems for Inferring Traits to Breed and Manage Non-Beef Livestock
Hayes et al. Invited review: Genomic selection in dairy cattle: Progress and challenges
US20110123983A1 (en) Methods of Using Genetic Markers and Related Epistatic Interactions
Khatkar et al. Meta-assembly of genomic regions and variants associated with female reproductive efficiency in cattle
JP2018529377A (ja) 所望のハプロタイプ中の外来対立遺伝子の存在を同定する方法
Shirak et al. Quantitative trait loci on LGs 9 and 14 affect the reproductive interaction between two Oreochromis species, O. niloticus and O. aureus
JP2010533491A (ja) 乳生産動物および乳業産物のゲノムマーカー指数を改善する方法
Smaragdov Genomic selection as a possible accelerator of traditional selection
Dentine et al. Marker-assisted selection
Borakhatariya et al. Genomic Selection in Dairy Cattles: a Review
Chhotaray et al. Genomic Evaluation of Dairy Sires: The Process, Challenges, and Prospects
Goddard The use of high density genotyping in animal health
Albers et al. The future of molecular genetics in poultry breeding.
Chhotaray et al. Implementation of Genomic Selection under the Indian Scenario through Utilizing the Vast Repository of Female Datasets
Zhu et al. Genomic Prediction: Enhancing Breeding Strategies for Complex Traits in Livestock
Rolf Genomic Selection: Delivering on the Promise
Dekkers Implementation of marker assisted selection into breeding programs.
Van Tassell et al. Current directions in cattle genomics research
Imumorin Quantitative trait loci mapping of genomic imprinting effects in Bos taurus x Bos indicus cattle
Nalaila Sungael Michael Nalaila

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 10 (DEZ) ANOS CONTADOS A PARTIR DE 20/08/2019, OBSERVADAS AS CONDICOES LEGAIS. (CO) 10 (DEZ) ANOS CONTADOS A PARTIR DE 20/08/2019, OBSERVADAS AS CONDICOES LEGAIS

B25G Requested change of headquarter approved

Owner name: AGRICULTURE VICTORIA SERVICES PTY LIMITED (AU)