BRPI0812744B1 - Métodos para melhoramento molecular direcionado por sequência - Google Patents
Métodos para melhoramento molecular direcionado por sequência Download PDFInfo
- Publication number
- BRPI0812744B1 BRPI0812744B1 BRPI0812744-1A BRPI0812744A BRPI0812744B1 BR PI0812744 B1 BRPI0812744 B1 BR PI0812744B1 BR PI0812744 A BRPI0812744 A BR PI0812744A BR PI0812744 B1 BRPI0812744 B1 BR PI0812744B1
- Authority
- BR
- Brazil
- Prior art keywords
- sequence
- nucleic acid
- dna
- sequencing
- locus
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 133
- 230000006872 improvement Effects 0.000 title description 33
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 205
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 94
- 230000001488 breeding effect Effects 0.000 claims abstract description 83
- 238000009395 breeding Methods 0.000 claims abstract description 76
- 239000003550 marker Substances 0.000 claims abstract description 57
- 238000012163 sequencing technique Methods 0.000 claims description 111
- 239000002773 nucleotide Substances 0.000 claims description 97
- 125000003729 nucleotide group Chemical group 0.000 claims description 92
- 108700028369 Alleles Proteins 0.000 claims description 73
- 108090000623 proteins and genes Proteins 0.000 claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 31
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 21
- 230000001965 increasing effect Effects 0.000 claims description 20
- 238000012165 high-throughput sequencing Methods 0.000 claims description 14
- 108020004414 DNA Proteins 0.000 claims description 12
- 230000009418 agronomic effect Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000007894 restriction fragment length polymorphism technique Methods 0.000 claims description 7
- 235000018102 proteins Nutrition 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 6
- 108091035707 Consensus sequence Proteins 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 208000035240 Disease Resistance Diseases 0.000 claims description 4
- 108091092878 Microsatellite Proteins 0.000 claims description 4
- 235000014113 dietary fatty acids Nutrition 0.000 claims description 4
- 239000000194 fatty acid Substances 0.000 claims description 4
- 229930195729 fatty acid Natural products 0.000 claims description 4
- 150000004665 fatty acids Chemical class 0.000 claims description 4
- 235000013311 vegetables Nutrition 0.000 claims description 4
- 241000607479 Yersinia pestis Species 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000002363 herbicidal effect Effects 0.000 claims description 3
- 239000004009 herbicide Substances 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 241000238631 Hexapoda Species 0.000 claims description 2
- 235000013361 beverage Nutrition 0.000 claims description 2
- 230000023852 carbohydrate metabolic process Effects 0.000 claims description 2
- 235000021256 carbohydrate metabolism Nutrition 0.000 claims description 2
- 230000004129 fatty acid metabolism Effects 0.000 claims description 2
- 239000000835 fiber Substances 0.000 claims description 2
- 239000004459 forage Substances 0.000 claims description 2
- 230000012010 growth Effects 0.000 claims description 2
- 235000016709 nutrition Nutrition 0.000 claims description 2
- 239000003415 peat Substances 0.000 claims description 2
- 230000022558 protein metabolic process Effects 0.000 claims description 2
- 235000013599 spices Nutrition 0.000 claims description 2
- 108020005120 Plant DNA Proteins 0.000 claims 4
- 230000036512 infertility Effects 0.000 claims 1
- 239000000203 mixture Substances 0.000 abstract description 27
- 238000009825 accumulation Methods 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 241000196324 Embryophyta Species 0.000 description 113
- 238000003752 polymerase chain reaction Methods 0.000 description 85
- 108020004707 nucleic acids Proteins 0.000 description 63
- 102000039446 nucleic acids Human genes 0.000 description 63
- 239000000523 sample Substances 0.000 description 60
- 230000002068 genetic effect Effects 0.000 description 42
- 102000054766 genetic haplotypes Human genes 0.000 description 38
- 230000000694 effects Effects 0.000 description 34
- 108091034117 Oligonucleotide Proteins 0.000 description 33
- 239000000047 product Substances 0.000 description 28
- 230000000306 recurrent effect Effects 0.000 description 25
- 235000010469 Glycine max Nutrition 0.000 description 23
- 244000068988 Glycine max Species 0.000 description 23
- 240000008042 Zea mays Species 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 230000002349 favourable effect Effects 0.000 description 18
- 108700019146 Transgenes Proteins 0.000 description 17
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 15
- 238000011161 development Methods 0.000 description 15
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 14
- 238000013507 mapping Methods 0.000 description 14
- 230000000692 anti-sense effect Effects 0.000 description 13
- 238000003976 plant breeding Methods 0.000 description 13
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 12
- 238000003556 assay Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 11
- 210000000349 chromosome Anatomy 0.000 description 11
- 238000001514 detection method Methods 0.000 description 11
- 239000012634 fragment Substances 0.000 description 10
- 230000035772 mutation Effects 0.000 description 10
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 9
- 230000003321 amplification Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 9
- 235000005822 corn Nutrition 0.000 description 9
- 238000003205 genotyping method Methods 0.000 description 9
- 238000003199 nucleic acid amplification method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000009261 transgenic effect Effects 0.000 description 9
- 235000007244 Zea mays Nutrition 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 229960004488 linolenic acid Drugs 0.000 description 8
- 238000000746 purification Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 241001057636 Dracaena deremensis Species 0.000 description 7
- DTOSIQBPPRVQHS-PDBXOOCHSA-N alpha-linolenic acid Chemical compound CC\C=C/C\C=C/C\C=C/CCCCCCCC(O)=O DTOSIQBPPRVQHS-PDBXOOCHSA-N 0.000 description 7
- 235000020661 alpha-linolenic acid Nutrition 0.000 description 7
- KQQKGWQCNNTQJW-UHFFFAOYSA-N linolenic acid Natural products CC=CCCC=CCC=CCCCCCCCC(O)=O KQQKGWQCNNTQJW-UHFFFAOYSA-N 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 241000894007 species Species 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 5
- 230000009850 completed effect Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 108020004999 messenger RNA Proteins 0.000 description 5
- 238000002703 mutagenesis Methods 0.000 description 5
- 231100000350 mutagenesis Toxicity 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000005204 segregation Methods 0.000 description 5
- 235000004977 Brassica sinapistrum Nutrition 0.000 description 4
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 4
- 240000007594 Oryza sativa Species 0.000 description 4
- 235000007164 Oryza sativa Nutrition 0.000 description 4
- 108020004459 Small interfering RNA Proteins 0.000 description 4
- 244000062793 Sorghum vulgare Species 0.000 description 4
- 241000482268 Zea mays subsp. mays Species 0.000 description 4
- 230000010165 autogamy Effects 0.000 description 4
- 230000002759 chromosomal effect Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 108091008146 restriction endonucleases Proteins 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 244000105624 Arachis hypogaea Species 0.000 description 3
- 235000010777 Arachis hypogaea Nutrition 0.000 description 3
- 235000000832 Ayote Nutrition 0.000 description 3
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 description 3
- 235000006008 Brassica napus var napus Nutrition 0.000 description 3
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 description 3
- 244000188595 Brassica sinapistrum Species 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 3
- 240000004244 Cucurbita moschata Species 0.000 description 3
- 235000009854 Cucurbita moschata Nutrition 0.000 description 3
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 244000299507 Gossypium hirsutum Species 0.000 description 3
- 240000004658 Medicago sativa Species 0.000 description 3
- 108700011259 MicroRNAs Proteins 0.000 description 3
- 229920002472 Starch Polymers 0.000 description 3
- 244000098338 Triticum aestivum Species 0.000 description 3
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 3
- 239000002253 acid Substances 0.000 description 3
- 150000001413 amino acids Chemical group 0.000 description 3
- 229960002685 biotin Drugs 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 239000011616 biotin Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000002299 complementary DNA Substances 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 238000011049 filling Methods 0.000 description 3
- 238000001502 gel electrophoresis Methods 0.000 description 3
- 230000009368 gene silencing by RNA Effects 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 238000007403 mPCR Methods 0.000 description 3
- 235000009973 maize Nutrition 0.000 description 3
- 230000001404 mediated effect Effects 0.000 description 3
- 230000021121 meiosis Effects 0.000 description 3
- 230000011987 methylation Effects 0.000 description 3
- 238000007069 methylation reaction Methods 0.000 description 3
- 239000002679 microRNA Substances 0.000 description 3
- 238000002493 microarray Methods 0.000 description 3
- 239000003147 molecular marker Substances 0.000 description 3
- 239000003921 oil Substances 0.000 description 3
- 235000019198 oils Nutrition 0.000 description 3
- 235000015136 pumpkin Nutrition 0.000 description 3
- 238000000275 quality assurance Methods 0.000 description 3
- 238000010839 reverse transcription Methods 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 239000008107 starch Substances 0.000 description 3
- 235000019698 starch Nutrition 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 108700026220 vif Genes Proteins 0.000 description 3
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 235000017060 Arachis glabrata Nutrition 0.000 description 2
- 235000018262 Arachis monticola Nutrition 0.000 description 2
- 244000075850 Avena orientalis Species 0.000 description 2
- 235000007319 Avena orientalis Nutrition 0.000 description 2
- 235000011299 Brassica oleracea var botrytis Nutrition 0.000 description 2
- 240000003259 Brassica oleracea var. botrytis Species 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 2
- 239000003298 DNA probe Substances 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- 241000234643 Festuca arundinacea Species 0.000 description 2
- 206010071602 Genetic polymorphism Diseases 0.000 description 2
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- ZRALSGWEFCBTJO-UHFFFAOYSA-N Guanidine Chemical compound NC(N)=N ZRALSGWEFCBTJO-UHFFFAOYSA-N 0.000 description 2
- 240000005979 Hordeum vulgare Species 0.000 description 2
- 235000007340 Hordeum vulgare Nutrition 0.000 description 2
- TWRXJAOTZQYOKJ-UHFFFAOYSA-L Magnesium chloride Chemical compound [Mg+2].[Cl-].[Cl-] TWRXJAOTZQYOKJ-UHFFFAOYSA-L 0.000 description 2
- 235000017587 Medicago sativa ssp. sativa Nutrition 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 108091030071 RNAI Proteins 0.000 description 2
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 2
- 108010006785 Taq Polymerase Proteins 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000014633 carbohydrates Nutrition 0.000 description 2
- 150000001720 carbohydrates Chemical class 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 244000038559 crop plants Species 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001066 destructive effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002922 epistatic effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000000126 in silico method Methods 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000020232 peanut Nutrition 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 235000012424 soybean oil Nutrition 0.000 description 2
- 239000003549 soybean oil Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 240000004507 Abelmoschus esculentus Species 0.000 description 1
- 241001133760 Acoelorraphe Species 0.000 description 1
- 241000589158 Agrobacterium Species 0.000 description 1
- 240000007241 Agrostis stolonifera Species 0.000 description 1
- 235000005254 Allium ampeloprasum Nutrition 0.000 description 1
- 240000006108 Allium ampeloprasum Species 0.000 description 1
- 244000291564 Allium cepa Species 0.000 description 1
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 1
- 108090001008 Avidin Proteins 0.000 description 1
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 241000219310 Beta vulgaris subsp. vulgaris Species 0.000 description 1
- 235000011331 Brassica Nutrition 0.000 description 1
- 241000219198 Brassica Species 0.000 description 1
- 240000002791 Brassica napus Species 0.000 description 1
- 240000007124 Brassica oleracea Species 0.000 description 1
- 235000003899 Brassica oleracea var acephala Nutrition 0.000 description 1
- 235000011301 Brassica oleracea var capitata Nutrition 0.000 description 1
- 235000017647 Brassica oleracea var italica Nutrition 0.000 description 1
- 235000001169 Brassica oleracea var oleracea Nutrition 0.000 description 1
- 235000010149 Brassica rapa subsp chinensis Nutrition 0.000 description 1
- 235000000536 Brassica rapa subsp pekinensis Nutrition 0.000 description 1
- 241000499436 Brassica rapa subsp. pekinensis Species 0.000 description 1
- 101100468275 Caenorhabditis elegans rep-1 gene Proteins 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 1
- 244000020518 Carthamus tinctorius Species 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 108091060290 Chromatid Proteins 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 244000060011 Cocos nucifera Species 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 241000219112 Cucumis Species 0.000 description 1
- 235000015510 Cucumis melo subsp melo Nutrition 0.000 description 1
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 240000004585 Dactylis glomerata Species 0.000 description 1
- 244000000626 Daucus carota Species 0.000 description 1
- 235000002767 Daucus carota Nutrition 0.000 description 1
- 206010052806 Drug tolerance increased Diseases 0.000 description 1
- 240000006927 Foeniculum vulgare Species 0.000 description 1
- 235000004204 Foeniculum vulgare Nutrition 0.000 description 1
- 241000204888 Geobacter sp. Species 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 235000009432 Gossypium hirsutum Nutrition 0.000 description 1
- 244000020551 Helianthus annuus Species 0.000 description 1
- 235000003222 Helianthus annuus Nutrition 0.000 description 1
- 206010020649 Hyperkeratosis Diseases 0.000 description 1
- 108091029795 Intergenic region Proteins 0.000 description 1
- 235000003228 Lactuca sativa Nutrition 0.000 description 1
- 240000008415 Lactuca sativa Species 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 240000006240 Linum usitatissimum Species 0.000 description 1
- 235000004431 Linum usitatissimum Nutrition 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 235000010624 Medicago sativa Nutrition 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- CHJJGSNFBQVOTG-UHFFFAOYSA-N N-methyl-guanidine Natural products CNC(N)=N CHJJGSNFBQVOTG-UHFFFAOYSA-N 0.000 description 1
- 240000007817 Olea europaea Species 0.000 description 1
- 238000002944 PCR assay Methods 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 240000003889 Piper guineense Species 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 235000010582 Pisum sativum Nutrition 0.000 description 1
- 240000004713 Pisum sativum Species 0.000 description 1
- 241000209049 Poa pratensis Species 0.000 description 1
- 244000184734 Pyrus japonica Species 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 238000001069 Raman spectroscopy Methods 0.000 description 1
- 244000088415 Raphanus sativus Species 0.000 description 1
- 235000006140 Raphanus sativus var sativus Nutrition 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 241000115957 Saccharata Species 0.000 description 1
- 241000209051 Saccharum Species 0.000 description 1
- 240000000111 Saccharum officinarum Species 0.000 description 1
- 235000007201 Saccharum officinarum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 235000002597 Solanum melongena Nutrition 0.000 description 1
- 244000061458 Solanum melongena Species 0.000 description 1
- 235000007230 Sorghum bicolor Nutrition 0.000 description 1
- 238000002105 Southern blotting Methods 0.000 description 1
- 235000009337 Spinacia oleracea Nutrition 0.000 description 1
- 244000300264 Spinacia oleracea Species 0.000 description 1
- 241000044578 Stenotaphrum secundatum Species 0.000 description 1
- 235000021536 Sugar beet Nutrition 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 241000209149 Zea Species 0.000 description 1
- FJJCIZWZNKZHII-UHFFFAOYSA-N [4,6-bis(cyanoamino)-1,3,5-triazin-2-yl]cyanamide Chemical compound N#CNC1=NC(NC#N)=NC(NC#N)=N1 FJJCIZWZNKZHII-UHFFFAOYSA-N 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 239000000074 antisense oligonucleotide Substances 0.000 description 1
- 238000012230 antisense oligonucleotides Methods 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 229920001222 biopolymer Polymers 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005251 capillar electrophoresis Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000004756 chromatid Anatomy 0.000 description 1
- 108091036078 conserved sequence Proteins 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 235000012343 cottonseed oil Nutrition 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- SWSQBOPZIKWTGO-UHFFFAOYSA-N dimethylaminoamidine Natural products CN(C)C(N)=N SWSQBOPZIKWTGO-UHFFFAOYSA-N 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000005489 dwarf bean Nutrition 0.000 description 1
- 244000013123 dwarf bean Species 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000004520 electroporation Methods 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- ZMMJGEGLRURXTF-UHFFFAOYSA-N ethidium bromide Chemical compound [Br-].C12=CC(N)=CC=C2C2=CC=C(N)C=C2[N+](CC)=C1C1=CC=CC=C1 ZMMJGEGLRURXTF-UHFFFAOYSA-N 0.000 description 1
- 229960005542 ethidium bromide Drugs 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 239000003925 fat Substances 0.000 description 1
- 235000019197 fats Nutrition 0.000 description 1
- 235000004426 flaxseed Nutrition 0.000 description 1
- 235000013312 flour Nutrition 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- XDDAORKBJWWYJS-UHFFFAOYSA-N glyphosate Chemical compound OC(=O)CNCP(O)(O)=O XDDAORKBJWWYJS-UHFFFAOYSA-N 0.000 description 1
- 235000021384 green leafy vegetables Nutrition 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000009399 inbreeding Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007169 ligase reaction Methods 0.000 description 1
- 229910001629 magnesium chloride Inorganic materials 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 230000033607 mismatch repair Effects 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003203 nucleic acid sequencing method Methods 0.000 description 1
- 235000014571 nuts Nutrition 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000037452 priming Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001938 protoplast Anatomy 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000013094 purity test Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 108091035233 repetitive DNA sequence Proteins 0.000 description 1
- 102000053632 repetitive DNA sequence Human genes 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 229930000044 secondary metabolite Natural products 0.000 description 1
- 230000003248 secreting effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000002798 spectrophotometry method Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000010972 statistical evaluation Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000002198 surface plasmon resonance spectroscopy Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 235000015112 vegetable and seed oil Nutrition 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6888—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
- C12Q1/6895—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/20—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/13—Plant traits
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Abstract
método de melhoramento assistido por marcador. a presente invenção refere-se a métodos de melhoramento e composições para potencializar o germoplasma de uma planta pelo uso de informação direta da sequência de ácidos nucleicos. os métodos descrevem a identificação e o acúmulo de sequências de ácidos nucleicos preferenciais no germoplasma de uma população de plantas de melhoramento.
Description
[001] Este pedido de patente reivindica a prioridade sobre o Pedido de Patente Provisório U.S. N° 60/942.707 (depositado em 8 de junho de 2007), que está incorporado por referência neste pedido em sua totalidade.
[002] A presente invenção refere-se ao melhoramento vegetal. Mais especificamente, esta invenção relaciona-se ao uso de tecnologia de sequenciamento de alto rendimento em atividades relacionadas à melhora de germoplasma.
[003] Os objetivos primários do melhoramento vegetal são selecionar um par ótimo de parentais para fazer um cruzamento e então selecionar uma ou mais progênies superiores resultantes daquele cruzamento. Em culturas híbridas, um terceiro objetivo é identificar um verificador para produzir semente híbrida de alto desempenho. O melhoramento vegetal tradicional depende da observação visual e de dados de desempenho das plantas ou linhagens a fim de fazer seleções para cumprir um dos objetivos acima mencionados.
[004] Nos últimos anos, o melhoramento molecular tem demonstrado promessa de melhora do processo de melhoramento e aumento da taxa de ganho genético. Em melhoramento molecular, marcadores moleculares fornecem uma base para seleções de parental, progênie ou verificador; este processo pode ser usado em conjunto com a seleção baseada no fenótipo também. Inclusão de marcadores genéticos em programas de melhoramento acelerou a identificação e o acúmulo de traços valiosos em agrupamentos de germoplasma comparados com aquele alcançado com base somente em dados fenotípicos. Neste pedido, "germoplasma" inclui germoplasma de melhoramento, populações de melhoramento, coleção de linhagens puras de elite, populações de indivíduos de cruzamento randômico e cruzamentos biparen- tais.
[005] Para o melhoramento molecular ser efetivo, as diferenças em genótipos marcadores devem ser associadas hereditariamente a um ou mais traços fenotípicos ou de desempenho. Estas associações são estabelecidas pela correlação dos genótipos marcadores a segregação de linhagens ou populações para um ou mais traços. Alelos de marcador genético (um "alelo" é uma sequência alternativa em um locus) são usados para identificar plantas que contêm um genótipo desejado em um ou mais loci, e que são esperados transferir o genótipo desejado, junto com um fenótipo desejado para um ou mais traços, à sua progênie. Marcadores que são altamente correlacionados com um fenótipo são assumidos ser geneticamente ligados ao traço, dessa forma o marcador então pode ser usado como uma base para decisões de seleção em vez da avaliação do traço per se. Marcadores que não são correlacionados serão herdados independentemente do traço e não são úteis para seleções, mas podem ser valiosos em comparação de similaridades e/ou mensuração de distâncias genéticas entre variedades e linhagens. Idealmente, o marcador representará a variação genômica real responsável por um traço e por isso sempre segregará com o traço, embora as correlações possam ser mascaradas por fenômenos, tais como interações ambientais ou efeitos epistáticos.
[006] Plataformas de marcador iniciais para melhoramento molecular não necessitam do conhecimento a priori da sequência subjacente. Estes marcadores foram baseados em polimorfismos de comprimento de fragmento de restrição (RFLPs). Sondas de DNA randômi- cas ou direcionadas foram usadas em protocolos de hibridização por Southern para identificar fragmentos alvo cujo tamanho variou dependendo da posição e distância entre um par de sítios de reconhecimento de enzima de restrição. Estas diferenças no tamanho podem ser correlacionadas a traços em populações teste. As sondas de DNA então foram usadas como marcadores que podem detectar os polimorfismos de comprimento de fragmento de restrição subjacentes e por sua vez serem usados para predizer um traço correlacionado. Outros tipos de marcadores foram usados que necessitam do conhecimento a priori da sequência subjacente e incluem mas não são limitados à impressão digital usando polimorfismos de comprimento de fragmento amplificados (AFLPs) ou iniciadores de PCR universais (isto é, iniciadores RICE).
[007] Nos últimos anos, marcadores foram desenvolvidos com base no conhecimento de uma sequência subjacente. Por exemplo, a sequência simples repetitiva ou marcadora de microssatélite (SSR) depende de PCR e eletroforese em gel para elucidar a variação no comprimento de sequências repetitivas de DNA. As diferenças no comprimento da repetição, como reveladas pelos marcadores, podem correlacionar-se a traços associados se a repetição alvo estiver geneticamente ligada ao traço.
[008] Entretanto, plataformas de marcador tradicionais são subó- timas porque não são ajustadas para automação ou técnicas de alto rendimento. Além disso, plataformas de marcador tradicionais são suscetíveis a associações de traço do marcador falsas em que a identidade de um genótipo entre duas linhagens pode não refletir um parental comum mas uma sequência convergente, que é problemática para rastrear alelos de marcador específicos através de múltiplas gerações.
[009] Outros tipos de variações úteis como marcadores tradicio- nais são polimorfismos de nucleotídeo único (SNPs). Estes são modificações de base única que se diferenciam entre duas linhagens e segregarão com um traço ao qual estão geneticamente ligados. SNPs podem ser detectados por uma variedade de tecnologias de marcador comercialmente disponíveis. Os marcadores baseados em SNPs têm ganho popularidade devido à facilidade e acurácia de detecção, com-patibilidade com sistemas de informação e baixo custo. Entretanto, os marcadores de SNP são ainda uma ferramenta indireta para interrogar a sequência subjacente e um marcador SNP é restrito para detectar somente dois alelos, não os quatro nucleotídeos possíveis que poderiam ser encontrados em qualquer dada posição nucleotídica.
[0010] Dessa forma, há uma necessidade na técnica de métodos para determinar rapidamente e exatamente a informação de sequência direta para pelo menos um genoma vegetal com o objetivo de facilitar atividades de melhoramento vegetal, tais como desenvolvimento de linhagem, análises de diversidade de germoplasma, exploração de ale- lo raro, teste de pureza, garantia da qualidade, introgressão de regiões genômicas específicas, empilhamento de regiões genômicas, predição do desempenho de linhagem e predição do desempenho de híbrido.
[0011] Esta invenção descreve novos métodos que utilizam se- quenciamento de alto rendimento e metodologias de melhoramento molecular para permitir o uso da informação de sequenciamento direto em melhoramento vegetal molecular. A invenção também inclui meios para escolher seletivamente loci específicos e amostras de etiquetas de DNA antes da determinação de sequência. Tomados em conjunto, os métodos da invenção permitem a melhoradores vegetais melhores ferramentas para seleção parental, seleção de progênie, escolha de combinações de verificador, desenvolvimento de pedigrees, impressões digitais de amostras, classificação de diversidade haplotípica, ga- rantia de qualidade, avaliação de diversidade de germoplasma, men- suração do progresso de melhoramento, fornecimento de descrições de variedade ou linhagem e para construir bancos de dados de associações de sequência a dados de traço e desempenho. Tais bancos de dados fornecem a base para calcular estimativas de efeito de ácidos nucleicos para um ou mais traços, em que associações podem ser feitas de novo ou pela utilização de históricos de dados de associação de traço à sequência de ácidos nucleicos.
[0012] A presente invenção fornece métodos para Seleção Direcionada por Sequência (SDS), Melhoramento Direcionado por Sequência (SDB) e Impressão digital Direcionada por Sequência (SDF) e sua nova aplicação para fazer seleções parentais, seleções de progênie, combinações de verificador, introgressão de variantes alélicas e seleção direcionada de pelo menos uma variante entre pelo menos duas entradas de germoplasma, impressões digitais, pedigrees e para construir bancos de dados haplotípicos e informação fenotípica que pode ser usada para calcular estimativas de efeito de sequência de ácidos nucleicos e, enfim, valores de melhoramento. Esta informação a priori facilita a produção de decisão de Melhoramento Preditivo Direcionado por Sequência (SDPB).
[0013] Na presente invenção, as seleções de melhoramento são conduzidas diretamente em uma sequência, em vez de indiretamente em um marcador, base, em que uma primeira planta é cruzada com uma segunda planta que contém pelo menos uma sequência que é diferente da primeira sequência ou sequências vegetais; e pelo menos uma planta de progênie é selecionada pela detecção da sequência ou conjunto de sequências da primeira planta, em que a planta de progê- nie compreende em seu genoma uma ou mais sequências de interesse da primeira planta e pelo menos uma sequência de interesse da segunda planta; e a planta de progênie é usada em atividades relacio- nadas à melhora de germoplasma, neste pedido definida como incluindo o uso de planta para desenvolvimento de linhagem e variedade, desenvolvimento de híbrido, seleção de evento transgênico, produção de cruzamentos de melhoramento, teste e aprimoramento de uma planta através de autofertilização, purificação de linhagens ou subli- nhagens, usando planta ou partes da mesma para transformação, usando plantas ou partes das mesmas para candidatos para constru- tos de expressão, e usando planta ou partes da mesma para mutagê- nese.
[0014] A presente invenção inclui um método para melhoramento de uma planta, tal como milho (Zea mays), soja (Glycine max), algodão (Gossypium hirsutum), amendoim (Arachis hypogaea), cevada (Hordeum vulgare); aveia (Avena sativa); dáctila (Dactylis glomerata); arroz (Oryza sativa, incluindo variedades indica e japonica); sorgo (Sorgo bicolor); cana de açúcar (Saccharum sp); festuca alta (Festuca arundinacea); espécies de gramínea (por exemplo espécies: Agrostis stolonifera, Poa pratensis, Stenotaphrum secundatum); trigo (Triticum aestivum) e alfafa (Medicago sativa), membros do gênero Brassica, brócolis, repolho, cenoura, couve-flor, repolho chinês, pepino, feijão, berinjela, erva-doce, feijões de jardim, abóbora, alho-poró, alface, melão, quiabo, cebola, ervilha, pimentão, abóbora, rabanete, espinafre, abóbora, milho doce, tomate, melancia, plantas ornamentais, e outras frutas, hortaliças, tubérculos, semente oleaginosa, e verduras, em que as culturas de semente oleaginosa incluem soja, canola, óleo de semente de canola, palma, girassol, azeitona, milho, algodão em rama, amendoim, linhaça, açafroa e coco, com traços aumentados compreendendo pelo menos uma sequência de interesse, definida ainda como conferindo uma propriedade preferencial selecionada a partir do grupo consistindo em tolerância à herbicida, resistência à doença, resistência a inseto ou praga, metabolismo de ácido graxo, proteína ou carboidrato, rendimento de grão aumentado, óleo aumentado, conteúdo nutricional aumentado, taxas de crescimento aumentadas, tolerância a estresse aumentada, maturidade preferencial, propriedades or- ganolépticas aumentadas, características morfológicas alteradas, outros traços agronômicos, traços para usos industriais, ou traços melhorados de apelo ao consumidor, em que os ditos traços podem ser não transgênicos ou transgênicos.
[0015] Em uma modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende a determinação da sequência de uma pluralidade de ácidos nucleicos dentro do geno- ma de pelo menos uma ou mais plantas em uma população de melhoramento; associação de cada uma das sequências de ácidos nucleicos com um valor numérico em que o valor numérico está relacionado a um ou mais traços fenotípicos; e tomada de uma decisão de melhoramento vegetal de uma ou mais plantas com base na associação.
[0016] Em outra modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende o fornecimento de uma população de melhoramento compreendendo uma ou mais plantas em que pelo menos um ácido nucleico é sequenciado para pelo menos um locus de cada planta na população; uso de associações históricas de traço marcador fenotípico para determinar uma estimativa de efeito da sequência de ácido nucleico de uma sequência de ácido nucleico em um locus; e classificação de sequências de ácidos nuclei- cos com base na estimativa de efeito da sequência de ácido nucleico determinada de qualquer dado traço fenotípico. A classificação então é usada para tomar decisões de melhoramento vegetal.
[0017] Em outra modalidade, a invenção é direcionada a um método de melhoramento vegetal. O método compreende o estabelecimento de um mapa de impressão digital que define uma pluralidade de loci dentro do genoma de uma população de melhoramento; associa- ção a um alelo QTL com posição conhecida no mapa com um traço fenotípico em uma população de mapeamento; e análise da presença do alelo QTL e pelo menos uma sequência de ácido nucleico dentro da pluralidade de loci para predizer a expressão do traço fenotípico em uma população diferente da população de mapeamento.
[0018] Em outra modalidade, a invenção é direcionada a um método de melhoramento assistido por marcador. O método compreende o fornecimento de uma população de melhoramento compreendendo pelo menos duas plantas e associação de pelo menos um traço fenotí- pico com um locus do genoma vegetal, desde que o locus seja definido por pelo menos uma sequência de ácido nucleico. A população é então analisada para a presença de pelo menos uma sequência de ácido nucleico do locus para predizer a expressão de pelo menos um traço fenotípico em uma planta da progênie da população de melho-ramento.
[0019] Em outra modalidade, a invenção é direcionada a um método de seleção de uma população de melhoramento para uso em um programa de melhoramento. O método compreende o fornecimento de pelo menos duas populações de melhoramento distintas; estabelecimento de um banco de dados de valores de melhoramento para pelo menos dois loci de até 10 centimorgans para cada população de melhoramento; classificação dos valores de melhoramento dos alelos de cada população de melhoramento; e seleção de uma população de melhoramento com um valor de melhoramento composto mais alto.
[0020] Áreas adicionais de aplicabilidade serão mais particularmente descritas abaixo em relação à descrição detalhada. Deve ser entendido que a descrição e exemplos específicos são destinados para fins de ilustração somente e não são destinados a limitar o escopo da presente descrição.
[0021] A figura 1 é um diagrama de fluxo genérico ilustrando o processo molecular de sequenciamento de ácido nucleico de alto rendimento.
[0022] A figura 2 ilustra um método para redução da complexidade dos moldes de ácidos nucleicos para digestão seletiva.
[0023] A figura 3 ilustra um método para redução da complexidade visada a partir do transcriptoma.
[0024] A figura 4 ilustra um método para redução da complexidade visada pela amplificação de pelo menos uma região genômica de interesse.
[0025] A figura 5 ilustra um método para redução da complexidade visada, incluindo etiquetagem da amostra, pela extensão/ligação alelo específica.
[0026] A figura 6 ilustra um método para a multiplexação de amostras usando etiquetas de DNA anexadas aos ácidos nucleicos molde através de ligação.
[0027] A figura 7 ilustra um método da multiplexação de amostras usando etiquetas de DNA anexadas aos ácidos nucleicos molde através de PCR.
[0028] A figura 8 ilustra um fluxo de trabalho para sequenciamento de ácido nucleico de alto rendimento.
[0029] A figura 9 ilustra um método para preparação de amostras para seleção direcionada por sequência para um SNP e uma indel.
[0030] A figura 10 é um gráfico de dispersão dos resultados de genotipagem com o objetivo de seleção direcionada por sequência usando sequenciamento de alto rendimento para o SNP Fad3b como descrito no Exemplo 1.
[0031] A figura 11 é um gráfico de dispersão dos resultados de genotipagem com o objetivo de seleção direcionada por sequência usando sequenciamento de alto rendimento para a indel Fad3c como descrito no Exemplo 1.
[0032] A figura 12 ilustra uma estratégia para adicionar etiquetas de DNA de amostra com extensão/ligação alelo-específica como descrito no Exemplo 4.
[0033] A figura 13 ilustra a taxa de êxito das impressões digitais usando tecnologia de sequenciamento de alto rendimento para 1536 SNPs em 96 variedades de soja como descrito no Exemplo 4.
[0034] As definições e métodos fornecidos definem a presente invenção e guiam aqueles versados ordinários na técnica na prática da presente invenção. A menos que de outra maneira observados, os termos devem ser entendidos de acordo com o uso convencional por aqueles versados na técnica relevante. Definições de termos comuns em biologia molecular também podem ser encontradas em Albers et al., Molecular Biology of The Cell, 5th Edition, Garland Science Publishing, Inc: New York, 2007; Rieger et al., Glossary of Genetics: Classical and Molecular, 5th edition, Springer-Verlag: New York, 1991; King et al, A Dictionary of Genetics, 6th ed, Oxford University Press: New York, 2002; e Lewin, Genes IX, Oxford University Press: New York, 2007. A nomenclatura de bases de DNA como apresentadas em CFR 37 § 1.822 é usada.
[0035] Um "alelo" refere-se a uma sequência alternativa em um locus particular; o comprimento de um alelo pode ser tão pequeno como 1 base nucleotídica. A sequência alélica pode ser denotada como sequência de ácido nucleico ou como sequência de aminoácido que é codificada pela sequência de ácido nucleico.
[0036] Um "locus" é uma posição em uma sequência genômica que é normalmente encontrada por um ponto de referência; por exemplo, uma sequência de DNA curta que é um gene, ou parte de um gene ou região intergênica. Um locus pode referir-se a uma posição nu- cleotídica em um ponto de referência em um cromossomo, tal como uma posição da extremidade do cromossomo. A lista ordenada de loci conhecidos para um genoma particular é chamada mapa genético. Uma variante da sequência de DNA em um dado locus é chamada um alelo e a variação em um locus, isto é, dois ou mais alelos, constitui um polimorfismo. Os sítios polimórficos de qualquer sequência de ácido nucleico podem ser determinados por comparação das sequências de ácidos nucleicos em um ou mais loci em duas ou mais entradas de germoplasma.
[0037] Como usado neste pedido, uma "sequência de ácido nu- cleico" compreende uma região contígua de nucleotídeos em um locus dentro do genoma. Além disso, uma sequência de ácido nucleico, como usado neste pedido, pode compreender um ou mais haplótipos, porções de um ou mais haplótipos, um ou mais genes, porções de um ou mais genes, um ou mais QTL, e porções de um ou mais QTL. Além disso, uma pluralidade de sequências de ácidos nucleicos pode compreender um ou mais haplótipos, porções de um ou mais haplótipos, um ou mais genes, porções de um ou mais genes, um ou mais QTL, e porções de um ou mais QTL. A sequência pode originar-se de um molde de DNA ou RNA, direta ou indiretamente (isto é, cDNA obtido da transcrição reversa de mRNA).
[0038] Como usado neste pedido, "polimorfismo" significa a presença de uma ou mais variações de uma sequência de ácido nucleico em um ou mais loci em uma população de um ou mais indivíduos. A variação pode compreender mas não é limitada a uma ou mais modificações de bases, a inserção de um ou mais nucleotídeos ou a deleção de um ou mais nucleotídeos. Um polimorfismo pode resultar de processos randômicos na replicação de ácido nucleico, através de muta- gênese, em consequência de elementos genômicos móveis, da variação de número de cópia e durante o processo de meiose, tais como crossing over desigual, duplicação de genoma e quebras e fusões cromossômicas. A variação pode ser comumente encontrada, ou pode existir em baixa frequência dentro de uma população, o primeiro tendo maior utilidade no melhoramento vegetal geral e o segundo pode ser associado com a variação fenotípica rara mas importante. Polimorfismos úteis podem incluir polimorfismos de nucleotídeo único (SNPs), inserções ou deleções em sequência de DNA (Indels), repetições de sequência simples da sequência de DNA (SSRs) um polimorfismo de comprimento de fragmento de restrição e uma etiqueta de SNP. Um marcador genético, um gene, uma sequência derivada de DNA, um haplótipo, uma sequência derivada de RNA, um promotor, uma região 5' não traduzida de um gene, uma região 3' não traduzida de um gene, microRNA, siRNA, um QTL, um marcador satélite, um transgene, mRNA, ds mRNA, um perfil transcricional e um padrão de metilação podem compreender polimorfismos. Além disso, a presença, ausência, ou variação no número de cópias dos precedentes podem compreender um polimorfismo.
[0039] Como usado neste pedido, "estimativa de efeito de ácido nucleico" significa uma estimativa de efeito predita para uma sequência de ácido nucleico refletindo a associação com um ou mais traços fenotípicos, em que as ditas associações podem ser feitas de novo ou pela utilização de dados de associação de traço da sequência histórica de ácidos nucleicos.
[0040] Como usado neste pedido, "valor de melhoramento" significa um cálculo com base em estimativas de efeito de sequência de ácidos nucleicos e valores de frequência de sequência de ácidos nuclei- cos, o valor de melhoramento de uma sequência de ácido nucleico específica em relação a outras sequências de ácidos nucleicos no mesmo locus (isto é, janela haplotípica), ou através de loci (isto é, janelas haplotípicas), também pode ser determinado. Em outras palavras, a modificação na média da população pela fixação da dita sequência de ácido nucleico é determinada. Além disso, no contexto de avaliação do efeito de substituição de uma região específica no genoma, pela intro- gressão ou por um evento transgênico, os valores de melhoramento fornecem a base para comparação de sequências de ácidos nucleicos específicas para efeitos de substituição. Também, em culturas híbridas, o valor de melhoramento de sequências de ácidos nucleicos pode ser calculado no contexto da sequência de ácido nucleico no verificador usado para produzir o híbrido.
[0041] Como usado neste pedido, "genótipo" é a sequência de ácido nucleico real em um locus em uma planta individual. Ao contrário de um marcador genético, tal como um SNP, onde o genótipo compreende um nucleotídeo único, o genótipo identificado com a presente invenção é uma pluralidade de nucleotídeos, onde o comprimento do genótipo é contingente no comprimento da sequência de ácido nuclei- co. Notavelmente, um ensaio de marcador genético como conhecido na técnica (por exemplo, detecção de SNP através de TaqMan) detecta somente dois alelos. Uma vantagem da presente invenção é a capacidade de investigar diretamente os quatro nucleotídeos (adenina, A; timina, T; citosina, C; e guanina, G) simultaneamente em qualquer posição nucleotídica. Isto é, para qualquer posição do par de bases, haverá duas vezes a informação usando sequenciamento de ácido nu- cleico direto contra ensaios de marcador genéticos. Isto pode ser muito importante na determinação se duas linhagens compartilham DNA que é idêntico por descendência. Com um genótipo de SNP, somente pode-se avaliar se um par de bases de ácidos nucleicos alternativo existe em um locus de nucleotídeo único. Por exemplo, poderia investigar se duas linhagens têm um C ou um T em um locus de nucleotí- deo único e encontram que uma linhagem tem um C mas a outra não. Entretanto, diferente da avaliação direta da sequência no locus de nu- cleotídeo único, o ensaio de marcador genético não distinguirá uma reação falha ou se uma base alternativa, tal como uma adenina ou guanidina, está presente naquele locus. Por isso, a presente invenção fornece a maior certeza se uma dada região é idêntica por descendência pela observação da sequência de ácido nucleico daquela região.
[0042] Como usado neste pedido, uma sequência de ácido nuclei- co pode compreender 1 ou mais nucleotídeos (por exemplo, 2 ou mais nucleotídeos, 25 ou mais nucleotídeos, 250 ou mais nucleotídeos, 1.000 ou mais nucleotídeos, até 20.000 ou mais nucleotídeos). Em certas modalidades, fragmentos de sequência de ácidos nucleicos adjacentes podem ser ligados in vitro ou alinhados in silico com objetivo de obter uma sequência de ácido nucleico mais longa. Como usado neste pedido, uma sequência de ácido nucleico de cada uma de duas ou mais plantas individuais da mesma região genômica, que pode ou não estar associada com um ou mais valores de traço fenotípico, for-nece a base para decisões relacionadas a atividades de melhora de germoplasma, em que um ou mais loci podem ser avaliados. Saber se duas sequências em um locus são completamente idênticas ou se contêm combinações de loci idênticas e não idênticas pode ajudar na determinação se o loci tem o mesmo valor de traço, são ligadas aos mesmos traços ou são idênticas por descendência. Por isso, em outro aspecto, uma ou mais sequências de ácidos nucleicos de uma ou mais plantas individuais que são associadas com um valor de traço fenotípi- co podem fornecer a base para decisões relacionadas a atividades de melhora de germoplasma.
[0043] Como usado neste pedido, o termo "haplótipo" significa uma região cromossômica dentro de uma janela haplotípica. Tipicamente, as combinações de impressão digital marcadoras únicas em cada janela haplotípica definem e diferenciam haplótipos individuais daquela janela. Como usado neste pedido, um haplótipo é definido e diferenciado por uma ou mais sequências de ácidos nucleicos em um ou mais loci dentro de uma "janela haplotípica".
[0044] Como usado neste pedido, o termo "janela haplotípica" significa uma região cromossômica que é estabelecida por análises estatísticas conhecidas àqueles versados na técnica e está em desequilíbrio de ligação. Na técnica, identidade por estado entre dois indivíduos puros (ou dois gametas) em um ou mais loci marcadores moleculares localizados dentro desta região é tomado como evidência da identidade por descendência da região inteira, em que cada janela haplotípica inclui pelo menos um marcador molecular polimórfico. Como usado neste pedido, janelas haplotípicas são definidas por dois ou mais ge- nótipos de sequência de ácidos nucleicos. Janelas haplotípicas podem ser mapeadas ao longo de cada cromossomo no genoma e não necessariamente precisam ser contíguas. Janelas haplotípicas não são fixadas per se e, dada a quantidade aumentando continuamente de informação sobre sequência de ácido nucleico, esta invenção antecipa o número e o tamanho de janelas haplotípicas para desenvolver-se, com o número do aumento de janelas e sua respectiva redução de tamanhos, dessa forma resultando em um grau de confiança que aumenta continuamente na averiguação de identidade por descendência com base na identidade por estado de genótipos. Janelas haplotípicas são úteis no delineamento das sequências de ácidos nucleicos de interesse porque estas regiões genômicas tendem a ser herdadas como blocos de ligação e dessa forma são informativas para mapeamento de associação e para rastreamento através de múltiplas gerações.
[0045] Como usado neste pedido, "fenótipo" significa as características detectáveis de uma célula ou organismo que podem ser influenciadas pelo genótipo.
[0046] Como usado neste pedido, "marcador" significa uma característica detectável que pode ser usada para discriminar entre orga- nismos. Exemplos de tais características podem incluir marcadores genéticos, composição proteica, níveis proteicos, composição de óleo, níveis de óleo, composição de carboidrato, níveis de carboidrato, composição de ácido graxo, níveis de ácido graxo, composição de amino- ácido, níveis de aminoácido, biopolímeros, produtos farmacêuticos, composição de amido, níveis de amido, amido fermentável, rendimento de fermentação, eficiência de fermentação, rendimento energético, compostos secundários, metabólitos, características morfológicas e características agronômicas. Como usado neste pedido, "marcador genético" significa a sequência de ácido nucleico polimórfica ou característica de ácido nucleico.
[0047] Como usado neste pedido, "ensaio de marcador" significa um método para detectar um polimorfismo em um locus particular usando um método particular, por exemplo, mensuração de pelo menos um fenótipo (tal como cor de semente, cor de flor, ou outro traço visualmente detectável), polimorfismo de comprimento de fragmento de restrição (RFLP), extensão de base única, eletroforese, alinhamento de sequência, hibridização de oligonucleotídeo alelo-específica (ASO), DNA polimórfico amplificado randômico (RAPD), tecnologias baseadas em microarranjo e tecnologias de sequenciamento de ácidos nucleicos, etc.
[0048] Como usado neste pedido, "sequência consenso" significa uma sequência de DNA construída que identifica polimorfismos de nu- cleotídeo único e Indel em alelos em um locus. Sequência consenso pode ser baseada em qualquer fita de DNA no locus e determina a base nucleotídica de qualquer de cada SNP no locus e as bases nucleo- tídicas de todas as Indels no locus.
[0049] Dessa forma, embora uma sequência consenso possa não ser uma cópia de uma sequência de DNA real, uma sequência consenso é útil para desenhar precisamente iniciadores e sondas para polimorfismos reais no locus.
[0050] Como usado neste pedido, "ligação" refere-se à frequência relativa na qual os tipos de gametas são produzidos em um cruzamento. Por exemplo, se o locus A tem genes "A" ou "a" e locus B tem genes "B" ou "b" e um cruzamento entre o parental I com AABB e o parental B com aabb produzirá quatro gametas possíveis onde os genes são segregados em AB, Ab, aB e ab. A hipótese nula consiste em que haverá segregação igual independente em cada um de quatro genóti- pos possíveis, isto é, sem nenhuma ligação, 1/4 dos gametas será de cada genótipo. A segregação de gametas em genótipos que se diferenciam de 1/4 é atribuída à ligação.
[0051] Como usado neste pedido, "desequilíbrio de ligação" é definido no contexto da frequência relativa de tipos de gameta em uma população de muitos indivíduos em uma geração única. Se a frequência do alelo A for p, a for p', B for q e b for q', então a frequência esperada (sem desequilíbrio de ligação) do genótipo AB é pq, Ab é pq', aB é p'q e ab é p'q'. Qualquer desvio da frequência esperada é chamado de desequilíbrio de ligação. Dois loci são ditos estar "geneticamente ligados" quando estão em desequilíbrio de ligação.
[0052] Como usado neste pedido, "locus de traço quantitativo (QTL)" significa um locus que controla até certo ponto numericamente traços representáveis que são normalmente continuamente distribuídos.
[0053] Como usado neste pedido, "redução de complexidade" se refere a métodos para reduzir a complexidade de uma amostra de ácido nucleico, tal como por digestão de enzima de restrição, transcrição reversa, amplificação direcionada por métodos de PCR, ou amplificação randômica por métodos de PCR. Redução de complexidade pode ser realizada em ácidos nucleicos genômicos totais ou um subconjunto dos mesmos. Em um aspecto preferencial, um método com resultados reprodutíveis será usado. Métodos para redução da complexidade estão incluídos em WO 06/137734, WO 06/137733 e EP 0534858 que são especificamente incorporados neste pedido por referência em sua totalidade.
[0054] Como usado neste pedido, "etiqueta de DNA" significa um segmento curto de DNA usado como um identificador de uma amostra de ácido nucleico. Uma etiqueta de DNA, também conhecida como um código de barras molecular, pode variar de aproximadamente 2 a aproximadamente 20 pares de base em comprimento e pode ser adicionada durante a redução de complexidade da amostra(s) molde de ácido nucleico. Para exemplos, conjuntos de etiquetas de DNA estão disponíveis na Patente U.S. N° 7.157.564. A etiqueta pode ser identificada através de métodos de sequenciamento ou microarranjo como descrito em EP 1724348. Em outras modalidades, tais como no caso de etiquetsa de massa de oligonucleotídeos, métodos de espectrofo- tometria de massa foram usados para diferenciar etiquetas (Zhang et al. PNAS 2007 104:3061-3066). Além disso, códigos de barras moleculares foram desenvolvidos para detecção por outras plataformas de visualização, incluindo ressonância de plásmons de superfície, espec- troscopia fluorescente, ou Raman, como descrito em Pedido de Patente U.S. 2007/0054288. Em outra modalidade, etiquetas em esporão de RNA ou proteína foram usadas as quais são distintas de moléculas da amostra alvo e são coanalisadas com uma pluralidade de amostras com o objetivo da discriminação de amostra, métodos os quais estão incluídos em WO 03/052101. Em uma modalidade preferencial desta invenção, a identidade da etiqueta é avaliada pelo sequenciamento diretamente antes ou diretamente após o sequenciamento de um locus de traço. Deste modo, a sequência da etiqueta conjugada à sequência do locus e pode ser usada para manter uma ligação entre a sequência de locus e origem da amostra. Em outra modalidade, a etiqueta pode ser combinatória ou hierárquica. Por exemplo, uma porção da etiqueta pode indicar que múltiplos ácidos nucleicos são da mesma amostra e outra porção da etiqueta pode indicar que os ácidos nucleicos foram derivados de diferente subamostras. O número de níveis hierárquicos ou combinações de marcações é somente limitado pela quantidade do sequenciamento que pode ser dedicado à etiqueta de DNA contra o locus de traço.
[0055] Como usado neste pedido, uma "amostra etiquetada" significa uma amostra de ácido nucleico a qual a mesma etiquetagem foi anexada a cada ácido nucleico individual na amostra. Como usado neste pedido, uma amostra etiquetada inclui amostras etiquetadas com uma etiquetagem hierárquica ou combinatória, em que pelo menos uma porção da etiquetagem é idêntica e anexada a cada sequência de ácido nucleico na amostra.
[0056] Como usado neste pedido, uma "etiquetagem alelo específica" é uma etiqueta de DNA que corresponde a um alelo particular na sequência alvo. Em uma modalidade preferencial, somente a etiqueta alelo-específica, em vez do polimorfismo mais algumas etiquetas ligadas a DNA, precisam ser sequenciadas para serem capazes de geno- tipar o polimorfismo correspondente.
[0057] Como usado neste pedido, "sequenciamento de ácido nu- cleico" significa a determinação da ordem de nucleotídeos em uma amostra de ácidos nucleicos, em que os ácidos nucleicos incluem moléculas de RNA e DNA. "Sequenciamento de ácido nucleico de alto rendimento" significa uma abordagem automatizada e massivamente paralela para determinação de nucleotídeos em uma amostra de ácidos nucleicos em que exemplos de tecnologia de sequenciamento de ácido nucleico de alto rendimento incluem, mas não são limitados a plataformas fornecidas por 454 Life Sciences, Agencourt Bioscience, Applied Biosystems, LI-COR Biosciences, Microchip Biotechnologies, Network Biosystems, NimbleGen Systems, Illumina e VisiGen Biotechnologies, compreendendo mas não limitado a formatos, tais como arranjos de contas paralelas, sequenciamento por síntese, sequenci- amento por ligação, eletroforese capilar, microchips eletrônicos, "biochips", microarranjos, microchips paralelos e arranjos de molécula única, como revisto pelo Serviço (Science 2006 311: 1544-1546).
[0058] Como usado neste pedido, "alinhar" ou "alinhamento" de duas ou mais sequências de ácidos nucleicos é a comparação das sequências de ácidos nucleicos encontradas no mesmo locus. Vários métodos de alinhamento são conhecidos na técnica e estão incluídos na maior parte dos pacotes populares de bioinformática.
[0059] Como usado neste pedido, o termo "iniciador" significa uma fita única de oligonucleotídeo sintético, preferencialmente de aproximadamente 10 a aproximadamente 120 nucleotídeos, que podem ser sintetizados quimicamente ou montados a partir de vários oligonucleo- tídeos quimicamente sintetizados. Como usado neste pedido, os iniciadores podem ser usados para iniciar reações de sequenciamento e reações de polimerase, tal como em reações de preenchimento de lacuna e PCR. Como usado neste pedido, um iniciador hibridizará sob as condições de ensaio especificamente a uma sequência alvo desejada. Como usado neste pedido, iniciadores podem ser usados para introduzir uma etiqueta de DNA, introduzir bases quimicamente modificadas, tais como bases marcadas com biotina, ou introduzir uma sequência de hibridização que pode ser posteriormente usada para captura, tal como captura de uma matriz de sequenciamento ou uma superfície contendo avidina.
[0060] Como usado neste pedido, o termo "adaptadores" significa uma molécula de ácido nucleico dupla fita de uma composição conhecida, tipicamente aproximadamente 10 a 120 pares de bases no comprimento, que são desenhados tal que possam ser ligados, por exem- plo, através do uso de uma DNA ligase, a uma ou ambas extremidades de uma segunda molécula(s) de ácido nucleico. Adaptadores podem ser desenhados para serem ligados à extremidade cega de um ácido nucleico (adaptadores de extremidade cega) ou pelo primeiro anelamento a uma sequência de ressalto específica e então ligados. Nesta modalidade, adaptadores podem ser usados para fornecer sítios iniciadores, etiquetar um ácido nucleico com uma etiqueta de DNA, fornecer sequências que permitem a hibridização para os fins de cap-tura e adicionar sequências de ácidos nucleicos quimicamente modificadas, tais como adaptadores contendo biotina.
[0061] Como usado neste pedido, o termo "ligação" significa a reação bioquímica catalisada pela enzima ligase em que duas moléculas de DNA são ligadas covalentemente.
[0062] Como usado neste pedido, "amplificação de DNA" significa a síntese in vitro de DNA fita dupla através do uso de uma DNA poli- merase. Tipicamente, isto é realizado em um ensaio de reação de po- limerase em cadeia (PCR) mas também pode incluir outros métodos, tais como uma reação de preenchimento de lacuna, reparo de erros de pareamento, reação de Klenow, etc. Amplificação de DNA é usada para fornecer quantidades detectáveis ou excessivas de um DNA específico. Também pode ser usada para incorporar em um ácido nucleico alvo, sondas hibridizadas, adaptadores e iniciadores anelados que podem incluir funcionalidade ou informação específica.
[0063] Como usado neste pedido, o termo "transgene" significa moléculas de ácidos nucleicos na forma de DNA, tais como cDNA ou DNA genômico, e RNA, tal como mRNA ou microRNA, que pode ser fita única ou dupla.
[0064] Como usado neste pedido, o termo "puro" significa uma linhagem que foi melhorada por homogeneidade genética.
[0065] Como usado neste pedido, o termo "híbrido" significa uma progênie de acoplamento entre pelo menos dois parentais geneticamente dissimilares. Sem restrição, exemplos de esquemas de acasalamento incluem cruzamentos únicos, cruzamentos único modificado, cruzamento único duplo modificado, cruzamento de três vias, cruzamento de três vias modificado e cruzamento duplo em que pelo menos um parental em um cruzamento modificado é a progênie de um cruzamento entre linhagens irmãs.
[0066] Como usado neste pedido, o termo "verificador" significa uma linhagem usada em um cruzamento teste com outra linhagem em que o verificador e as linhagens testadas são de agrupamentos de germoplasma diferentes. Um verificador pode ser isogênico ou não isogênico.
[0067] Como usado neste pedido, o termo "milho" significa Zea mays ou milho e inclui todas as variedades vegetais que podem ser melhoradas com milho, incluindo espécies de milho selvagens. Mais especificamente, plantas de milho das espécies Zea mays e as subespécies Zea mays L. ssp. mays podem ser genotipadas usando as composições e métodos da presente invenção. Em um aspecto adicional, a planta de milho é do grupo Zea mays L. subsp. mays Indentata, de outra maneira conhecida como milho dentado. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Indurata, de outra maneira conhecida como milho duro. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Saccharata, de outra maneira conhecida como milho doce. Em outro aspecto, a planta de milho é do grupo Zea mays L. subsp. mays Amylacea, de outra maneira conhecida como milho de farinha. Em um aspecto adicional, a planta de milho é do grupo Zea mays L. subsp. mays Everta, de outra maneira conhecida como milho de pipoca. Zea ou plantas de milho que podem ser genotipadas com as composições e métodos descritos neste pedido incluem híbridos, puros, parcialmente puros, ou membros de popu-lações definidas ou indefinidas.
[0068] Como usado neste pedido, o termo "soja" significa Glycine max e inclui todas as variedades vegetais que podem ser melhoradas com soja, incluindo espécies de soja selvagens. Mais especificamente, as plantas de soja das espécies Glycine Max e as subespécies Glycine max L. ssp. max ou Glycine max ssp. formosana podem ser genotipa- das usando as composições e métodos da presente invenção. Em um aspecto adicional, a planta de soja é da espécie Glycine soja, de outra maneira conhecida como soja selvagem, pode ser genotipada usando estas composições e métodos. Alternativamente, o germoplasma de soja derivado de qualquer uma de Glycine max, Glycine max L. ssp. max, Glycine max ssp. Formosana, e/ou Glycine soja podem ser geno- tipadas usando composições e métodos fornecidos neste pedido.
[0069] Como usado neste pedido, o termo "compreendendo" significa "incluindo mas não limitado a".
[0070] Como usado neste pedido, o termo "linhagem de elite" significa qualquer linhagem que resultou de melhoramento e seleção para desempenho agronômico superior. Uma planta de elite é qualquer planta de uma linhagem de elite.
[0071] Conforme a presente invenção, os Requerentes descobriram métodos para tomar decisões de melhoramento genotipicamente nas sequências de ácidos nucleicos per se. Por exemplo, os métodos da presente invenção fornecem por análise direta, com base em sequência em vez de usar marcadores genéticos como instrumentos indiretos para seleção de um locus de interesse. Além disso, os métodos da presente invenção permitem uma flexibilidade melhorada na utilização de informação de ácido nucleico em um programa de melhoramento, em que o genoma inteiro de uma planta ou animal pode ser investigado sem depender de marcadores genéticos predeterminados e o desenvolvimento de ensaios de detecção de marcador genético. Além disso, qualquer comprimento da sequência de qualquer locus pode ser utilizado para 1) determinar associações genótipo-traço, 2) discriminar entre duas ou mais linhagens, 3) predizer o desempenho de linhagem ou desempenho do híbrido e, por último, 4) fornecer base para decisões em atividades relacionadas à melhora de germoplasma.
[0072] Melhoramento molecular muitas vezes é tratado como seleção assistida por marcador (MAS) e melhoramento assistido por marcador (MAB), em que MAS se refere a tomar decisões de melhoramento com base em genótipos marcadores moleculares de pelo menos um locus e MAB é um termo geral que representa o uso de marcadores moleculares no melhoramento vegetal. Nestes tipos de programas de melhoramento molecular, alelos de marcador genético podem ser usados para identificar plantas que contêm o genótipo desejado em um locus de marcador, vários loci, ou um haplótipo, e, por isso, seria esperado transferir o genótipo desejado, junto com um fenóti- po desejado associado, à sua progênie. Marcadores são altamente úteis no melhoramento vegetal porque, uma vez estabelecido, não são sujeitos a interações ambientais ou epistáticas. Além disso, certos tipos de marcadores são ajustados para detecção de alto rendimento, permitindo identificação rápida em uma relação custo-eficácia.
[0073] Descoberta de marcador e desenvolvimento em culturas fornecem a estrutura inicial de aplicações para MAB (Patente U.S. N° 5.437.697; Pedidos de Patente U.S. 2005000204780, 2005000216545, 2005000218305 e 2006000504538). O "mapa genético" resultante é a representação da posição relativa de loci caracterizados (marcadores de DNA ou qualquer outro locus para o qual os alelos podem ser identificados) ao longo dos cromossomos. A medida da distância neste mapa é relativa à frequência de eventos de cruzamentos entre cromá- tides irmãs na meiose. Como um conjunto, marcadores polialélicos têm servido como um instrumento útil para tomar impressões digitais de plantas para informar o grau de identidade de linhagens ou variedades (Patente U.S. N° 6.207.367). Estes marcadores formam a base para determinar associações com fenótipo e podem ser usados para dirigir o ganho genético. A implementação de MAS, em que as decisões de seleção são baseadas em genótipos marcadores, é dependente da capacidade de detectar diferenças genéticas subjacentes entre indivíduos.
[0074] Por causa de diferenças alélicas nestes marcadores moleculares, QTL pode ser identificado por avaliação estatística dos genó- tipos e fenótipos de populações segregantes. Processos para mapear QTL são bem descritos (WO 90/04651; Patentes U.S. Nos. 5.492.547, 5.981.832, 6.455.758; revisto em Flint-Garcia et al. 2003 Ann. Rev. Plant Biol. 54:357 - 374). Uso de marcadores para inferir o fenótipo nestes casos resulta no aperfeiçoamento de um programa de melhoramento pela substituição da fenotipagem onerosa, tempo-intensiva pela genotipagem. Abordagens de marcador permitem a seleção ocorrer antes da planta alcançar maturidade, dessa forma poupando tempo e levando ao uso mais eficiente de lotes. De fato, a seleção pode ocorrer até no nível de semente para que somente as sementes preferenciais sejam plantadas (Pedidos de Patente U.S. 2005000213435 e 2007000680611). Além disso, programas de melhoramento podem ser desenhados para dirigir explicitamente a frequência de fenótipos específicos, favoráveis visando genótipos particulares (Patente U.S. N° 6.399.855). A fidelidade destas associações pode ser monitorada continuamente para assegurar a capacidade preditiva mantida e, dessa forma, as decisões de melhoramento informadas (Pedido de Patente U.S. 2005/0015827).
[0075] Este processo tem se desenvolvido para a aplicação de marcadores como um instrumento para a seleção de "plantas novas e superiores" através da introgressão de loci preferenciais como deter minado por análises estatísticas (Patente U.S. N° 6.219.964). Intro- gressão assistida por marcador envolve a transferência de uma região cromossômica, definida por um ou mais marcadores, de um germo- plasma para um segundo germoplasma. A etapa inicial naquele processo é a localização da região genômica ou transgene pelo mapeamento genético, que é o processo de determinação da posição de um gene ou região genômica em relação a outros genes e marcadores genéticos através de análise de ligação. O princípio básico do mapeamento de ligação consiste em que quanto mais próximos dois genes estão em um cromossomo, é mais provável que sejam herdados juntos. Resumidamente, um cruzamento é geralmente feito entre dois parentais geneticamente compatíveis mas divergentes em relação aos traços de interesse. Marcadores genéticos podem então ser usados para permitir a segregação destes traços na progênie do cruzamento, muitas vezes um retrocruzamento (BC1), F2, ou população pura re- combinante.
[0076] Historicamente, marcadores genéticos não foram apropriados para distinguir a identidade por condição ou por descendência. Foi muito tempo reconhecido que genes e sequências genômicas podem ser idênticos por condição (isto é, idênticos por origens independentes; IBS) ou idênticos por descendência (isto é, através de herança histórica de um progenitor comum; IBD) que tem imensa ligação com os estudos de desequilíbrio de ligação e, por último, estudos de mapeamento (Nordborg et al. 2002 Trends Gen. 18:83-90). Notavelmente, as classes de marcadores mais novas, tais como SNPs (polimorfismos de nucleotídeo único), são mais diagnósticos de origem. A probabilidade que um determinado SNP de alelo seja derivado de origens independentes nas populações existentes de uma espécie particular é muito baixa. Polimorfismos que ocorrem em genes ligados são randomica- mente classificados em uma taxa lenta, mas previsível, descrita pelo decaimento do desequilíbrio de ligação ou, alternativamente, a abordagem do equilíbrio de ligação. Consequências desta descoberta científica bem estabelecida são que longos intervalos de DNA de codificação, definidos por uma combinação específica de polimorfismos, são únicos e extremamente improváveis de existir em duplicata exceto através de desequilíbrio de ligação, que é indicativo da recente coan- cestralidade de um progenitor comum. A probabilidade que uma região genômica particular, como definido por alguma combinação de alelos, indique a identidade absoluta da sequência genética interveniente inteira é dependente do número de polimorfismos ligados nesta região genômica, barrando a ocorrência de mutações recentes no intervalo. Tais loci são também tratados como janelas haplotípicas. Cada hapló- tipo dentro daquela janela é definido por combinações específicas de alelos; o maior número de alelos, o maior número de potenciais hapló- tipos, e maior a certeza que a identidade por condição é um resultado da identidade por descendência naquela região. A presente invenção permite a determinação direta de IBD usando informação da sequência de ácido nucleico direta, em vez de inferida pela informação sobre marcador.
[0077] Durante o desenvolvimento de novas linhagens, haplótipos ancestrais são mantidos através do processo e são tipicamente pensados como ‘blocos de ligação' que são herdados como uma unidade através de uma linhagem. Além disso, se um haplótipo específico tem um efeito ou fenótipo conhecidos, é possível extrapolar seu efeito em outras linhagens com o mesmo haplótipo. Atualmente, os haplótipos são identificados e rastreados no germoplasma usando um ou mais marcadores diagnósticos para aquela janela haplotípica. A presente invenção fornece um método para identificar diretamente haplótipos usando informação sobre a sequência de ácido nucleico. Além disso, pelo uso de informação de sequência direta, mais polimorfismos den- tro de qualquer região genômica podem ser identificados contra somente a utilização de marcadores genéticos, dessa forma resultando na identificação de haplótipos adicionais. Também se pode avaliar melhor haplótipos que podem compartilhar identidade por descendência. Por discriminação haplotípica em um nível mais profundo, maior fidelidade nas associações haplótipo-fenótipo podem ser obtidas. Em outro aspecto, germoplasma exótico pode ser investigado para novos hapló- tipos pelo uso de informação sobre sequência direta, dessa forma permitindo a identificação e subsequente utilização de haplótipos únicos.
[0078] Em outra abordagem, regiões de IBD podem ser investigadas através de pelo menos um agrupamento de germoplasma a fim de avaliar a diversidade genética. Por exemplo, variantes alélicas foram investigadas para inferir gargalos genéticos na domesticação de plantas de cultura (revisto em Doebley et al. Cell 2006 127:1309-1321). Entretanto, usar uma plataforma de marcador para investigar diversidade pode ser limitante uma vez que um marcador único investiga somente uma única posição na sequência.
[0079] Além disso, uma teoria de heterose prediz que as regiões de IBD entre as linhagens masculinas e femininas usadas para produzir um híbrido reduzirão o desempenho do híbrido. Identidade por descendência tem sido historicamente inferida a partir de padrões de ale- los marcadores em linhagens diferentes, em que uma série idêntica de marcadores em uma série de loci adjacentes pode ser considerada idêntica por descendência se improvavelmente ocorrer independentemente por acaso. A análise de impressões digitais de marcador em linhagens masculinas e femininas pode identificar regiões de IBD. Na presente invenção, o genoma pode ser diretamente investigado por pelo menos um locus dentro do genoma para avaliar IBD entre linhagens. O conhecimento destas regiões pode informar a escolha de pa- rentais híbridos, desde que evitando IBD em híbridos provavelmente melhore o desempenho. Este conhecimento também pode informar programas de melhoramento em que cruzamentos podem ser desenhados para produzir pares de linhagens puras (um macho e uma fêmea) que mostram pouco ou nenhum IBD.
[0080] Em um aspecto da presente invenção, heterose é avaliada em pelo menos uma região genômica, em que a heterozigozidade entre parentais em um cruzamento como determinado em uma base alé- lica pode ser presumido conferir uma vantagem fenotípica. Em outro aspecto da presente invenção, métodos são fornecidos para avaliar heterose em termos de sintenia genômica, em que não colinearidade de pelo menos um locus pode resultar em uma vantagem heterótica e desempenho melhorado no híbrido.
[0081] Marcadores foram usados tradicionalmente para tomar as impressões digitais de linhagens e dessa forma fornecer estimativas da pureza genética, facilitar operações QA/QC, e avaliar a diversidade genética. A presente invenção melhora protocolos de marcador tradicionais pelo fornecimento de métodos para avaliar diretamente sequências de pares de bases, em vez de estimar a identidade de sequência subjacente de uma posição de base única como com protocolos de marcador tradicionais. Por exemplo, um marcador de SNP bialé- lico típico fornece a informação sobre somente uma posição de par de bases e somente pode distinguir-se entre 2, em vez de 4, nucleotí- deos.
[0082] Os métodos da presente invenção tiram vantagem de descobertas recentes em sequenciamento de alto rendimento para fornecer novos métodos para melhoramento molecular. Metodologias de sequenciamento de alto rendimento (HT) foram recentemente desenvolvidas pelas quais a informação pode ser gerada para 100 MB ou mais de sequência em uma máquina de sequenciamento de corrida única. É contemplado que qualquer tecnologia de sequenciamento HT comercialmente disponível, ou qualquer outra plataforma de sequenci- amento de ácido nucleico comercialmente disponível que possa ser desenvolvida no futuro, pode ser empregada desde que a plataforma seja capaz de determinar a sequência de uma molécula de ácido nu- cleico única. Exemplos não limitantes de tecnologias de sequencia- mento HT comercialmente disponíveis são fornecidos por 454 Life Sciences (Branford, CT), Agencourt Bioscience (Beverly, MA), Applied Biosystems (Foster City, CA), LI-COR Biosciences (Lincoln, NE), Nim- bleGen Systems (Madison, WI), Illumina (San Diego, CA), e VisiGen Biotechnologies (Houston, TX) (ver também, www.solexa.com, www.454.com ou www.abi.com). Tecnologias de sequenciamento HT comercialmente disponíveis também são revistas no Serviço (Science 2006 311: 1544-1546), que é incorporada neste pedido por referência em sua totalidade. Em essência, o Analisador de Genoma Illumina, 454 Flex e a Tecnologia ABI Solid são capazes de determinar a sequência de uma molécula de DNA única embora aquela molécula possa ser amplificada no processo. Alguns destes exemplos empregam o sequenciamento por síntese embora isto não seja um pré-requisito. Plataformas de sequenciamento HT preferenciais gerarão 100 megabases, 1 gigabase ou até mais informação sobre a sequência por corrida. Plataformas de sequenciamento HT altamente preferenciais determinarão simultaneamente a sequência no número máximo de moléculas de DNA individuais. Tais sistemas são ditos ser altamente para-lelos. Por essa razão, a plataforma Analisadora de Genoma Illumina é geralmente preferencial porque pode sequenciar muitas outras moléculas de DNA gerando somente uma pequena leitura por molécula. Plataformas que geram leituras mais longas em menos sequências funcionarão mas podem apresentar desafios adicionais para eficiência de tempo e custo.
[0083] Determinação direta dos nucleotídeos polimórficos tem vantagens-chave sobre tecnologias de marcador. Embora as tecnologias de marcador sejam geralmente robustas, ainda podem informar incorretamente uma sequência subjacente, ser sujeitos ao ruído, e ser sujeitos à falha. Além disso, um marcador pode não transpor a região genômica real de interesse e, dependendo do grau de ligação à região genômica de interesse, perde o valor em populações de melhoramento devido à recombinação e perda da ligação. Determinação direta das sequências de ácidos nucleicos supera as limitações inerentes de um sistema com base em marcador pelo sequenciamento por não somente o nucleotídeo(s) de interesse, mas as sequências circundantes tam-bém. Além disso, a presente invenção fornece métodos para detecção de polimorfismo "indireta" em que são usadas etiquetas alelo- específicas que são imediatamente adjacentes ao SNP (Figura 5), portanto a reação de sequenciamento somente precisa ser concluída até a etiqueta, que é especialmente útil para tecnologias que geram leituras curtas. Sequenciamento indireto ainda supera as falhas de tendência de marcadores típicos a serem ligados, versus compreensão de polimorfismos causais uma vez que a etiqueta é essencialmente fisicamente ligada ao SNP. O uso de sequenciamento de ácido nucleico também fornece mais informação de sequência sobre os loci que se correlacionam aos traços de importância, que auxiliarão melhoradores a entenderem e utilizarem melhor os loci ou traços. Além disso, a determinação direta de sequências de ácidos nucleicos pode eliminar a necessidade de sequenciamento positivo extenso para desenvolvi-mento de marcador.
[0084] Em uma modalidade, o método da presente invenção compreende o sequenciamento do genoma inteiro de uma planta, comparação do genoma sequenciado com o genótipo de uma segunda planta e então tomada de uma decisão de cruzá-los, selecionar um ou ambos para promover, ou testar a combinação dos dois. Alternativamente, a informação sobre o genoma inteiro pode ser usada para desenvolver linhagens pelo agrupamento de linhagens que compartilham similaridades e separação de linhagens com base em diferenças genéticas para utilizar heterose. A sequência de genoma inteiro fornece a listagem completa de nucleotídeos polimórficos e listagem completa de haplótipos.
[0085] A tecnologia de sequenciamento HT como descrita no domínio público está permitindo ainda que inerentemente limitada em sua aplicação a genotipagem vegetal, até com a capacidade para sequência de 100 megabases ou até de 1 gigabase de sequência por amostra. A limitação resulta da necessidade da sequência de 10.000 de milhares de indivíduos ou linhagens necessárias para suportar um programa de melhoramento moderno. O grande número de indivíduos ou linhagens é necessário para identificar recombinantes raros entre dois loci ou subpopulação com frequência mais alta de alelos favoráveis em múltiplos loci. A capacidade de sequenciar os genomas inteiros de tal grande número de indivíduos é ainda impraticável. Um meio de reduzir o genoma a um menor número de regiões polimórficas in-formativas é necessário bem como um meio de combinar amostras de múltiplos indivíduos em um menor número de corridas ou reações de sequenciamento. Um aspecto desta invenção é o uso de um método reprodutível para reduzir a complexidade de um genoma inteiro a um subconjunto representativo de sequências que podem ser analisadas, comparadas e usadas para decisões de melhoramento vegetal. Um aspecto adicional desta invenção é a capacidade de aplicar a etique- tagem de DNA para que múltiplas amostras possam ser combinadas em uma corrida única de sequenciamento. As sequências das amostras combinadas que são determinadas em paralelo em uma corrida única então podem ser desenroladas e rastreadas de volta para a planta individual ou agrupamento vegetal que eles originaram.
[0086] Em um aspecto, a presente invenção fornece subconjuntos de DNA genômico ou RNA total para sequenciamento de ácido nuclei- co tal que uma amostra de representação reduzida seja obtida para estreitar o alvo de sequenciamento, isto é, para regiões de codificação ou regiões incluindo pelo menos um polimorfismo de interesse. Estes subconjuntos podem ser mencionados muitas vezes como amostras ou bibliotecas de complexidade reduzida.
[0087] Em outro aspecto desta invenção, a amostra de representação reduzida é visada ou limitada a uma ou mais regiões selecionadas, ou loci, no genoma. Os loci selecionados podem ser selecionados com base em uma ou mais associações com um ou mais traços ou características de desempenho ou podem ser um subconjunto representativo de todos os loci dentro de um genoma, tal como um subconjunto uniformemente espaçado ao longo dos cromossomos e que estão segregando na população de melhoramento alvo. Um subconjunto preferencial de loci são loci polimórficos. Um locus polimórfico é definido por um ou mais nucleotídeos que variam entre um par ou múltiplos indivíduos ou linhagens. Qualquer tipo do locus polimórfico pode ser usado com esta tecnologia incluindo, mas não limitado a polimorfismos de comprimento de sequência, polimorfismos de comprimento de sequência repetitiva, polimorfismos de sítio de restrição e polimorfismos de nucleotídeo único. Polimorfismos de nucleotídeo único são detectados em uma modalidade preferencial desta invenção. A sequência de um locus visado pode ser determinada por iniciação do locus para sintetizar um oligonucleotídeo complementar e então diretamente se- quenciar o oligonucleotídeo complementar. As regiões visadas podem ser sintetizadas através de uma reação de preenchimento de lacuna, reação de extensão de iniciador, uma reação de polimerase em cadeia ou uma combinação destas reações. Alternativamente, no caso de loci polimórficos visados, enzimas de reparo, erro de pareamento ou ribo- zimas ou outras enzimas específicas para nucleotídeo podem ser usadas para reparar especificamente um oligonucleotídeo complementar que é mal pareado no nucleotídeo polimórfico. Uma vez que o nucleo- tídeo complementar tenha sido estendido, amplificado, reparado ou preenchido na lacuna, a sequência oligonucleotídica gerada in vitro pode ser determinada e representa a sequência do locus polimórfico. Quaisquer destes métodos podem ser empregados para determinar diretamente a sequência nucleotídica de uma ou ambas as fitas de uma ou muitas regiões nucleotídicas. Uma vez que as metodologias de sequenciamento de alto rendimento podem gerar mais do que 100 MB de informação de sequência em uma única corrida, os oligonucleo- tídeos a partir de grande número de loci podem ser combinados e se- quenciados simultaneamente tal que as sequências de grande número de loci possam ser determinadas em paralelo em uma reação de se- quenciamento. Em tal modalidade, a invenção fornece métodos de alto rendimento e custo-eficácia para determinação direta de nucleotídeos polimórficos ou não polimórficos.
[0088] Em outro aspecto, uma amostra de representação reduzida pode ser preparada que consiste em uma classe específica de fragmentos do genoma. Em uma modalidade preferencial, uma amostra é preparada usando enzimas de restrição. Com o objetivo de comparar pelo menos duas plantas de uma espécie, cada amostra é preparada por digestão com uma ou mais endonucleases de restrição, fracionamento dos fragmentos de DNA digeridos com base no tamanho da sequência nucleotídica e comparação da sequência de fragmentos em uma fração. Mais particularmente, o método de identificação de pelo menos um locus em DNA genômico compreende a digestão de DNA genômico total de pelo menos duas variantes de uma espécie eucarió- tica com uma endonuclease sensível à metilação para fornecer um agrupamento de fragmentos de DNA digeridos. O comprimento de nu- cleotídeo médio dos fragmentos é menor para regiões de DNA caracterizadas por uma porcentagem mais baixa de citosina 5-metilada. Tais fragmentos são separáveis, por exemplo, por eletroforese em gel, com base no tamanho do nucleotídeo. Uma fração de DNA menor do que o tamanho de nucleotídeo médio é separada do agrupamento de DNA digerido. Quando comparado com a sequência de codificação, a sequência repetitiva com maior probabilidade compreenderá citosina 5-metilada, por exemplo, em segmentos -CG- e -CNG- da sequência. Em um aspecto preferencial do método, DNA genômico de pelo menos duas variedades puras diferentes de uma planta de cultura é digerido com uma endonuclease sensível à metilação selecionada a partir do grupo consistindo em Aci I, Apa I, Age I, Bsr F I, BssH II, Eag I, Eae I, Hha I, HinP1 I, Hpa II, Msp I, MspM II, Nar I, Not I, Pst I, Pvu I, Sac II, Sma I, Stu I e Xho I para fornecer um agrupamento de DNA digerido que pode ser fisicamente separado, por exemplo, por eletroforese em gel. As frações de tamanho comparável de DNA são obtidas de DNA digerido de cada uma das ditas variedades e então sequenciadas.
[0089] Em outra modalidade, RNA pode ser usado como uma representação reduzida do genoma, isto é, o subconjunto do genoma que é expresso. O RNA pode ser RNA poliA, RNA pequeno ou outras frações de RNA que podem ser usadas diretamente após extração ou experimentalmente manipuladas para reduzir ainda mais a complexidade ou melhorar a reprodutibilidade. Antes do sequenciamento, o RNA é convertido por métodos de transcrição reversa em cDNA que pode ser diretamente sequenciado ou experimentalmente manipulado para reduzir ainda mais a complexidade ou melhorar a reprodutibilida- de.
[0090] Em uma modalidade preferencial desta invenção, múltiplas amostras de ácidos nucleicos podem ser combinadas em uma amostra múltipla, isto é, agrupamento, e sequenciadas em paralelo na mesma corrida para maximizar o rendimento da amostra por corrida de se- quenciamento. Para alcançar isto, uma etiqueta de DNA, compreendendo um ou mais nucleotídeos únicos para aquela amostra, é adicionada ao ácido nucleico preparado a partir de uma amostra individual. As etiquetas de DNA típicas compreendem 1 a 10 nucleotídeos, mas podem ser estendidas a qualquer comprimento desde que a etiqueta não interfira na capacidade de determinar a sequência da amostra. Por exemplo, uma etiqueta de DNA de 2 nucleotídeos pode ser usada para separar uma mistura de 16 amostras. Etiquetas de DNA de 3, 4, 5 ou 6 nucleotídeos podem ser usadas para separar misturas de 64, 256, 1024 ou 4096 amostras, e assim por diante. Etiquetas de DNA mais curtas colocam menos restrições no comprimento de leitura da sequência, mas limitam o número de amostras que podem ser misturadas. Em uma modalidade da invenção, as etiquetas de DNA são simplesmente sintetizadas como parte de um ou de ambos iniciadores de PCR e então incorporadas em uma reação de PCR. Em outro aspecto, a etiqueta de DNA pode ser ligada aos ácidos nucleicos da amostra usando uma DNA ligase. Após incorporar totalmente uma etiqueta de DNA na amostra de ácidos nucleicos, múltiplas preparações de DNA, cada uma com uma etiqueta única, podem ser multiplexadas, isto é, agrupadas ou combinadas. As misturas multiplexadas então são submetidas a uma reação de sequenciamento HT única. O número de amostras que são multiplexadas é baseado no uso ótimo da capacidade de sequenciamento total de uma corrida única de sequenciamento. Parâmetros que influenciam na complexidade de uma mistura de amostra incluem o número de loci que são avaliados, o tamanho dos loci, o conteúdo de informação por corrida da plataforma HT, o tamanho da etiqueta de DNA, a presença, se houver algum, de um adaptador ou sequência de iniciador e o comprimento de leitura de uma dada sequência. O nível da multiplexação pode ser balanceado para alcançar custo ótimo por amostra, redundância por sequência de leitura. O comprimento mínimo de uma sequência de leitura única necessita ser suficiente para ler uma etiqueta de DNA da amostra (por exemplo, 2 a 5 nucleotídeos, dependendo do número de amostras que são agrupadas), uma sequência de etiqueta específica (6 a 20 nucleotídeos) e um ou mais nucleotídeos adjacentes. Após reação de sequenciamento HT, as sequências com a mesma etiqueta de DNA são primeiro separadas logicamente em agrupamentos separados que representam o indivíduo ou linhagem ou agrupamento do qual o DNA foi extraído. As sequências com etiquetas de DNA idênticas então podem ser lidas para determinar a identidade de nucleotídeo dentro dos loci que foram selecionados para ser investigados.
[0091] Nesta invenção, a sequência de ácidos nucleicos pode ser associada a traços de interesse ou ao desempenho vegetal e então usada para fazer seleções de parentais, progênie ou verificadores. Sequências serão úteis se forem geneticamente ligadas à característica de desempenho ou traço. Tipicamente, estão geneticamente ligadas se forem causais para o traço ou característica de desempenho ou forem fisicamente estreitamente ligadas aos loci de traço ou desempenho. No caso de sequências fisicamente ligadas, nenhum conhecimento do gene(s) e/ou variação causal do traço ou informação sobre desempenho é necessário. Somente é necessário determinar a sequên-cia dos nucleotídeos fisicamente ligados. Uma vez que uma sequência estava geneticamente ligada a um traço ou característica de desempenho, a sequência dos ácidos nucleicos pode ser diretamente usada para selecionar parentais, progênie ou verificadores que exemplificarão aquele traço ou desempenho sem a necessidade de medir primeiro a característica de desempenho ou traço. O conhecimento das sequências nucleotídicas também pode ser usado para tomar as impres- sões digitais de uma planta ou linhagem e ser usado para medir a si- milaridade/distância genética entre plantas ou linhagens e construir linhagens. AS linhagens então podem ser usadas para fazer seleções de parentais ou manejar a diversidade em um agrupamento de germo- plasma.
[0092] Em outra modalidade, as plantas podem ser classificadas para um ou mais marcadores, tal como sequências de ácidos nuclei- cos, usando amostragem de semente não destrutiva de alto rendimento. Em um aspecto preferencial, a semente é amostrada desta maneira e somente a semente com pelo menos um genótipo de interesse é promovida. Aparelhos e métodos para amostragem não destrutiva de sementes de alto rendimento foram descritos os quais superariam os obstáculos de amostras estatísticas levando em conta a análise individual da semente. Por exemplo, publicado nos Pedidos de Patente U.S. U.S. 2006/0042527, U.S. 2006/0046244, U.S. 2006/0046264, U.S. 2006/0048247, U.S. 2006/0048248, U.S. 2007/0204366 e U.S. 2007/0207485, que estão incorporados neste pedido por referência em sua totalidade, revelam aparelhos e sistemas de amostragem automatizada de sementes bem como métodos de amostragem, teste e crescimento de sementes.
[0093] Conforme a presente invenção, o conhecimento de sequências de ácidos nucleicos pode ser aplicado para tomar decisões em múltiplas etapas do programa de melhoramento:a) Entre a segregação da progênie, como um método de pré-seleção, para aumentar o índice de seleção e dirigir a frequência de sequências de ácidos nucleicos favoráveis entre populações de melhoramento, em que a pré-seleção é definida como seleção entre a descendência de um cruzamento de melhoramento com base no ge- nótipo destas progênies em um conjunto selecionado de duas ou mais sequências de ácidos nucleicos em um ou mais loci como determinado pelo sequenciamento HT, e utilizar as associações de sequência de ácidos nucleicos ao traço identificadas em cruzamentos de melhoramento prévios. b) Entre a segregação da progênie de uma população de melhoramento, para aumentar a frequência das sequências de ácidos nucleicos favoráveis com objetivo de desenvolvimento de linhagem ou variedade. c) Entre a segregação da progênie de uma população de melhoramento, para aumentar a frequência das sequências de ácidos nucleicos favoráveis antes do mapeamento de QTL dentro desta população de melhoramento. d) Para culturas híbridas, entre linhagens parentais de grupos heteróticos diferentes para predizer o potencial de desempenho de híbridos diferentes.
[0094] Em outra modalidade, a presente invenção fornece um método para melhoramento do germoplasma vegetal pelo acúmulo de sequências de ácidos nucleicos de interesse em um germoplasma compreendendo determinação de sequências de ácidos nucleicos de pelo menos dois loci no genoma de uma espécie vegetal, e associação das sequências de ácidos nucleicos com pelo menos um traço e uso destas estimativas de efeito de sequência de ácidos nucleicos para direcionar decisões de melhoramento. Estas estimativas de efeito de sequência de ácidos nucleicos podem ser derivadas usando associa-ções históricas de sequência de ácido nucleico ao traço ou de novo a partir do mapeamento de populações. As estimativas de efeito de sequência de ácidos nucleicos de um ou mais traços fornecem a base para tomar decisões em um programa de melhoramento. Esta invenção também fornece uma base alternativa para tomada de decisão usando cálculos de valor de melhoramento baseados no efeito estimado e frequência de sequências de ácidos nucleicos no germoplasma.Os valores de melhoramento da sequência de ácidos nucleicos podem ser usados para classificar um conjunto especificado de sequências de ácidos nucleicos. No contexto do conjunto especificado de sequências de ácidos nucleicos, estes valores de melhoramento formam a base para calcular um índice para classificar os alelos tanto dentro como entre os loci.
[0095] Por exemplo, qualquer dado segmento de cromossomo pode ser representado em uma dada população por um número de sequências de ácidos nucleicos que podem variar de 1 (a região é fixa), ao tamanho dos vezes de população, o nível de ploidia daquela espécie (2 em uma espécie diploide), em uma população na qual cada cromossomo tem uma sequência de ácido nucleico diferente. A identidade por descendência entre sequências de ácidos nucleicos transportados por múltiplos indivíduos em uma população não fixa resultará em um número intermediário de sequências de ácidos nucleicos diferentes e possivelmente uma frequência que se diferencia entre as sequências de ácidos nucleicos diferentes. Novas sequências de ácidos nucleicos podem surgir, através da recombinação na meiose entre sequências de ácidos nucleicos existentes em progenitores heterozigotos. A frequência de cada sequência de ácido nucleico pode ser estimada por vários meios conhecidos a um versado na técnica (por exemplo, pela contagem direta, ou pelo uso de um algoritmo EM). Vamos supor que "k" sequências de ácidos nucleicos diferentes, em que uma sequência de ácido nucleico representa pelo menos um nucleotídeo e pode constituir um alelo ou haplótipo, identificado como "ni" (i=1..., k), sejam conhecidas, que sua frequência na população é "fi" (i=1..., k), e para cada uma destas sequências de ácidos nucleicos temos uma estimativa de efeito "Esti" (i=1..., k). Se chamarmos de "valor de melhoramento" (BVi) o efeito sobre aquela população de fixação daquela sequência de ácido nucleico, então este valor de melhoramento corresponde à modi- ficação média para o traço(s) de interesse daquela população entre sua condição original de distribuição haplotípica na janela e uma condição final em que a sequência de ácido nucleico "ni" se encontra em uma frequência de 100%. O valor de melhoramento de ni nesta população pode ser calculado como:
[0096] Um versado na técnica reconhecerá que as sequências de ácidos nucleicos que são raras na população na qual os efeitos são estimados tendem a ser menos precisamente estimadas, esta diferença de confiança pode levar ao ajuste no cálculo. Por exemplo, podem- se ignorar os efeitos de sequências de ácidos nucleicos raras, pelo cálculo do valor de melhoramento da sequência de ácido nucleico melhor conhecida após ajustar a frequência destes (pela sua divisão pela soma da frequência das sequências de ácidos nucleicos melhor conhecidas). Podem ser fornecidos também intervalos de confiança para o valor de melhoramento de cada uma das sequências de ácidos nu- cleicos.
[0097] Este valor de melhoramento vai se modificar de acordo com a população para a qual é calculado, como uma função da diferença de frequências da sequência de ácidos nucleicos. O termo população então pode ser assumido com diferentes significados, abaixo estão dois exemplos de casos especiais. Primeiro, pode ser uma linhagem pura única em que se pretende substituir a sua sequência de ácido nucleico atual nj por uma nova sequência de ácido nucleico ni neste caso BVi=Est—Estj. Segundo, pode ser uma população F2 na qual duas sequências de ácido nucleico parentais ni e nj estão presentes originalmente em igual frequência (50%), neste caso, BVi=1/2(Esti-Estj).
[0098] Estas abordagens estatísticas permitem a estimativas de efeito de sequência de ácidos nucleicos informar decisões de melho- ramento em múltiplos contextos. Outras abordagens estatísticas para calcular valores de melhoramento são conhecidas aos versados na técnica e podem ser usadas na substituição sem se afastar do espírito e escopo desta invenção.
[0099] Além disso, métodos para determinação da significância estatística de uma correlação entre um fenótipo e um genótipo, neste caso uma sequência de ácido nucleico, podem ser determinados por qualquer teste estatístico conhecido na técnica e com algum limiar aceito de significância estatística sendo necessário. A aplicação de métodos particulares e limiares de significância estão entre as habilidades do versado da técnica.
[00100] Estimativas de efeito de sequência de ácidos nucleicos e/ou dos valores de melhoramento de um ou mais traços de interesse fornecem a base para determinar uma ou mais sequências de ácidos nu- cleicos de interesse em comparações de duas ou mais sequências de ácidos nucleicos. Com esta informação a priori, seleções de melhoramento são conduzidas em uma sequência de ácido nucleico, em vez de marcador, base, em que uma primeira planta é cruzada com uma segunda planta que contém pelo menos um locus onde a sequência de ácido nucleico da segunda planta é diferente da sequência de ácido nucleico da primeira planta; e pelo menos uma planta da progênie é selecionada pela detecção da sequência de ácido nucleico ou conjunto de sequências de ácidos nucleicos da primeira planta, em que a planta da progênie compreende em seu genoma uma ou mais sequências de ácidos nucleicos de interesse da primeira planta e pelo menos uma sequência de ácido nucleico de interesse da segunda planta; e a planta da progênie é usada em atividades relacionadas à melhora de ger- moplasma, neste pedido definido como incluindo uso de desenvolvimento linhagem e de variedade vegetal, desenvolvimento de híbrido, seleção de evento transgênico, criação de cruzamentos de melhora- mento, teste e aprimoramento de uma planta por autofertilização, purificação de linhagens ou sublinhagens, uso de planta ou partes da mesma para transformação, uso de planta ou partes das mesmas de candidatos para construtos de expressão e uso de planta ou partes da mesma para mutagênese.
[00101] Em um aspecto, esta invenção fornece sequenciamento de alto rendimento para identificar grandes segmentos de ácidos nuclei- cos, em uma ou mais regiões de um genoma vegetal, que fornecem uma base para comparar duas ou mais entradas de germoplasma. Estas regiões da sequência de ácido nucleico contíguas são indicativas da conservação da identidade genética de todos os genes intervenientes de um progenitor comum. Em casos onde os segmentos de sequência conservados são coincidentes com segmentos nos quais QTL foram identificados é possível deduzir com alta probabilidade que a inferência de QTL possa ser extrapolada para outro germoplasma que tenha uma sequência idêntica naquele locus. Esta informação a priori fornece base para seleção de QTLs favoráveis antes do mapeamento de QTL em uma dada população. Por exemplo, as decisões de melhoramento vegetal podem compreender: a) Seleção entre novas populações de melhoramento para determinar que populações têm a frequência mais alta de sequências de ácidos nucleicos favoráveis, em que as sequências são indicadas como favoráveis com base na coincidência com o mapeamento de QTL prévio; ou b) Seleção da progênie contendo as ditas sequências de ácidos nucleicos favoráveis em populações de melhoramento antes, ou em substituição, ao mapeamento de QTL naquela população, em que a seleção pode ser feita em qualquer etapa do melhoramento e também pode ser usada para dirigir múltiplas gerações de seleção recorrente; ou c) Predição de desempenho da progênie para cruzamentos de melhoramento específicos; ou d) Seleção de linhagens para atividades de melhora de germoplasma com base nos ditos haplótipos favoráveis, incluindo de-senvolvimento de linhagem, desenvolvimento de híbrido, seleção entre eventos transgênicos com base no valor de melhoramento do haplóti- po no qual o transgene foi inserido, produção de cruzamentos de melhoramento, teste e promoção de uma planta por autofertilização, uso de planta ou partes da mesma para transformação, uso de plantas ou partes das mesmas para candidatos a construtos de expressão, e uso de planta ou partes da mesma para mutagênese.
[00102] Um aspecto adicional único desta invenção é a capacidade de seleção de genes específicos ou alelos gênicos, quando são visados por sequenciamento de alto rendimento. Por exemplo, em casos onde a sequência de ácido nucleico é coincidente com segmentos nos quais os genes foram identificados é possível deduzir com alta probabilidade que a inferência genética pode ser extrapolada a outro ger- moplasma que tenha um genótipo idêntico naquele locus. Esta informação a priori fornece a base para selecionar genes favoráveis ou ale- los genéticos com base no sequenciamento de ácido nucleico dentro de uma dada população.
[00103] Por exemplo, decisões de melhoramento vegetal podem compreender: a) Seleção entre novas populações de melhoramento para determinar que populações têm a frequência mais alta de sequências de ácidos nucleicos favoráveis, em que sequências são indicadas como favoráveis com base na coincidência com o mapeamento genético prévio; ou b) Seleção da progênie contendo as ditas sequências de ácidos nucleicos favoráveis em populações de melhoramento, em que a seleção é efetivamente permitida no nível gênico, em que a seleção pode ser feita em qualquer etapa de endogamia e também pode ser usada para dirigir múltiplas gerações para seleção recorrente; ou c) Predição de desempenho da progênie de cruzamentos de melhoramento específicos; ou d) Seleção de linhagens para atividades de melhora de germoplasma com base nos ditos haplótipos favoráveis, incluindo de-senvolvimento de linhagem, desenvolvimento de híbrido, seleção entre eventos transgênicos com base no valor de melhoramento do haplóti- po em que o transgene foi inserido, produção de cruzamentos de melhoramento, teste e promoção de uma planta por autofertilização, uso de planta ou partes da mesma para transformação, uso de plantas ou partes das mesmas para candidatos a construtos de expressão, e uso de planta ou partes da mesma para mutagênese.
[00104] Além disso, em outra modalidade preferencial desta invenção, a informação a priori na frequência de sequências de ácidos nu- cleicos favoráveis em populações de melhoramento permite a pré- seleção. Isto é, linhagens parentais são selecionadas com base na informação de associação histórica genótipo-fenótipo com o objetivo de dirigir a frequência de ácido nucleico favorável para múltiplos traços simultaneamente. Na pré-seleção, os melhoradores podem predizer a contribuição fenotípica de múltiplos traços de qualquer linhagem com base na informação sobre a impressão digital daquela linhagem, que equivale a uma composição de sequências predefinidas. Esta abordagem de seleção de sequência de multitraço economiza um programa de melhoramento pela iniciando a seleção na etapa inicial de escolher cruzamentos parentais e também reduz a necessidade da fenotipagem onerosa, demorada da progênie.
[00105] Uma sequência preferencial fornece uma propriedade preferencial a uma planta parental e à progênie do parental quando sele- cionada por meios marcadores ou por meios fenotípicos. O método da presente invenção fornece a seleção de sequências preferenciais, ou sequências de interesse, e o acúmulo destas sequências em uma população de melhoramento.
[00106] Em outra modalidade, esta invenção permite a seleção indireta por decisões de seleção de pelo menos uma sequência de ácido nucleico com base em pelo menos uma estimativa de efeito de sequência de ácido nucleico tal que os fenótipos adicionais sejam indiretamente selecionados devido às estimativas de efeito de sequência de ácidos nucleicos adicionais de outros traços fenotípicos.
[00107] Outra modalidade preferencial da presente invenção deve construir valor adicional pela seleção de uma composição de sequências de ácidos nucleicos em que cada sequência tem um fenótipo associado estimado que não é negativo com respeito ao rendimento, ou não é positivo com respeito à maturidade, ou é nulo com respeito à maturidade, ou entre os 50 por cento melhores com respeito a um traço agronômico, transgene e/ou múltiplo índice de traço quando comparados com qualquer outra sequência de ácido nucleico no mesmo locus no grupo de germoplasma, ou entre os 50 por cento melhores com respeito a um traço agronômico, transgene e/ou múltiplo índice de traço quando comparados com quaisquer outros loci através do genoma inteiro no grupo de germoplasma, ou sequência de ácido nucleico que está presente com uma frequência de 75 por cento ou mais em uma população de melhoramento ou grupo de germoplasma pode ser tomado como evidência de seu alto valor, ou qualquer combinação destes.
[00108] Esta invenção antecipa um empilhamento de sequências de ácidos nucleicos de pelo menos dois loci em plantas ou linhagens pelo cruzamento de plantas ou linhagens parentais contendo sequências de ácidos nucleicos diferentes, isto é, genótipos diferentes. O valor da planta ou linhagem compreendendo em suas sequências de ácidos nucleicos empilhadas do genoma de dois ou mais loci pode ser estimado por um valor de melhoramento composto, que depende de uma combinação do valor dos traços e do valor da sequência(s) de ácido nucleico à qual os traços são ligados. A presente invenção antecipa ainda que o valor de melhoramento composto de uma planta ou linhagem pode ser melhorado pela modificação dos componentes de um ou cada uma das sequências de ácidos nucleicos. Adicionalmente, a presente invenção antecipa que o valor adicional pode ser incorporado no valor de melhoramento composto de uma planta ou linhagem pela seleção de pelo menos uma sequência de ácido nucleico recipiente com uma estimativa de efeito de sequência de ácido nucleico preferencial ou, em conjunto com a frequência da dita sequência de ácido nucleico no agrupamento de germoplasma, valor de melhoramento ao qual uma ou quaisquer outras sequências de ácidos nucleicos são ligados, ou pela seleção de plantas ou linhagens para empilhar duas ou mais sequências de ácidos nucleicos de dois ou mais loci por melhoramento.
[00109] Outra modalidade desta invenção é um método para aumentar populações de melhoramento pelo acúmulo de uma ou mais sequências de ácidos nucleicos em um ou mais loci, em um germo- plasma. Os loci incluem informação genética e fornecem traços fenotí- picos à planta. Variações na informação genética podem resultar na variação do traço fenotípico e o valor do fenótipo pode ser medido. O mapeamento genético das sequências de ácidos nucleicos leva em conta uma determinação da ligação através de sequências. A sequência de ácido nucleico de interesse é nova no genoma da planta de progênie e pode servir por si mesma como um marcador genético para um locus de interesse. Notavelmente, esta sequência de ácido nuclei- co também pode ser usada como um identificador de um gene ou QTL. Por exemplo, no caso de múltiplos traços ou efeitos de traço as- sociados com a sequência de ácido nucleico, somente um marcador seria necessário com objetivos de seleção. Adicionalmente, o locus de interesse pode fornecer um meio para seleção de plantas que têm o locus ligado.
[00110] Em outra modalidade, pelo menos um ácido nucleico preferencial da presente invenção é empilhado com pelo menos um transgene. Em outro aspecto, pelo menos um evento transgênico é promovido com base na ligação ou inserção em um ácido nucleico preferencial, como descrito no Pedido de Patente U.S. publicado em U.S. 2006/0282911, que é incorporado neste pedido por referência em sua totalidade.
[00111] Ainda em outra modalidade, a presente invenção reconhece que os ácidos nucleicos preferenciais identificados pelos métodos apresentados neste pedido podem ser promovidos como genes candidato para inclusão em construtos de expressão, isto é, transgenes. Ácidos nucleicos de interesse podem ser expressos em células vegetais pela ligação operacionalmente a um promotor funcional em plantas. Em outro aspecto, ácidos nucleicos de interesse podem ter sua expressão modificada por supressão gênica mediada por RNA dupla fita, também conhecida como interferência de RNAs("RNAi"), que inclui a supressão mediada por pequenos RNAs de interferência ("siRNA"), pequenos RNAs de interferência transatuantes ("ta-siRNA"), ou mi- croRNAs ("miRNA"). Exemplos de metodologia de RNAi adequada para uso em plantas são descritos detalhadamente nas publicações de pedidos de patente americana 2006/0200878 e 2007/0011775.
[00112] Métodos são conhecidos na técnica para montagem e introdução de construtos em uma célula de tal maneira que a molécula de ácido nucleico para um traço seja transcrita em uma molécula mRNA funcional que é traduzida e expressa como um produto proteico. Para a prática da presente invenção, composições convencionais e métodos para preparação e uso de construtos e células hospedeiras são bem conhecidos por um versado na técnica, ver, por exemplo, Molecular Cloning: A Laboratory Manual, 3rd Edition, Volumes 1, 2, and 3 (2000) J. F. Sambrook, D. W. Russell, and N. Irwin, Cold Spring Harbor Laboratory Press. Métodos para construção de construtos de transformação particularmente ajustados para transformação vegetal incluem, sem restrição, aqueles descritos nas Patentes U.S. N— 4.971.908, 4.940.835, 4.769.061 e 4.757.011, todas as quais são neste pedido incorporadas por referência em sua totalidade. Métodos de transformação para introdução de unidades de expressão em plantas são co-nhecidos na técnica e incluem eletroporação como ilustrado na Patente U.S. N° 5.384.253; bombardeio de microprojétil como ilustrado nas Patentes U.S. Nos 5.015.580; 5.550.318; 5.538.880; 6.160.208; 6.399.861; e 6.403.865; transformação de protoplasto como ilustrado na Patente U.S. N° 5.508.184; e transformação mediada por Agrobacterium como ilustrado nas Patentes U.S. Nos 5.635.055; 5.824.877; 5.591.616; 5.981.840; e 6.384.301.
[00113] A presente invenção também fornece a classificação de loci de plantas de progênie de interesse e uso da estimativa de efeito de ácido nucleico como base de seleção para uso em um programa de melhoramento para aumentar o acúmulo de sequências de ácidos nu- cleicos preferenciais.
[00114] Usando este método, a presente invenção contempla que as sequências de ácidos nucleicos de interesse são selecionadas a partir de uma grande população de plantas. Adicionalmente, estas sequências de ácidos nucleicos podem ser usadas nos métodos de melhoramento descritos para acumular outros loci benéficos e preferenciais e manter estes em uma população de melhoramento para aumentar o germoplasma total da planta. Plantas consideradas para uso no método incluem mas não são limitadas a, milho, soja, algodão, trigo, arroz, canola, colza, beterraba, sorgo, painço, alfafa, culturas de forragem, culturas de semente oleaginosa, culturas de grão, culturas de fruta, plantas ornamentais, culturas de hortaliças, culturas de fibra, culturas de tempero, culturas de noz, culturas de turfa, culturas de açúcar, culturas de bebida, culturas de tubérculo, verduras e culturas florestais.
[00115] Em resumo, esta invenção descreve a nova combinação de sequenciamento de alto rendimento e metodologias de melhoramento molecular para permitir o uso da informação de sequência de ácido nucleico direta para executar o melhoramento vegetal molecular. A invenção também inclui meios de visar seletivamente sítios nucleotídicos polimórficos e amostras de etiqueta de DNA antes da determinação da sequência. Tomada em conjunto, esta invenção permite ao melhorador vegetal usar a informação de sequência na seleção parental, seleção de progênie, escolhendo combinações de verificador, desenvolvendo linhagens, tomando as impressões digitais de amostras, classificando por diversidade haplotípica e para construção de bancos de dados de associações de sequência a traço e dados de desempenho.
[00116] Um objetivo importante de qualquer programa de melhoramento é incorporar economicamente ou de outra maneira traços importantes em uma linhagem ou população de melhoramento. A capacidade para determinar diretamente a sequência da região ligada ao traço ou determinar diretamente as sequência(s) dos loci que são causais do traço permitirá ao melhorador determinar que indivíduos ou linhagens em uma população provavelmente exibem o traço de interesse e dessa forma informam decisões de avanço. Um fluxo de trabalho para sequenciamento de alto rendimento é representado na Figura 1. O presente exemplo demonstra um método da invenção para fazer a seleção direcionada por sequência. O método é diferenciado da seleção assistida por marcador tradicional em que usa a informação direta sobre sequência de ácido nucleico para a seleção em vez de um marcador.
[00117] O óleo de soja ácido de baixo teor linolênico é de interesse comercial porque não resulta em gorduras trans durante o processamento e uso e por isso é mais saudável para o consumo humano. Um gene que é essencial para a biossíntese de ácido linolênico é o gene fad3. Nas sojas, há pelo menos três genes fad3 e mutações em dois dos genes, fad3b e fad3c, podem resultar em baixo teor de ácido lino- lênico. Iniciadores e sondas exemplares para a detecção de mutações nestes genes são apresentados no Pedido de Patente U.S. publicado 20060107348, que é incorporado neste pedido por referência em sua totalidade.
[00118] Em um aspecto, uma primeira etapa da seleção direcionada por sequência pode ser redução da complexidade do genoma, em que diferentes estratégias são exemplificadas nas Figuras 2 a 5. Isto é, uma biblioteca de representação reduzida pode ser obtida por digestão e purificação seletivas, usando enzimas conhecidas na técnica (Figura 2). Em outros aspectos, a biblioteca pode ser visada a partir do trans- criptoma (Figura 3). Ainda em outros aspectos, regiões contendo SNP são isoladas usando extensão/ligação alelo-específica (Figura 5).
[00119] Ainda em outros aspectos, as regiões genômicas visadas por sequência são seletivamente amplificadas (Figura 4). No presente exemplo, a região indel Fad3c foi amplificada usando iniciadores específicos para inserção e deleção. Este método é útil quando a região de interesse compreende uma indel e é especialmente útil na classificação de transgenes. Alternativamente, a região que transpõe o ácido nucleico de interesse é amplificada. No presente exemplo, uma segunda estratégia de redução de complexidade foi empregada, na qual o ensaio de SNP para a região Fad3b foi usado para amplificar a região contendo o SNP com o objetivo de sequenciamento. Em geral, esta abordagem é especialmente útil para utilizar bibliotecas existentes de ensaio de SNP baseado em PCR e usando os conjuntos de iniciador conhecidos como um instrumento na redução de complexidade. A presente invenção antecipa usar SNPs fornecidos pelos Pedidos de Patente U.S. publicados U.S. 2005/0204780, U.S. 2005/0216545, U.S. 2005/0218305 e U.S. 2006/0504538, como ambos os alvos do se- quenciamento bem como do uso na redução de complexidade do ge- noma como descrito neste pedido.
[00120] Uma segunda etapa que pode ser útil para a seleção direcionada por sequência é o uso de etiquetas de DNA para permitir a multiplexação da amostra. No presente exemplo, a cada amostra em um conjunto múltiplo foi destinada uma etiqueta de DNA única, isto é, uma etiqueta de sequência que se diferencia por pelo menos um par de bases de outros códigos de barras no conjunto. Em um aspecto preferencial, a percentagem de bases C e G é equilibrada para minimizar o viés no processo de sequenciamento. A etiqueta de DNA pode variar em tamanho de aproximadamente 2 a aproximadamente 20 bp. Nos presentes exemplos, com 384 amostras de PCR, representando 192 entradas de germoplasma analisadas tanto para o SNP Fad3b como para a indel Fad3c, sequências de 6 bp foram usadas e cada amostra foi sequenciada para ambos SNP e regiões indel.
[00121] Em um aspecto, as etiquetas de DNA são adicionadas aos iniciadores de PCR como mostrado na Figura 7. Alternativamente, podem ser incorporadas na extensão/ligação alelo-específica como mostrado na Figura 5, com o código de barra ligado aos produtos de ex- tensão/ligação alelo-específica ou adicionados aos produtos usando PCR. No presente exemplo, as etiquetas de DNA foram incluídas nos iniciadores de PCR. A figura 9 ilustra um esquema do molde resultante que será usado para o sequenciamento, mostrando ambos SNP Fad3b e indel Fad3c. Especificamente, um par de oligonucleotídeos foi sintetizado para ajudar na determinação de sequência do locus de fad3b. Um iniciador oligonucleotídico de sentido direto é sintetizado para incluir uma etiqueta de DNA de 6 nucleotídeos (Tabela 1) e uma sequência que combina a sequência nucleotídica que é 5' para a mutação fad3b que é conhecida por afetar a função gênica. Para os objetivos desta invenção, uma mutação é o mesmo que um nucleotídeo polimórfico e representa um locus polimórfico. Um iniciador oligonucle- otídico de sentido reverso é sintetizado para uma sequência complementar à região 3' da mutação fad3a. Um segundo par de iniciadores de PCR de sentido direto e reverso é gerado de maneira semelhante para combinar com uma mutação que deleta o gene fad3c que também é conhecido por reduzir o ácido linolênico no óleo de soja. Uma vez que a deleção estende-se além dos limites do gene fad3, um par de iniciadores é desenhado dentro da região de codificação dos genes para determinar se a sequência do gene fad3c está presente e um segundo conjunto de iniciadores é desenhado para transpor a deleção do locus fad3c, se o gene estiver ausente. A distância entre os pares de nucleotídeo é desenhada para estar entre 10 e 200 nucleotídeos e a mutação adjacente à extremidade do iniciador de sentido direto, por isso mais próxima da etiqueta de DNA. Mais similar a distância entre os iniciadores, mais provavelmente a amplificação de PCR do molde será equilibrado através de múltiplos loci, entretanto, distâncias mais longas podem ser necessárias em alguns exemplos para encontrar intervalos de nucleotídeos apropriados para o desenho de iniciador robusto, por exemplo, destituído de sequências repetitivas, estrutura de sequência não existente e conteúdo de GC balanceado. A mesma etiqueta de DNA pode ser usada para o iniciador de sentido direto nos três pares de iniciadores. Os três pares representaram um conjunto de genotipagem ou impressão digital que pode ser usado para uma amostra. Especificamente, os seguintes pares de iniciador foram utilizados no presente exemplo: Fad3B (SNP NS0193115), 192 iniciadores de sentido direto ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais CATTGGCACCCATGTTATCC; Iniciador de sentido reverso Fad3B único CAAGCAGAAGACGGCATACGAGCTCTT- CCGATCT mais GACTTAGATCACATAGGCAGACATAC; Inserção de Fad3C, 192 iniciadores de sentido direto ACACTCTTTCCCTACA- CGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais TAAG- TGACACTGGAGATGTGG; deleção de Fad3C, 192 iniciadores de sentido direto ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais 192 etiqueta de DNA mais CAGAAAGTATTGGTAAAGTACTGGTA; Iniciador de sentido reverso Fad3C único CAAGCAGAAGACGGCA- TACGAGCTCTTCCGATCT mais TAAATATTCCATTGAGGCCCACTA, em que quantidade molar igual de iniciadores foi misturada. Tabela 1: Etiquetas de DNA de 6 nucleotídeos exemplares para as 192 variedades genotipadas no presente exemplo.
[00122] 192 conjuntos de genotipagem adicionais foram então ge rados onde cada conjunto é idêntico exceto que a etiqueta de DNA no iniciador de sentido direto dos três pares de oligonucleotídeos é trocada por uma etiqueta única da lista de 4096 etiquetas possíveis. As sequências de mutações fad3b e fad3c foram então determinadas para uma população de 192 variedades de soja da seguinte maneira. Uma semente única de cada uma das 192 linhagens foi escolhida para remover uma porção do tecido da semente mantendo a viabilidade da semente como descrito, por exemplo, em U.S. 2006/0046264 e U.S. 2007/0204366, cada uma das quais são incorporadas neste pedido por referência.
[00123] Para preparar o molde para o sequenciamento, DNA foi preparado para cada uma das amostras de tecido e então 10 ng foram dispensados em 2 placas de microtítulo de 96 poços. A cada poço, uma master mix de PCR foi adicionada junto com Taq polimerase, de acordo com recomendações do fabricante (Roche, ABI). Finalmente, 100 μM de um conjunto de iniciador de genotipagem selecionado, incluindo etiquetas de DNA correspondes, foram adicionados a cada po- ço. A placa foi aquecida a 95°C por nove minutos pa ra desnaturar o DNA. Vinte ciclos de PCR foram então completados usando as seguintes condições: 94°C por 30 s, 55°C por 30 s, 72°C p or 2 min, seguidos por uma extensão final de 10 minutos a 72°C.
[00124] Após a PCR, todas as 192 linhagens foram combinadas em um poço único que então foi usado para uma reação de sequencia- mento HT, de acordo com orientações do fabricante (Analisador de Genoma Illumina). Resumidamente, quantidades iguais de 384 produtos de PCR foram misturadas e posteriormente purificadas usando métodos de purificação de PCR conhecidos na técnica. Aproximadamente 5 a 10 ng do molde purificado foram amplificados com PCR enriquecida por especificações do Analisador de Genoma Illumina. A PCR enriquecida também adiciona o adaptador requerido à reação de PCR de ponte a jusante se os adaptadores já não foram incorporados nos iniciadores. O produto de PCR enriquecido é purificado, novamente usando métodos de purificação de PCR conhecidos na técnica, e o molde resultante é sequenciado por especificações do Analisador de Genoma Illumina.
[00125] As sequências obtidas da reação de sequenciamento foram depositadas de acordo com a sequência de etiqueta de DNA. Dentro de cada compartimento, as sequências foram analisadas pelo alinhamento aos iniciadores de sentido direto de SNP e de indel para determinar se a mutação conhecida, qualquer outra variação ou nucleotí- deos de tipo selvagem estavam presentes próximas do oligonucleotí- deo complementar 3'. Os genótipos de SNP foram chamados com base na posição do SNP nas sequências (ver Figura 10 para gráfico de dispersão resultante). Os genótipos indel foram determinados pelos pareamentos às sequências dos dois iniciadores de sentido direto (ver Figura 11 para gráfico de dispersão resultante). Contagens de parea- mento de sequência podem ser traçadas para lidar com fundos. Fer-ramentas de marcação aprimoradas podem ser usadas/desenvolvidas para a normalização/calibração e mais confiáveis chamadas de genó- tipo. Se ambas as sequências mutante e de tipo selvagem fossem identificados, a amostra foi predita para ser heterozigota. Se somente as sequências nucleotídicas que corresponderam a sequências de tipo selvagem estivessem presentes, então a amostra foi classificada como ácido linolênico normal. Se as sequências mutantes conhecidas fossem identificadas, então as amostras foram classificadas como ácido linolênico baixo. Identificação e classificação das sequências no locus de fad3b, no locus de fad3c e no locus de deleção de fad3c permitem a um melhorador classificar plantas para caracterizar o genótipo associado ao ácido linolênico baixo e então decidir que variedades de ácido linolênico baixo testar para aprimorar o rendimento.
[00126] Uma ferramenta poderosa em melhoramento vegetal é o retrocruzamento. Retrocruzamento permite a um melhorador extrair uma ou mais das melhores características em uma linhagem doadora e sistematicamente introgredi-las em uma linhagem parental recorrente. Em essência, a(s) região(ões) genômica em um ou mais loci de DNA doador selecionados são sistematicamente introgredidas em um genoma parental recorrente, substituindo os ácidos nucleicos nos loci correspondentes no genoma parental recorrente. Os tipos de características que são tipicamente introgredidas entre linhagens incluem, mas não são limitadas a, transgenes, resistência à doença, resistência à praga, traços de qualidade, traços agronômicos, etc. Tradicionalmente, este processo pode tomar cinco ou mais gerações para obter os traços de interesse em uma progênie que também mostra equivalência ao parental recorrente e tem desempenho agronômico do parental recorrente. Se o desempenho da linhagem convertida não se igualar ao desempenho predito do parental recorrente mais o novo traço, muitas vezes pode ser muito difícil entender o problema e como corrigi-lo.
[00127] A sequência direcionada por retrocruzamento (SDBC) pode acelerar muito o processo e resultar em um resultado mais quantificá- vel. Usando sequências, a progênie a partir de cada geração de retro- cruzamento é examinada para ambas as sequências de ácidos nuclei- cos do parental doador que codificam ou são ligadas às características de interesse e sequências nucleicas no genoma parental recorrente. O exame considera ambas as diferenças (polimorfismos) e identidade entre as sequências. A progênie de retrocruzamento é selecionada e promovida com base em sua composição de sequência de ácido nu- cleico, que inclui tanto a codificação de sequências de ácido nucleico ou ligada ao traço alvo quanto a porcentagem mais alta de sequências de ácidos nucleicos que combinam com a sequência parental recorrente. Pelo direcionamento do processo com sequência em vez de informação sobre marcador, o processo pode ser concluído em menos gerações, com uma recuperação mais alta do parental recorrente.
[00128] Um exemplo particular de SDBC é a introgressão direcionada de um transgene a partir de uma linhagem doadora para uma linhagem parental recorrente e um exemplo de um transgene que codifica resistência à herbicida, também conhecida como o gene CP4 bac- teriano, que é uma parte crítica da sequência requerida para o traço Roundup Ready®. Neste exemplo, uma linhagem doadora é fixada ou homozigota para o gene CP4 e é desejável para introgredir o CP4 em uma linhagem parental recorrente. O melhorador plantou 15 sementes do parental recorrente ao lado de 15 sementes de uma linhagem do parental doadora CP4. Quatro cruzamentos são feitos pela polinização das espigas doadoras com o pólen do parental recorrente. A semente resultante é a semente F1. Um triplete é plantado com uma linhagem parental recorrente plantada entre duas fileiras de semente Fl obtida de uma ou duas espigas de melhor aparência de Fl. No momento da antese, o parental recorrente é usado para polinizar 4 das F1 em cada uma das fileiras flanqueadoras (total de 8 cruzamentos). As duas melhores espigas BC1 são colhidas de cada fileira e a semente de BC1 é expandida. Em média, é esperado que a semente BC1 contenha 25% do genoma de doador e 75% do genoma parental recorrente, entretanto, o conteúdo exato de qualquer planta individual varia dentro de uma distribuição normal. Os esforços de retrocruzamentos subsequentes seriam aumentados pela seleção do subconjunto de sementes com o genoma parental recorrente mais alto e que contêm o transgene. A semente BC1 também estaria segregando o transgene CP4. O se- quenciamento é usado para identificar qual das 93 plantas BC1 tinha quantidade mais alta de sequências de ácidos nucleicos parentais re-correntes e continha o transgene. O subconjunto desejável pode ser identificado inspecionando a sequência em vários loci, por exemplo, 96, onde um dos loci é o locus CP4.
[00129] A semente de cada um dos parentais, a expansão de F1 e de cada uma das 93 BC1 é plantada em fileiras e as plantas cultivadas. Na etapa V4 (4° estágio da folha), um pedaço de folha é tomado de cada planta e colocado em um poço único de um bloco de 96 poços. O DNA é preparado de acordo com o método descrito em Della- porta et al., 1983 Planta Mol Biol Rep 1: 19-21, que é incorporado por referência neste pedido em sua totalidade. O DNA de cada um dos 96 loci é preparado ainda usando uma amplificação inicial. Neste exemplo, a amplificação é usada para incorporar a etiqueta de DNA e adaptadores mas outros métodos são conhecidos e aplicáveis. Um iniciador de sentido direto específico para um locus é desenhado contendo 18 nucleotídeos na extremidade 3' que hibridizaria na 5' do locus alvo. A extremidade 5' do iniciador de sentido direto também continha 15 nu- cleotídeos que se pareavam com os 15 nucleotídeos 3' de um iniciador de PCR de sentido direto universal. De modo semelhante, um iniciador de PCR de sentido reverso é desenhado onde 18 bases na extremidade 3' complementares aos nucleotídeos 3' do locus alvo. O iniciador de sentido reverso também continha 15 pares de bases na extremidade 5' que se pareavam com a extremidade 3' de um iniciador de sentido reverso universal. Neste exemplo, os loci alvos são 6 a 10 nucleotídeos, entretanto podem variar de somente 2 nucleotídeos a várias centenas ou mais. Este processo é repetido para cada um dos 96 loci onde um dos loci é o locus CP4. Noventa e cinco dos loci são selecionados para recobrir cada braço de cada cromossomo e incluíram alguns marcadores extras que flanqueiam o locus CP4.
[00130] Além do iniciadores específicos para o gene, iniciadores universais também são desenhados. O iniciador universal de sentido reverso é sintetizado para conter os 15 nucleotídeos na extremidade 5' do iniciador de sentido direto específico do gene. O iniciador universal de sentido reverso é sintetizado para hibridizar aos nucleotídeos de PCR universais no iniciador específico de sentido reverso do gene e além disso, continha uma etiqueta de 5 nucleotídeos na extremidade 5'. Noventa e seis (96) iniciadores de sentido reverso universais diferentes são sintetizados com cada iniciador contendo uma sequência de etiqueta única escolhida de 1024 combinações possíveis fornecidas por uma das 4 bases em cada uma das 5 posições nucleotídicas. As amostras são submetidas a PCR usando condições padrão. Os ciclos iniciais de PCR têm o objetivo de incorporar os iniciadores universais e etiqueta de DNA em um número limitado de cópias de cada locus. 96 pares de iniciadores de sentido direto e reverso específicos para o gene são diluídos e então combinados para fazer uma solução equimolar de estoque, multiplexada, em uma concentração final de oligonucleotí- deo total de 10 μmol por litro de solução. Ensaios de PCR continham tampão de PCR 1X, MgCl2 2,5 mM, mistura de dNTP 0,2mM, 1U de Taq DNA polimerase, 1 μM do iniciador de sentido direto universal, 100 nM dos iniciadores multiplexados e 1 μl do extrato de DNA. Além disso, a cada amostra única, um iniciador universal de sentido reverso unicamente etiquetado é adicionado a uma concentração final de 1 μM. A ciclagem é realizada em um ABI 7900 com o seguinte programa de ciclagem: Desnaturação inicial a 94°C por 90 seg undos; seguido por 4 ciclos de 94°C por 30 segundos, 55°C por 30 s egundos e 72°C por 30 segundos; seguido por 22 ciclos de 94°C por 30 segundos e 72°C por 60 segundos. A incorporação da etiqueta de DNA através de PCR ou ligação é essencial para o método, entretanto, a amplificação subsequente não é sempre necessária mas pode facilitar as etapas de manejo de amostra a jusante na preparação para o sequenciamento. Após PCR, 2 μl do produto de amplificação são examinados por eletroforese em gel de agarose em géis de agarose 2% posteriormente marcados com o brometo de etídeo para confirmar a presença de um produto único. Os ensaios com uma reação de PCR positiva são combinados em um agrupamento único e purificado usando um conjunto Qiagen (Qiagen, EUA). Os produtos purificados então são submetidos ao sequenciamento de alto rendimento de acordo com o protocolo do fabricante (Analisador de Genoma Illumina 1G Analisador, Illumina, Inc.). Duas leituras são obtidas de cada molécula sequenciada. A primeira leitura é obtida pelo uso de um iniciador que corresponde à sequência de iniciador de PCR universal de sentido direto. Este iniciador de se- quenciamento resultou em uma leitura curta da sequência no locus para o qual o iniciador é desenhado e dentro de uma dada amostra, como identificado pela etiqueta. A etiqueta é lida usando uma corrida curta em um iniciador de sequenciamento desenhado para hibridizar à sequência de iniciador universal de sentido reverso. Esta segunda sequência de leitura é reiniciada após a leitura da sequência de locus ser completada.
[00131] As sequências obtidas da reação de sequenciamento são depositadas de acordo com a sequência de etiqueta de DNA. Isto é feito pelo corte da segunda sequência de leitura abaixo da etiqueta de DNA e então sobrecarregando as etiqueta dentro de uma corrida uma à outra. Dentro de cada compartimento de amostra, as sequências são agrupadas para combinar múltiplas leituras do mesmo locus. As sequências em um dado locus então são comparadas (usando BLAST) à sequência esperada do parental recorrente e do parental doador e do gene CP4. Se todas as sequências de leitura parearam ao parental recorrente, o locus é indicado como fixado para o parental recorrente. Se todas as sequências parearam ao doador parental, o locus é fixado para o doador parental e um ou mais retrocruzamentos adicionais seriam necessários para reintroduzir os ácidos nucleicos parentais recor-rentes para aquele locus na população. Se ambas as sequências de parental recorrente e parental doador são observadas, o locus é chamado heterozigoto e a linhagem pode ser auto ou retrocruzada para fixação do parental recorrente. Esta lógica é seguida para os 95 loci e para o locus de CP4. A progênie com o maior número de loci parentais recorrentes e que continha o locus de CP4 é aprimorada por retrocru- zamento adicional a fim de continuar a introgressão adicional e fixação de ácidos nucleicos parentais recorrentes em todos os loci exceto no doador de ácidos nucleicos no locus de CP4.
[00132] A presente invenção antecipa ainda o uso dos métodos descritos neste pedido para introgressão de duas ou mais regiões ge- nômicas, que podem ser transgênicas ou convencionais (isto é, QTL). Exemplo 3: Impressão Digital Molecular Usando sequenciamento HT (Sequência direcionada por Impressão Digital)
[00133] Sequências nucleotídicas são a última avaliação e mensu- ração de constituição genética de plantas individuais e similaridades genéticas entre variedades/linhagens vegetais. As impressões digitais moleculares com base em perfis nucleotídicos podem fornecer a in- formação geral através do genoma que pode ser usado, entre outras aplicações, para avaliar a diversidade de germoplasma, auxiliar a seleção de parentais e verificadores de desempenho superior, investigar novos agrupamentos de germoplasma para alvos potenciais de intro- gressão, investigar agrupamentos de germoplasma novos ou existentes para regiões genômicas associadas com pelo menos um fenótipo de interesse, bem como proteger propriedades intelectuais do germo- plasma. Se duas linhagens forem suficientemente diversas, estão provavelmente em grupos heteróticos diferentes. Isto é, podem completar uma a outra, e, quando hibridizadas, ter uma alta probabilidade de gerar um cruzamento de melhoramento produtivo ou uma combinação híbrida. Por outro lado, a similaridade entre linhagens pode sugerir um cruzamento subótimo potencial. Além disso, a similaridade de impressão digital fornece uma base para avaliação da infração de propriedade intelectual.
[00134] Impressões digitais moleculares podem concentrar-se em regiões selecionadas do genoma e revelar a informação de sequência em loci específicos incluindo, mas não limitadas àquelas que são causais ou ligadas a traços de importância econômica. A presença ou ausência de sequências nucleotídicas particulares ou variantes particulares de sequência nucleotídica em um ou mais loci pode ser associada com traços de interesse, e usada para predizer o desempenho destes traços, e selecionar linhagens de alto desempenho em vez de fenoti- pagem direta. Impressões digitais moleculares podem ser geradas com base em sequências genômicas inteiras, que é caro e demorado, e muitas vezes não prático. A complexidade genômica pode ser reduzida usando vários métodos antes do sequenciamento para produzir impressões digitais que são baseadas em uma pequena representação (regiões selecionadas ou loci) do genoma. A presente invenção fornece uma abordagem mais eficiente e custo-eficiente do que a téc- nica atual, que envolve a detecção com base em PCR de uma pluralidade de polimorfismos genéticos. Neste pedido, regiões/loci polimórfi- cos selecionados são amplificados por PCR e então diretamente geno- tipados usando sequenciamento HT. PCR multiplex pode ser usada para amplificar tantos como centenas de milhares de tais regiões/loci simultaneamente. Amostras multiplexadas pelo uso de etiqueta de DNA podem ter vantagem adicional da informação de sequência mas- siva gerada por corrida por metodologias de sequenciamento HT.
[00135] Para impressão digital molecular, a primeira etapa deve selecionar as regiões polimórficas ou loci a serem usados para gerar impressões digitais moleculares com base em sequência nucleotídica. SNPs são uma fonte de loci candidatos embora não sejam a única fonte. O número de loci usados é determinado por muitos fatores incluindo, mas não limitados aos objetivos e orçamentos dos projetos bem como a estrutura dos genomas sob investigação.
[00136] Por exemplo, selecionamos 384 SNPs de milho para demonstrar o processo de impressão digital molecular embora a capacidade de uma corrida de sequenciamento HT única permita o uso de um conjunto muito maior de SNPs. Um canal único de célula de fluxo de Analisador de Genoma Illumina pode gerar aproximadamente 6 milhões de sequências de leitura por corrida de sequenciamento. Por isso, aproximadamente 300.000 loci podem ser genotipados simultaneamente com aproximadamente redundância de sequência de 20X. Se um menor número de loci for necessário, ~3,000 loci de 96 amostras diferentes podem ser sequenciados ao mesmo tempo pela multiplexa- ção de amostras (ver abaixo). Estes 384 SNPs são escolhidos de um maior agrupamento de SNPs com base em características incluindo até a distribuição no genoma de milho e valores de conteúdo de informação de polimorfismo (PIC) mais de 3,0 em uma tentativa de maximizar o conteúdo de informação. Uma porção dos SNPs é ligada a ca-racterísticas importantes relacionadas ao desempenho em milho.
[00137] A segunda etapa é para amplificar os loci selecionados usando PCR multiplex. Um par de oligonucleotídeos é sintetizado para cada SNP, com um deles pareando com a sequência nucleotídica que é 5' ao nucleotídeo polimórfico no SNP e outro complementar à região 3' do nucleotídeo polimórfico. Para resultados ótimos de sequencia- mento, embora não necessário, os dois oligonucleotídeos são separados por um comprimento que combina com o tamanho de fragmento sugerido por metodologias de sequenciamento HT (50 a 150 nucleotí- deos para o Analisador de Genoma Illumina), com um deles adjacente mas não sobrepondo o nucleotídeo polimórfico. Para aumentar a eficiência de PCR multiplex, os oligonucleotídeos para os 384 loci são desenhados para que interfiram um com outro pelo menos e que os 384 produtos de PCR resultantes tenham tamanho e conteúdo de GC similar. PCR em duas etapas com oligonucleotídeos bipartidos que contém uma sequência genoma-específica e um iniciador de PCR universal também podem ajudar a aumentar a eficiência de multiplexação de PCR. Quando PCR de duas etapas é usada, a metodologia de se- quenciamento HT empregada tem que ser capaz de sequenciar através do iniciador de PCR universal e oligonucleotídeos genoma- específicos para alcançar o nucleotídeo(s) polimórfico de interesse. De outra maneira, os produtos de PCR têm que ser processados para assegurar aquela leitura de sequenciamento no nucleotídeo(s) polimórfi- co. Outra opção seria usar o iniciador de sequenciamento como parte do iniciador de PCR universal (ver exemplo 2) para reduzir o número de nucleotídeos entre o iniciador de sequenciamento e o nucleotí- deo(s) a ser sequenciado.
[00138] Embora seja possível juntar loci "as you go" com base no objetivo do experimento e/ou os informativos do locus individual em uma dada população da amostra, para impressão digital molecular dos loci selecionados são normalmente usados como um conjunto fixo. Os 384 pares de oligonucleotídeos (um para cada locus escolhido) são diluídos em água e agrupados a uma concentração final de 5 nM de cada oligonucleotídeo.
[00139] DNA é preparado a partir de cada linhagem de milho sendo tomada as impressões digitais usando protocolos de extração padrão. Aproximadamente 100 ng de cada DNA (variação dependendo do número de loci usados e o tamanho do genoma) são dispensados em placas de microtítulo de 96 ou 384 poços dependendo do número de linhagens em um experimento e formato de multiplexação da amostra. Neste exemplo, tomamos as impressões digitais de 96 linhagens puras de milho. A cada poço, uma master mix de PCR é adicionada junto com DNA polimerase de alta fidelidade de acordo com os protocolos de PCR padrão. Finalmente, a mistura dos 384 pares de oligonucleotí- deos é adicionada a cada poço a uma concentração final de 0,5 nM por oligonucleotídeo e um volume final de 10 μL. Um exemplo de perfil de PCR seria 94°C por 1 min, 55°C por 2 min, e rampa de 55°C a 72°C em 7 min por 25 ciclos, seguidos por 72°C por 7 min. Qualquer protocolo de PCR pode ser usado enquanto produtos específicos o suficiente de todos os loci selecionados são gerados para sequenciamento HT. Para minimizar erros de amplificação por PCR e amplificação desigual entre loci, amplificação é controlada pela redução do número de ciclos e/ou quantidade de oligonucleotídeos. A meta é gerar a quantidade de produtos de PCR que são equivalentes ao DNA inicial sugerido pelas metodologias de sequenciamento HT.
[00140] Os produtos de PCR então são purificados de acordo com as exigências de sequenciamento HT antes de serem ligados aos adaptadores de sequenciamento. O DNA genômico molde usado em PCR não competirá com os produtos de PCR significativamente nas reações de sequenciamento a jusante devido ao grande tamanho do DNA genômico. Para resultados ótimos, o DNA molde pode ser removido dos produtos de PCR usando métodos que são conhecidos na técnica. De fato, se as colunas de purificação Qiagen são usadas para purificar os produtos de PCR para ligação, a maioria do DNA genômi- co será removida. Neste exemplo, conjuntos de PCR de purificação Qiagen (formato 96 poços, de acordo com instruções do fabricante) são usados para purificar os produtos de PCR e remover o DNA ge- nômico molde (DNA genômico liga-se às colunas muito estreitas devido ao seu tamanho e é difícil de eluir).
[00141] Finalmente, os produtos de PCR são ligados aos adaptadores de sequenciamento para sequenciamento HT em Analisador de Genoma Illumina. Outras metodologias são conhecidas na técnica e estão dentro do espírito e escopo desta invenção. De fato, se iniciadores universais são usados em um esquema de PCR de duas etapas e as sequências de adaptador são usadas como iniciadores universais, a ligação de produtos de PCR a adaptadores não é necessária uma vez que já são introduzidos através de PCR.
[00142] Para ter vantagem da informação de sequência massiva gerada pela tecnologia de sequenciamento do Analisador de Genoma Illumina, múltiplas amostras são agrupadas em reações de sequenci- amento e então desenroladas usando sequências de etiqueta de DNA. Etiquetas de DNA são normalmente 2 a 6 nucleotídeos (16 a 4096 etiquetas únicas para multiplexação) embora as sequências mais longas sejam desejadas para que as amostras sejam distintas por mais de uma diferença de nucleotídeo para reduzir o erro. O nível de multiple- xação da amostra é determinado pelo número de leituras de sequenci- amento gerado por corrida, o número de loci usados e o nível desejado de redundância, entre outros fatores. As etiquetas de DNA podem ser introduzidas em moldes de sequenciamento (produtos de PCR neste caso) usando vários métodos incluindo aquele no exemplo 2, isto é, incluindo as sequências de etiqueta de DNA em iniciadores de PCR. Ou versões diferentes dos adaptadores podem ser sintetizadas, com cada versão que tem uma das sequências de etiqueta de DNA únicas adicionadas na extremidade 3'; então cada versão é usada para uma das amostras em um conjunto de multiplexação. Neste exemplo, foi usado o conjunto de 96 adaptadores fornecidos por Analisador de Genoma Illumina, e cada adaptador, de acordo com instruções do fabricante, é ligado ao produto de PCR em um dos 96 poços na placa de PCR que equivale a uma das 96 amostras em um formato de multiple- xação de amostra. Os produtos ligados nos 96 poços então são combinados em um poço único, e usados para a reação de sequenciamen- to HT de acordo os protocolos de sequenciamento do Analisador de Genoma Illumina. A mesma mistura de oligonucleotídeo de 384 SNPs pode ser usada para amplificar mais amostras, e produtos de PCR de cada placa de 96 amostras podem ser ligados às 96 versões dos adaptadores e agrupados em um poço para o sequenciamento HT. Cada célula de fluxo do Analisador de Genoma Illumina pode processar até 8 agrupamentos por corrida de sequenciamento.
[00143] As sequências obtidas das reações de sequenciamento HT são primeiro depositadas de acordo com as sequências de etiqueta de DNA, destinando sequências às 96 amostras em um agrupamento. Dentro de cada compartimento, as sequências são ainda agrupadas com base nas sequências dos oligonucleotídeos que são adjacentes ao nucleotídeo(s) polimórfico e usadas para amplificar os produtos de PCR. Deve haver 384 grupos de sequências em cada compartimento, com cada um correspondendo a cada um dos 384 loci SNP. As sequências então são analisadas para determinar que alelo está presente em cada um dos 384 loci em cada uma das 96 amostras.
[00144] A informação de sequência é usada para determinar a presença ou ausência de uma sequência nucleotídica particular ou uma variante particular da sequência nucleotídica em um locus que pode ser usado para correlacionar o desempenho de traços economicamente importantes. Uma vez que a associação é estabelecida, com uma sequência particular ou variante de sequência que é a causa ou é justamente ligada ao traço(s) de interesse, a sequência pode ser usada para predizer o desempenho destes traços e selecionar parentais, verificadores ou progênies de alta performance em vez de fenotipagem direta. As sequências ou variantes de sequência também podem ser usadas para estimar, e com o objetivo de aumentar, a frequência de sequências favoráveis ou variantes de sequência.
[00145] Às vezes, as combinações de várias sequências nucleotídi- cas ou variantes de sequências nucleotídicas em múltiplos loci são mais preditivas de certos traços. Usando a sequência ou combinações de variantes em loci estreitamente ligados, isto é, definindo haplótipos em janelas haplotípicas predeterminadas, é mais informativo e prediti- vo do que tratar dos loci individualmente. Outra vantagem de usar combinações de sequências em loci ligados consiste em que somente um subconjunto de loci é necessário para ter a informação do genoma total porque os cromossomos são herdados em blocos em desequilíbrio de ligação (janelas haplotípicas) e informação de sequência em loci selecionados (loci de etiquetagem) de um bloco pode dar a informação para todos os loci no bloco.
[00146] A presente invenção fornece uma abordagem mais eficiente e custo-eficiente do que a técnica atual, que envolve a detecção com base em PCR de uma pluralidade de polimorfismos genéticos. Neste pedido, de regiões/loci polimórficos de soja selecionados foram amplificados e então diretamente genotipados usando sequenciamento HT. No presente exemplo, 1536 loci foram avaliados usando tecnologia de sequenciamento HT no Analisador de Genoma Illumina. O presente exemplo também fornece métodos para sequenciamento indireto, em que etiquetas alelo-específicas foram incorporadas no molde correspondente para que somente a etiqueta tenha que ser sequenciada para inferir o polimorfismo.
[00147] Como representado nas figuras 2 a 5, há múltiplas estratégias para redução de complexidade genômica. Com o objetivo de tomar as impressões digitais, cada um pode desejar empregar um ou mais dos métodos para redução de complexidade conhecidos na técnica. No presente exemplo, ensaios para SNP baseados em PCR existentes foram utilizados para polimorfismos alvo conhecidos usando iniciadores de PCR correspondentes ao SNPs como mostrado na Figura 4 (impressão digital direta) ou extensão/ligação alelo-específica como ilustrado na Figura 5 (impressão digital indireta). Utilizar uma biblioteca SNP existente é particularmente vantajoso para referenciar um ou mais bancos de dados com a informação histórica de genótipo com um conjunto principal de SNPs.
[00148] Após, a incorporação de etiquetas de DNA é usada a fim de permitir a multiplexação da amostra. No presente exemplo, a cada amostra em um conjunto multiplex foi destinada uma etiqueta de DNA única, isto é, uma etiqueta de sequência que se diferencia por pelo menos um par de bases de outros códigos de barras no conjunto. Em um aspecto preferencial, a porcentagem de bases C e G é balanceada para minimizar o viés no processo de sequenciamento. A etiqueta de DNA pode variar no comprimento de aproximadamente 2 a aproximadamente 20 bp. No presente exemplo, com 96 amostras (amostras de germoplasma), 5 sequências de bp foram usadas para etiquetas de DNA com cada etiqueta de DNA que se diferencia por 2 ou mais nu- cleotídeos (Tabela 2). Estas etiquetas de DNA de amostra foram in-corporadas nas etiquetas alelo-específicas e estes oligonucleotídeos alelo-específicos foram adicionados aos projetos de extensão/ligação alelo-específicos usando PCR.
[00149] Em outros aspectos, as etiquetas alelo-específicas podem ser adicionadas aos produtos de extensão/ligação usando uma reação de ligação.Tabela 2: Etiquetas de DNA de 5 nucleotídeos exemplares em 96 poços
[00150] Este exemplo de impressão digital incluiu 1536 SNPs de soja, em que cada SNP foi tratado como bialélico e dessa forma tinha dois oligonucleotídeos alelo-específicos (etiqueta alelo-específica mais a etiqueta de DNA da amostra) e um oligonucleotídeo locus-específico (Figura 7). O oligonucleotídeo locus-específico compreendeu uma sequência de adaptador universal na extremidade 3', neste pedido GTCTGCCTATAGTGAG, embora a sequência de adaptador universal também possa ser parte do iniciador necessário para o sequenciamen- to a jusante (isto é, o iniciador Illumina PCR 2.1). Os oligonucleotídeos alelo-específicos foram aproximadamente 15 nucleotídeos em comprimento, com temperaturas de fusão balanceadas.
[00151] Para preparar o molde para o sequenciamento, DNA foi preparado para cada uma das amostras teciduais como descrito acima. Para gerar os produtos de extensão/ligação alelo-específicos, as etiqueta alelo-específicas e oligonucleotídeos locus-específicos foram misturados com o molde, com um aquecimento inicial a 70°C, então resfriado gradualmente, seguido por 15 minutos a 45°C para reações de DNA polimerase e ligase, como representado na Figura 5.
[00152] Após extensão/ligação, os produtos foram purificados usando contas magnéticas como conhecido na técnica. Uma PCR subsequente foi conduzida para adicionar etiqueta de DNA da amostra, que foi adicionada ao lado da etiqueta alelo-específica como ilustrado na Figura 12. 96 (x2) iniciadores de sentido direto foram usados, correspondendo a 96 amostras de germoplasma. Além disso, o iniciador de sequenciamento genômico do Analisador de Genoma Illumina foi adicionado à extremidade 5', em que a extremidade 5' da sequência de leitura: ACACTCTTTCCCTACACGACGCTCTTCCGATCT mais códigos de barra de amostra 5-nt (96 versões) mais 15/16-nt códigos de alelo (2 versões). Um iniciador de sentido reverso único foi usado, que equivale à sequência de adaptador universal, e o iniciador de PCR 2.1 do Analisador de Genoma Illumina foi adicionado à extremidade 5' deste iniciador de sentido reverso, em que a extremidade 3' das sequências de leitura: CAAGCAGAAGACGGCATACGAGCTCTT- CCGATCT mais CTCACTATAGGCAGAC. Master mix de PCR foi adi- cionada a 5 μL de produtos de extensão/ligação, junto com 0,3 U de DNA polimerase de alta fidelidade de acordo com o protocolo de PCR padrão, com uma concentração de reação final de iniciadores de 0,16 μM, dNTPs 0,1 mM em um volume final de 25 μL. A placa foi aquecida a 95°C por nove minutos para desnaturar o DNA. Quinze ciclos de PCR então foram completados usando as seguintes condições: 94°C por 30 s, 50°C por 30 s, 72°C por 2 min, seguidos por uma extensão final de 10 min a 72°C.
[00153] Aproximadamente 5 a 10 ng do molde purificado foram amplificados com PCR enriquecida por especificações do Analisador de Genoma Illumina. A PCR enriquecida também adiciona o adaptador necessário para reação de PCR ponte a jusante se os adaptadores já não foram incorporados nos iniciadores. O produto da PCR enriquecida é purificado, novamente usando métodos de purificação de PCR conhecidos na técnica, e o molde resultante é sequenciado por especificações do Analisador de Genoma Illumina.
[00154] As sequências obtidas da reação de sequenciamento foram depositadas de acordo com a sequência de etiqueta de DNA e sequência de etiqueta alelo-específica. A figura 13 mostra a taxa de êxito dos marcadores e amostras de soja, com quase 90% dos marcadores e entradas de germoplasma que têm uma taxa de chamada entre 90 e 100%. O presente exemplo usou etiquetas alelo-específicas que oferecem uma vantagem no desenrolamento da sequência tal que o ge- nótipo de uma amostra possa ser destinado com base nos 20 primeiros pares de bases uma vez que os 5 primeiros pares de bases identificaram a amostra de germoplasma e os 15 pares de bases seguintes representaram o alelo. Em outras modalidades, a etiqueta de DNA pode ser tão curta como 2 pares de bases e a etiqueta alelo-específica pode ser tão curta como dois pares de bases para reduzir ainda a sequência de leitura necessária ao genótipo. Em uma modalidade prefe- rencial, os métodos da presente invenção antecipam inferir o genótipo com base em somente uma etiqueta de 2 pares de bases, dependendo do grau de multiplexação. Ainda em outro aspecto, os métodos da presente invenção antecipam inferir o genótipo com base em um par de base única.
[00155] A capacidade de gerar simultaneamente grandes quantidades de dados de impressão digital, ligados com a flexibilidade para saturar regiões específicas com a sequência contígua ou utilizar sítios polimórficos conhecidos de dados de impressão digital através de um haplótipo, cromossomo, ou até genoma fornece um instrumento valioso para atividades de melhora de germoplasma, trabalho experimental para identificar regiões genômicas de interesse, garantia de qualidade e controle, e monitoramento de proteção de IP.
[00156] Um aspecto desta invenção é a capacidade de sequenciar simultaneamente múltiplos moldes de ácidos nucleicos que podem compreender amostras de indivíduos diferentes ou indivíduos agrupados bem como múltiplos loci.
[00157] Neste exemplo, foi utilizado iniciadores randômicos (hexâ- meros a decâmeros dependendo do projeto) marcados com um sistema de codificação. O sistema de codificação consistirá de uma série de sequências nucleotídicas não nativas variando de dois nucleotídeos à metade do comprimento do iniciador randômico. Misturas de iniciadores randômicos marcados com pelo menos duas etiquetas de DNA serão criadas para amplificar e identificar qualquer número de geno- mas ou porções de genomas. As sequências amplificadas então são determinadas por qualquer número de métodos de sequenciamento incluindo, mas não limitados a sequenciamento de Sanger usando ABI 3730 ou plataforma similar, pirossequenciamento usando um 454 ou plataforma similar, e sequenciamento por síntese usando um instrumento de sequenciamento Analisador de Genoma Illumina ou plataforma similar. É antecipado que este método seja usado em novas tecnologias de sequenciamento quando aparecerem.
[00158] Este aspecto da presente invenção permitirá a pesquisadores agrupar amostras de DNA que poupam recursos monetários e de tempo valiosos no sequenciamento. Para avaliar múltiplos genomas ou regiões genômicas simultaneamente, cada molde será amplificado independentemente com um conjunto diferente de iniciadores randômi- cos etiquetados com DNA. O comprimento do iniciador randômico deve ser ditado pelo nível de complexidade do genoma; as sequências mais repetidas, mais longo o iniciador será a fim de excluir seletivamente estas regiões. Uma vez que os genomas são amplificados, podem ser purificados por métodos padrão específicos para uma dada tecnologia de sequenciamento. Para produzir etapas posteriores mais fáceis, os iniciadores randômicos também podem ser marcados com uma molécula de captura, tal como biotina.
[00159] Após amplificação, o DNA purificado pode ser sequenciado por quaisquer métodos de sequenciamento de ácido nucleico e comparados para identificar diversidade genômica e que genomas específicos contribuem para a diversidade. A presente invenção pode ser usada sem as etiquetas de DNA mas então uma vez agrupada para o sequenciamento não há nenhum modo de "desagrupar" as sequências e avaliação adicional através de sequenciamento ou reações de geno- tipagem específicas são necessárias.
[00160] Este método fornece um método altamente novo de aplicar etiqueta de sequência para sequenciamento genômico multiplex e ge- notipagem.
[00161] O uso de dados de sequência de ácidos nucleicos direta permite a detecção de alelos raros ou haplótipos no genoma de uma planta. Isto é particularmente importante para utilizar regiões genômi- cas raras mas importantes em um programa de melhoramento, tal como um locus de resistência à doença do germoplasma exótico ou mal adaptado, em que os alelos raros são definidos como ocorrendo em baixa frequência no agrupamento de germoplasma e potencialmente sendo anteriormente não detectado no agrupamento de germoplasma. O presente exemplo fornece métodos para detecção de alelo raro, desenho experimental (isto é, seleção de germoplasma exótico, germo- plasma com fenótipo de interesse conhecido, classificação de gp não elite), e utilidade (isto é, programas de introgressão de variantes raras benéficas de traços específicos e/ou expandir diversidade de germo- plasma em um ou mais agrupamentos de germoplasmas específicos tal como por zona de maturidade).
[00162] O grupo de germoplasma compreendendo pelo menos 2 entradas de germoplasma é fornecido. Fatores não limitantes que influenciam na inclusão em um projeto de sequenciamento de pelo menos um locus incluem a origem ou geografia de germoplasma, pelo menos um genótipo de interesse, pelo menos um fenótipo de interesse, desempenho em cruzamentos de híbridos, desempenho de um transgene e outras observações do germoplasma ou previsões que relacionam o germoplasma e seu desempenho.
[00163] Usando os métodos e abordagens apresentadas neste pedido, pelo menos um par de bases é sequenciado por pelo menos 2 entradas de germoplasma. Usando métodos conhecidos na técnica por alinhamento de sequência e avaliação in silico, diferenças e similaridades são identificadas e ligadas à fonte de entrada de germoplas- ma. Seguinte à identificação de alelos de interesse, decisões de seleção podem ser tomadas.
[00164] No caso de exploração de alelo raro, o alelo raro pode ser associado com um fenótipo conhecido. Além disso, a identificação do alelo raro pode fornecer a base para fenotipagem adicional, estudos de associação e outros ensaios para avaliar o efeito do alelo raro no fenótipo vegetal e desempenho de melhoramento. Além disso, a sequência de ácido nucleico direta do alelo raro pode ser imediatamente utilizada para uso como um marcador através de métodos conhecidos na técnica e descritos neste pedido para detectar este alelo raro em entradas de germoplasma adicionais, ser usada como uma base para seleção, e facilitar introgressão do alelo raro em entradas de germo- plasma sem o alelo raro. Em outros aspectos, o alelo raro é isolado e o ácido nucleico isolado é transformado em uma planta usando métodos conhecidos na técnica a fim de conferir um fenótipo preferencial à planta recipiente. A planta recipiente pode ser posteriormente usada como um doador para programas de conversão para cruzar com o germoplasma de elite com objetivos de integração de traço.
[00165] A identificação de alelos raros é útil para utilizar o potencial genético total de qualquer agrupamento de germoplasma, isto é, conjunto de 2 ou mais entradas de germoplasma. Isto é útil para determinar a estratégia de cruzamento de melhoramento, aumentar a diversidade entre 2 ou mais agrupamentos de germoplasma, avaliar agrupamentos heteróticos e informar decisões de melhoramento. Sequenci- amento de alto rendimento tanto acelera a identificação dos alelos como permite a detecção simultânea de alelos raros e identificação de marcadores associados.
Claims (8)
1. Método de melhoramento assistido por marcador, caracterizado pelo fato de que compreende: fornecimento de uma população de melhoramento compreendendo pelo menos duas plantas e obtenção de uma pluralidade de amostras de DNA vegetal das mesmas; amplificação e etiquetagem de pelo menos um locus selecionado compreendendo um polimorfismo de cada uma da referida pluralidade de amostras de DNA vegetal com um iniciador específico de locus e pelo menos uma etiqueta de DNA para preparar uma pluralidade de amostras de DNA amplificadas etiquetadas, em que cada amostra de DNA obtém uma etiqueta de DNA única; combinação de pelo menos duas das amostras de DNA amplificadas etiquetadas para criar um grupo de amostras de DNA amplificadas etiquetadas; sequenciamento do referido grupo de amostras de DNA eti-quetadas; comparação da informação de sequência do dito grupo de amostras de DNA etiquetadas com uma sequência consenso para identificar a presença ou ausência do referido locus compreendendo o referido polimorfismo, em que as amostras de DNA individuais são identificadas pelo etiqueta de DNA; e seleção de uma ou mais progênies da população de melhoramento com base na presença do pelo menos um locus selecionado compreendendo o referido polimorfismo na referida amostra de DNA vegetal.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a planta é selecionada do grupo consistindo em uma cultura de forragem, cultura de semente oleaginosa, cultura de grão, cultura de fruta, plantas ornamentais, cultura de hortaliças, cultura de fibra, cultura de tempero, cultura de noz, cultura de turfa, cultura de açúcar, cultura de bebida, cultura de tubérculo, cultura de raiz, e cultura florestal.
3. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o traço fenotípico é selecionado a partir do grupo consistindo em tolerância à herbicida, resistência à doença, resistência a inseto ou praga, metabolismo de ácido graxo, proteína ou carboidrato alterado, rendimento de grão aumentado, óleo aumentado, conteúdo nutricional aumentado, taxas de crescimento aumentadas, tolerância a estresse aumentada, maturidade preferencial, propriedades organolép- ticas aumentadas, características morfológicas alteradas, esterilidade, outros traços agronômicos, traços para usos industriais, ou traços melhorados de apelo ao consumidor.
4. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a sequência de ácidos nucléicos analisada é uma etiqueta alelo-específica.
5. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o polimorfismo é selecionado do grupo que consiste em polimorfismos de um único nucleotídeo (SNPs), inserções ou dele- ções na sequência de DNA (Indels), repetições de sequência simples da sequência de DNA (SSRs), um polimorfismo de comprimento de fragmento de restrição, e uma variação no número de cópias.
6. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o referido sequenciamento é uma única reação de sequenciamento de alto rendimento.
7. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o referido pelo menos um locus selecionado compreende 96 loci selecionados amplificáveis por 96 iniciadores específicos de locus ou 384 loci selecionados amplificáveis por 384 iniciadores específicos de locus.
8. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a referida pluralidade de amostras de DNA de planta compreende 96, 192 ou 386 amostras diferentes.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US94270707P | 2007-06-08 | 2007-06-08 | |
US60/942,707 | 2007-06-08 | ||
PCT/US2008/066263 WO2008154472A2 (en) | 2007-06-08 | 2008-06-09 | Methods for sequence-directed molecular breeding |
Publications (2)
Publication Number | Publication Date |
---|---|
BRPI0812744A2 BRPI0812744A2 (pt) | 2014-12-23 |
BRPI0812744B1 true BRPI0812744B1 (pt) | 2024-01-30 |
Family
ID=40130462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BRPI0812744-1A BRPI0812744B1 (pt) | 2007-06-08 | 2008-06-09 | Métodos para melhoramento molecular direcionado por sequência |
Country Status (9)
Country | Link |
---|---|
US (4) | US20090136938A1 (pt) |
EP (2) | EP2511381B1 (pt) |
CN (1) | CN101802219A (pt) |
AR (1) | AR066922A1 (pt) |
BR (1) | BRPI0812744B1 (pt) |
CA (1) | CA2688644A1 (pt) |
CL (1) | CL2008001682A1 (pt) |
MX (1) | MX2009013422A (pt) |
WO (1) | WO2008154472A2 (pt) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AR066922A1 (es) * | 2007-06-08 | 2009-09-23 | Monsanto Technology Llc | Metodos de mejoramiento molecular del germoplasma de una planta por secuenciamiento dirigido |
CN102206638B (zh) * | 2010-03-29 | 2014-06-04 | 中国科学院上海生命科学研究院 | 组织特异表达启动子及其获得方法和应用 |
CN103184275A (zh) * | 2011-12-29 | 2013-07-03 | 天津农学院 | 一种水稻基因组基因标识的新方法 |
US10648030B2 (en) | 2012-01-13 | 2020-05-12 | Affymetrix, Inc. | Methods of determining the presence or absence of a plurality of target polynucleotides in a sample |
CN102622634B (zh) * | 2012-03-31 | 2014-04-23 | 中国农业科学院果树研究所 | 一种苹果种质资源条形码标识的制备方法 |
US20150011396A1 (en) | 2012-07-09 | 2015-01-08 | Benjamin G. Schroeder | Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing |
US10314253B2 (en) | 2012-12-04 | 2019-06-11 | Seminis Vegetable Seeds, Inc. | Methods and compositions for watermelon sex expression |
EP2971130A4 (en) | 2013-03-15 | 2016-10-05 | Nugen Technologies Inc | SEQUENTIAL SEQUENCING |
WO2015073711A1 (en) | 2013-11-13 | 2015-05-21 | Nugen Technologies, Inc. | Compositions and methods for identification of a duplicate sequencing read |
US20150181822A1 (en) * | 2013-12-31 | 2015-07-02 | Dow Agrosciences Llc | Selection based on optimal haploid value to create elite lines |
CN107075581B (zh) * | 2014-08-06 | 2022-03-18 | 纽亘技术公司 | 由靶向测序进行数字测量 |
US11118216B2 (en) | 2015-09-08 | 2021-09-14 | Affymetrix, Inc. | Nucleic acid analysis by joining barcoded polynucleotide probes |
WO2017214557A1 (en) * | 2016-06-10 | 2017-12-14 | Counsyl, Inc. | Nucleic acid sequencing adapters and uses thereof |
WO2018031486A1 (en) * | 2016-08-08 | 2018-02-15 | Karius, Inc. | Reduction of signal from contaminant nucleic acids |
US11099202B2 (en) | 2017-10-20 | 2021-08-24 | Tecan Genomics, Inc. | Reagent delivery system |
CN108376210B (zh) * | 2018-02-12 | 2020-06-09 | 中国农业科学院作物科学研究所 | 基因组信息辅助育种方法ⅱ-一种基于全基因组snp有利单倍型挖掘的育种亲本选择方法 |
CN110564832B (zh) * | 2019-09-12 | 2023-06-23 | 广东省农业科学院动物科学研究所 | 一种基于高通量测序平台的基因组育种值估计方法与应用 |
US10927409B1 (en) | 2019-10-14 | 2021-02-23 | Pioneer Hi-Bred International, Inc. | Detection of sequences uniquely associated with a dna target region |
CN111312335B (zh) * | 2020-02-24 | 2023-07-21 | 吉林省农业科学院 | 大豆亲本选择方法、装置、存储介质及电子设备 |
CN112951345B (zh) * | 2021-03-10 | 2022-06-21 | 中国地质大学(武汉) | 基于杂原子化合物进行油-储源定量对比的方法 |
CN113736905A (zh) * | 2021-09-29 | 2021-12-03 | 石家庄博瑞迪生物技术有限公司 | 一种基于mSNP技术检测西瓜种子纯度的混样检测方法 |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4535060A (en) | 1983-01-05 | 1985-08-13 | Calgene, Inc. | Inhibition resistant 5-enolpyruvyl-3-phosphoshikimate synthetase, production and use |
EP0146589A4 (en) | 1983-05-26 | 1987-04-29 | Plant Resources Inst | METHOD FOR GENETIC TOPOGRAPHIC SURVEYING AND HYBRIDIZATION FOR PLANTS. |
US4757011A (en) | 1983-09-30 | 1988-07-12 | E. I. Du Pont De Nemours And Company | Herbicide resistant tobacco |
US4940835A (en) | 1985-10-29 | 1990-07-10 | Monsanto Company | Glyphosate-resistant plants |
ATE87032T1 (de) | 1986-12-05 | 1993-04-15 | Ciba Geigy Ag | Verbessertes verfahren zur transformation von pflanzlichen protoplasten. |
US5015580A (en) | 1987-07-29 | 1991-05-14 | Agracetus | Particle-mediated transformation of soybean plants and lines |
US4971908A (en) | 1987-05-26 | 1990-11-20 | Monsanto Company | Glyphosate-tolerant 5-enolpyruvyl-3-phosphoshikimate synthase |
US5416011A (en) | 1988-07-22 | 1995-05-16 | Monsanto Company | Method for soybean transformation and regeneration |
WO1990004651A1 (en) | 1988-10-19 | 1990-05-03 | Whitehead Institute For Biomedical Research | Mapping quantitative traits using genetic markers |
US7705215B1 (en) | 1990-04-17 | 2010-04-27 | Dekalb Genetics Corporation | Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof |
US5550318A (en) | 1990-04-17 | 1996-08-27 | Dekalb Genetics Corporation | Methods and compositions for the production of stably transformed, fertile monocot plants and cells thereof |
US5484956A (en) | 1990-01-22 | 1996-01-16 | Dekalb Genetics Corporation | Fertile transgenic Zea mays plant comprising heterologous DNA encoding Bacillus thuringiensis endotoxin |
JP3209744B2 (ja) | 1990-01-22 | 2001-09-17 | デカルブ・ジェネティクス・コーポレーション | 結実能力のある遺伝子変換コーン |
US6403865B1 (en) | 1990-08-24 | 2002-06-11 | Syngenta Investment Corp. | Method of producing transgenic maize using direct transformation of commercially important genotypes |
US5384253A (en) | 1990-12-28 | 1995-01-24 | Dekalb Genetics Corporation | Genetic transformation of maize cells by electroporation of cells pretreated with pectin degrading enzymes |
US5492547B1 (en) | 1993-09-14 | 1998-06-30 | Dekalb Genetics Corp | Process for predicting the phenotypic trait of yield in maize |
WO1993006239A1 (en) | 1991-09-24 | 1993-04-01 | Keygene N.V. | Selective restriction fragment amplification: a general method for dna fingerprinting |
ATE398679T1 (de) | 1992-07-07 | 2008-07-15 | Japan Tobacco Inc | Verfahren zur transformation einer monokotyledon pflanze |
US5437697A (en) | 1992-07-07 | 1995-08-01 | E. I. Du Pont De Nemours And Company | Method to identify genetic markers that are linked to agronomically important genes |
US5635055A (en) | 1994-07-19 | 1997-06-03 | Exxon Research & Engineering Company | Membrane process for increasing conversion of catalytic cracking or thermal cracking units (law011) |
US5604097A (en) | 1994-10-13 | 1997-02-18 | Spectragen, Inc. | Methods for sorting polynucleotides using oligonucleotide tags |
US5846719A (en) * | 1994-10-13 | 1998-12-08 | Lynx Therapeutics, Inc. | Oligonucleotide tags for sorting and identification |
US5981840A (en) | 1997-01-24 | 1999-11-09 | Pioneer Hi-Bred International, Inc. | Methods for agrobacterium-mediated transformation |
US6219964B1 (en) | 1997-03-20 | 2001-04-24 | E. I. Du Pont De Nemours And Company | Method for identifying genetic marker loci associated with trait loci |
DE69839350T2 (de) | 1997-12-22 | 2009-06-04 | Pioneer-Hi-Bred International, Inc. | Qtl kartierung der populationen in der pflanzenzüchtung |
EP1141346A2 (en) | 1999-01-14 | 2001-10-10 | Monsanto Co. | Soybean transformation method |
US6537635B1 (en) | 1999-03-23 | 2003-03-25 | Flexplay Technologies, Inc. | Pseudo-reflective read inhibitor for optical storage media |
EP1265476A2 (en) * | 1999-12-30 | 2002-12-18 | Pioneer Hi-Bred International, Inc. | Mqm mapping using haplotyped putative qtl-alleles: a simple approach for mapping qtl's in plant breeding populations |
US7157564B1 (en) | 2000-04-06 | 2007-01-02 | Affymetrix, Inc. | Tag nucleic acids and probe arrays |
WO2003052101A1 (en) | 2001-12-14 | 2003-06-26 | Rosetta Inpharmatics, Inc. | Sample tracking using molecular barcodes |
US20050204780A1 (en) | 2002-05-09 | 2005-09-22 | The Furukawa Electric Co., Ltd. | Method for manufacturing optical fiber |
JP3961530B2 (ja) | 2003-05-23 | 2007-08-22 | 富士通株式会社 | 光学素子、光伝送ユニット及び光伝送システム |
EP1626621A4 (en) * | 2003-05-28 | 2009-10-21 | Pioneer Hi Bred Int | PLANT SELECTION METHOD |
US8039686B2 (en) | 2003-07-07 | 2011-10-18 | Pioneer Hi-Bred International, Inc. | QTL “mapping as-you-go” |
US7973212B2 (en) | 2003-08-01 | 2011-07-05 | Pioneer Hi-Bred International, Inc. | Soybean plants having superior agronomic performance and methods for their production |
US20050064435A1 (en) | 2003-09-24 | 2005-03-24 | Xing Su | Programmable molecular barcodes |
US7328230B2 (en) | 2004-03-26 | 2008-02-05 | Intel Corporation | SIMD four-data element average instruction |
US20060288444A1 (en) | 2004-08-13 | 2006-12-21 | Mccarroll Robert | Soybean polymorphisms and methods of genotyping |
US7703238B2 (en) | 2004-08-26 | 2010-04-27 | Monsanto Technology Llc | Methods of seed breeding using high throughput nondestructive seed sampling |
RU2408178C2 (ru) | 2004-08-26 | 2011-01-10 | Монсанто Текнолоджи, Ллс | Автоматизированный пробоотборник для семян и способы отбора проб, тестирования и увеличения семян |
US20060135758A1 (en) | 2004-08-31 | 2006-06-22 | Kunsheng Wu | Soybean polymorphisms and methods of genotyping |
US20060141495A1 (en) | 2004-09-01 | 2006-06-29 | Kunsheng Wu | Polymorphic markers and methods of genotyping corn |
WO2006039449A1 (en) | 2004-09-29 | 2006-04-13 | Monsanto Technology Llc | High yielding soybean plants with low linolenic acid |
US8404927B2 (en) | 2004-12-21 | 2013-03-26 | Monsanto Technology Llc | Double-stranded RNA stabilized in planta |
US20060200878A1 (en) | 2004-12-21 | 2006-09-07 | Linda Lutfiyya | Recombinant DNA constructs and methods for controlling gene expression |
AP2693A (en) | 2005-05-27 | 2013-07-16 | Monsanto Technology Llc | Soybean event MON89788 and methods for detection thereof |
JP5220597B2 (ja) | 2005-06-23 | 2013-06-26 | キージーン ナムローゼ フェンノートシャップ | 1つ又は複数の多型性を同定する方法およびその使用方法 |
WO2006137734A1 (en) | 2005-06-23 | 2006-12-28 | Keygene N.V. | Improved strategies for sequencing complex genomes using high throughput sequencing technologies |
US7485425B2 (en) * | 2005-10-03 | 2009-02-03 | Applied Biosystems Inc. | Methods for amplification of nucleic acids using spanning primers |
US8026413B2 (en) * | 2005-11-15 | 2011-09-27 | Biogemma | EMP4 gene |
ES2446927T3 (es) | 2006-03-01 | 2014-03-10 | Keygene N.V. | Detección rápida de SNP basada en secuencias utilizando ensayos de ligación |
US7998669B2 (en) | 2006-03-02 | 2011-08-16 | Monsanto Technology Llc | Automated contamination-free seed sampler and methods of sampling, testing and bulking seeds |
US20080083042A1 (en) | 2006-08-14 | 2008-04-03 | David Butruille | Maize polymorphisms and methods of genotyping |
AR063688A1 (es) * | 2006-08-15 | 2009-02-11 | Monsanto Technology Llc | Composiciones y metodos para la produccion de plantas utilizando la informacion de marcador de alta densidad |
CA2958994C (en) * | 2006-11-15 | 2019-05-07 | Biospherex Llc | Kit for multiplex sequencing and ecogenomics analysis |
AR066922A1 (es) | 2007-06-08 | 2009-09-23 | Monsanto Technology Llc | Metodos de mejoramiento molecular del germoplasma de una planta por secuenciamiento dirigido |
EP3434789A1 (en) | 2012-01-13 | 2019-01-30 | Data2Bio | Genotyping by next-generation sequencing |
-
2008
- 2008-06-06 AR ARP080102444A patent/AR066922A1/es active IP Right Grant
- 2008-06-06 CL CL2008001682A patent/CL2008001682A1/es unknown
- 2008-06-09 WO PCT/US2008/066263 patent/WO2008154472A2/en active Application Filing
- 2008-06-09 EP EP11180635.2A patent/EP2511381B1/en active Active
- 2008-06-09 CN CN200880024977A patent/CN101802219A/zh active Pending
- 2008-06-09 US US12/135,564 patent/US20090136938A1/en not_active Abandoned
- 2008-06-09 MX MX2009013422A patent/MX2009013422A/es active IP Right Grant
- 2008-06-09 BR BRPI0812744-1A patent/BRPI0812744B1/pt active IP Right Grant
- 2008-06-09 CA CA002688644A patent/CA2688644A1/en not_active Abandoned
- 2008-06-09 EP EP08770455A patent/EP2158336A2/en not_active Ceased
-
2011
- 2011-09-28 US US13/247,528 patent/US10550424B2/en active Active
-
2015
- 2015-09-17 US US14/856,733 patent/US10544448B2/en active Active
-
2017
- 2017-09-18 US US15/707,615 patent/US10544471B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2008154472A3 (en) | 2009-08-27 |
US20130123113A1 (en) | 2013-05-16 |
CN101802219A (zh) | 2010-08-11 |
EP2511381B1 (en) | 2017-01-25 |
EP2511381A1 (en) | 2012-10-17 |
BRPI0812744A2 (pt) | 2014-12-23 |
CA2688644A1 (en) | 2008-12-18 |
US10544448B2 (en) | 2020-01-28 |
CL2008001682A1 (es) | 2008-12-12 |
US10550424B2 (en) | 2020-02-04 |
AR066922A1 (es) | 2009-09-23 |
US10544471B2 (en) | 2020-01-28 |
EP2158336A2 (en) | 2010-03-03 |
MX2009013422A (es) | 2010-01-15 |
WO2008154472A2 (en) | 2008-12-18 |
US20160098515A1 (en) | 2016-04-07 |
US20180004894A1 (en) | 2018-01-04 |
US20090136938A1 (en) | 2009-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10544471B2 (en) | Methods for sequence-directed molecular breeding | |
Nadeem et al. | DNA molecular markers in plant breeding: current status and recent advancements in genomic selection and genome editing | |
CN102747138B (zh) | 一种水稻全基因组snp芯片及其应用 | |
US11032986B2 (en) | Methods of creating drought tolerant corn plants using markers linked to cold shock domain-containing proteins and compositions thereof | |
US10945391B2 (en) | Yield traits for maize | |
US20100037342A1 (en) | Methods and compositions for breeding plants with enhanced yield | |
US20170022574A1 (en) | Molecular markers associated with haploid induction in zea mays | |
US20130040826A1 (en) | Methods for trait mapping in plants | |
BR112017026015B1 (pt) | Métodos para selecionar uma planta de milho com resistência à podridão de colmo causada por antracnose e método para introgredir um alelo qtl associado com a resistência à podridão de colmo causada por antracnose em uma planta de milho | |
US20110010102A1 (en) | Methods and Systems for Sequence-Directed Molecular Breeding | |
US20070192909A1 (en) | Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping ane marker development | |
WO2015174825A1 (en) | Method of predicting or determining plant phenotypes in oil palm | |
US10172305B2 (en) | Diagnostic molecular markers for seed lot purity traits in soybeans | |
CN108467900B (zh) | 一种联合利用lncRNA及其靶基因筛选杨树生长性状的方法、试剂盒及应用 | |
US10138526B2 (en) | Molecular markers associated with stem canker resistance in soybean | |
JP7176782B2 (ja) | カンキツ植物における果肉中のカロテノイド含有量を判定する方法、カンキツ植物を製造する方法、及び判定キット | |
Seraj et al. | Combination of DNA markers and eQTL information for introgression of multiple salt-tolerance traits in rice | |
US20160050864A1 (en) | Methods for Producing Soybean Plants with Improved Fungi Resistance and Compositions Thereof | |
Sebastiani et al. | Review on single nucleotide polymorphisms (SNPs) and population genetic studies in conifer species |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B07A | Application suspended after technical examination (opinion) [chapter 7.1 patent gazette] | ||
B09B | Patent application refused [chapter 9.2 patent gazette] | ||
B12B | Appeal against refusal [chapter 12.2 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 09/06/2008, OBSERVADAS AS CONDICOES LEGAIS. PATENTE CONCEDIDA CONFORME ADI 5.529/DF, QUE DETERMINA A ALTERACAO DO PRAZO DE CONCESSAO. |