CN108135144A - 用于性状渐渗的方法和系统 - Google Patents
用于性状渐渗的方法和系统 Download PDFInfo
- Publication number
- CN108135144A CN108135144A CN201680057770.7A CN201680057770A CN108135144A CN 108135144 A CN108135144 A CN 108135144A CN 201680057770 A CN201680057770 A CN 201680057770A CN 108135144 A CN108135144 A CN 108135144A
- Authority
- CN
- China
- Prior art keywords
- snp
- plant
- full
- generation
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
提供的方法和/或系统具有经济有效、省时和信息丰富且用户友好的优点,以实现优良自交系向性状植物的转化而不丧失农艺学表现。所提供的方法包括:获得SNP数据库,针对这样的SNP数据库分析序列,以及预测非劣种植物与劣种植物之间的结果。所提供的系统包括SNP数据库、基因型推演模块和标记研究管理器模块。所提供的方法和/或系统将允许用户计算更实际的统计度量以确保高质量的转化。
Description
相关申请的交叉引用
本申请要求2015年11月10日提交的美国临时专利申请序列号62/253,347的权益。
背景技术
由于遗传和环境影响而不断变化的性状通常被称为“数量性状”。数量性状可以根据以下两个因素与“质量”或“离散”性状区分开来:环境对基因表达的影响,这些影响产生表型的连续分布;以及由多基因遗传产生的复杂分离模式。鉴定与数量性状的表达相关的一个或多个基因组区域导致发现数量性状基因座(QTL)。
已经鉴定出不同类型的分子标记,如RAPD(随机扩增多态性DNA)标记、RFLP(限制性片段长度多态性)标记和SCAR(序列表征的扩增区域)标记。但是,大多数这些标记是低通量标记,它们不适合通过自动化进行大规模筛选
因此,需要可用于提供用于植物育种和/或性状渐渗的高通量、高容量和/或高密度方法的发明。
发明内容
本发明涉及用于性状渐渗和/或预测/评估回交后非劣种植物和劣种植物数量的方法和系统,其中使用遗传标记而不评估物理植物的表型。一方面,提供用于性状渐渗、预测/评估回交后非劣种植物和劣种植物数量和/或选择具有最有利遗传谱的植物的计算机化方法。该计算机化方法包括:
(a)通过收集植物中的全基因组遗传标记信息来生成遗传标记数据库;
(b)从至少一个回交植物样本获得序列;
(c)将步骤(b)中获得的序列与步骤(a)的遗传标记数据库进行比较以推演遗传标记;以及
(d)预测回交植物样本是劣种植物还是非劣种植物。
在一个实施方案中,所提供的方法还包括以下步骤:选择预定数量的具有用于杂交的最有利遗传谱的植物。在另一个实施方案中,该预定数量在5与50之间;在10与100之间;在10与20之间;在10与15之间;或在5与15之间。在另一个实施方案中,遗传标记包含单核苷酸多态性(SNP)。在另一个实施方案中,遗传标记数据库是SNP数据库或SNP文库。在另一个实施方案中,SNP数据库或SNP文库包含具有50与500个之间、100与500个之间、20与200个之间或25与300个之间的SNP的全基因组SNP集合。在另一个实施方案中,SNP数据库或SNP文库包含至少1,000、5,000、10,000、25,000、50,000或100,000个SNP的全基因组SNP集合。在另一个实施方案中,SNP数据库或SNP文库包含具有1,000与5,000个之间、3,000与20,000个之间、5,000与50,000个之间或10,000与100,000个之间的SNP的全基因组SNP集合。在另一个实施方案中,植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。在另一个实施方案中,回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
在一个实施方案中,步骤(c)的比较步骤使用基因型推演模块(GenotypingImputation Module)。在另一个实施方案中,步骤(d)的预测步骤使用标记研究管理器(Marker Study Manager)模块。在又一个实施方案中,标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。在再一个实施方案中,标记研究管理器模块提供用于选择预定数量的具有用于杂交的最有利遗传谱的植物的可视化输出。
另一方面,提供用于性状渐渗和/或预测/评估回交后非劣种植物和劣种植物数量的计算机化系统。该计算机化系统包括:
(a)遗传标记数据库;
(b)遗传标记推演模块,其接受来自至少一个回交植物样本的序列的输入;和
(c)标记研究管理器模块,其提供可视化输出。
在一个实施方案中,标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。在另一个实施方案中,标记研究管理器模块提供用于选择预定数量的具有用于杂交的最有利遗传谱的植物的可视化输出。在另一个实施方案中,该预定数量在5与50之间;在10与100之间;在10与20之间;在10与15之间;或在5与15之间。在另一个实施方案中,遗传标记数据库是SNP数据库或SNP文库。在另一个实施方案中,SNP数据库或SNP文库包含具有50与500个之间、100与500个之间、20与200个之间或25与300个之间的SNP的全基因组SNP集合。在另一个实施方案中,SNP数据库或SNP文库包含至少1,000、5,000、10,000、25,000、50,000或100,000个SNP的全基因组SNP集合。在另一个实施方案中,SNP数据库或SNP文库包含具有1,000与5,000个之间、3,000与20,000个之间、5,000与50,000个之间或10,000与100,000个之间的SNP的全基因组SNP集合。在另一个实施方案中,遗传标记推演模块是SNP推演模块。在另一个实施方案中,植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。在另一个实施方案中,回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
另一方面,提供了在计算机化系统中用于性状渐渗、预测/评估回交后非劣种植物和劣种植物的数量和/或选择具有最有利遗传谱的植物的方法。该方法包括:
(a)由用户将至少一个回交植物样本的序列输入本文提供的系统中;以及
(b)从本文提供的系统接收用于预测/评估非劣种植物和劣种植物的数量的输出。
另一方面,提供用于性状渐渗、预测/评估回交后非劣种植物和劣种植物数量和/或选择具有最有利遗传谱的植物的计算机化方法。该计算机化方法包括:
(a)从亲本植物产生全基因组遗传标记信息;
(b)从至少一个回交植物样本获得序列;
(c)将步骤(b)中获得的序列与来自步骤(a)的亲本植物的全基因组遗传标记信息进行比较以推演遗传标记;以及
(d)预测回交植物样本是劣种植物还是非劣种植物。
在一个实施方案中,所提供的方法还包括以下步骤:选择预定数量的具有用于杂交的最有利遗传谱的植物。在另一个实施方案中,该预定数量在5与50之间;在10与100之间;在10与20之间;在10与15之间;或在5与15之间。在另一个实施方案中,遗传标记包含单核苷酸多态性(SNP)。在另一个实施方案中,来自亲本植物的全基因组遗传标记信息包含具有50与500个之间、100与500个之间、20与200个之间或25与300个之间的SNP的全基因组SNP集合。在另一个实施方案中,来自亲本植物的全基因组遗传标记信息包含至少1,000、5,000、10,000、25,000、50,000或100,000个SNP的全基因组SNP集合。在另一个实施方案中,来自亲本植物的全基因组遗传标记信息包含具有1,000与5,000个之间、3,000与20,000个之间、5,000与50,000个之间或10,000与100,000个之间的SNP的全基因组SNP集合。在另一个实施方案中,植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。在另一个实施方案中,回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
在一个实施方案中,步骤(c)的比较步骤使用基因型推演模块。在另一个实施方案中,步骤(d)的预测步骤使用标记研究管理器模块。在又一个实施方案中,标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。在再一个实施方案中,标记研究管理器模块提供用于选择预定数量的具有用于杂交的最有利遗传谱的植物的可视化输出。
附图说明
图1提供了本文提供的基因型推演模块的流程图的图示。
具体实施方式
提供的方法和/或系统具有经济有效、省时和信息丰富且用户友好的优点,以实现优良自交系向性状植物的转化而不丧失农艺学表现。所提供的方法包括:获得SNP数据库,针对这样的SNP数据库分析序列,以及预测非劣种植物与劣种植物之间的结果。所提供的系统包括SNP数据库、基因型推演模块和标记研究管理器模块。所提供的方法和/或系统将允许用户计算更实际的统计度量以确保高质量的转化。
通过使用标记辅助选择可以极大地促进性状渐渗和育种。在这些类别的遗传标记中,单核苷酸多态性(SNP)的特性使得它们在植物中检测、选择和渐渗期望的性状时优先于其他遗传标记。SNP是优选的,因为许多技术可用于SNP标记的自动化、高通量筛选,这可以减少在植物中选择和渐渗期望性状的时间。此外,SNP标记是理想的,因为特定SNP等位基因来源于特定物种的现存种群中独立起源的可能性相对较低。因此,SNP标记可用于跟踪和辅助与期望性状相关的等位基因的渐渗。
在植物基因组中发现单核苷酸多态性(SNP)标记和产生SNP数据库可以促进基因组的可视化。但是,如果SNP数据库或文库不提供全基因组覆盖,则这种SNP数据库或文库对于具有高水平遗传相似性的窄源杂交(narrow cross)将不会有用。此外,我们受到鉴定和转化多态性标记的时间和精力的限制。由于下一代测序(NGS)已被证明成为发现多态性的越来越经济有效的方式,因此它可以用作产生全基因组SNP覆盖的新工具。如Elshire等人,“A robust,simple genotyping-by-sequencing(GBS)approach for high densityspecies”(2011)PLoS One 6(5)e19379 and Sonah et al.,“An improved genotyping bysequencing(GBS)approach offering increased versatility and efficiency of SNPdiscovery and genotyping”(2013)PLoS One 8(1)e54603中所公开,NGS也已用于基因分型应用,该文献的内容据此整体以引用方式并入。
此外,标记辅助的性状渐渗严重依赖于整个基因组中固定间隔处的多态性标记的可用性,以评估与优良轮回亲本的遗传关系模式以实现高质量转化。典型地,性状渐渗涉及选择轮回亲本与供体之间的窄源杂交组合,旨在减少可能来自基因相差太远的供体品系的连锁累赘(linkagedrag)的量。然而,由于亲本之间的遗传相似性,此类窄源杂交可能会限制将用于性状转化的可用多态性标记的数量。因此,为此类窄源杂交提供了高密度SNP数据库/文库。在一些实施方案中,本文提供的SNP数据库/文库包含至少1,000、5,000、10,000、25,000、50,000或100,000个SNP的全基因组SNP集合。在其他实施方案中,本文提供的SNP数据库/文库包含1,000与5,000个之间、3,000与20,000个之间、5,000与50,000个之间或10,000与100,000个之间的全基因组SNP集合。
除非另外指明,否则本文使用的所有技术和科学术语具有与本发明所属领域的技术人员理解的相同含义。从业者特别关注Sambrook等人Molecular Cloning:A LaboratoryManual(Second Edition),Cold Spring Harbor Press,Plainview,N.Y.,1989和AusubelFM等人Current Protocols in Molecular Biology,John Wiley&Sons,New York,N.Y.,1993以了解本领域的定义和术语。应该理解,本发明不限于所描述的特定方法学、方案和试剂,因为它们可以变化。
如本文所用,措辞“约”意指比所述值或值的范围大或小10%,但无意将任何值或值的范围指定为仅此宽泛定义。每个前面有术语“约”的值或值的范围也旨在涵盖所述绝对值或值的范围的实施方案
如本文所用,措辞“载体”是指一片DNA,通常是双链的,其可以在其中插入一片外源DNA。载体可以是例如质粒或病毒来源的载体,其通常编码可选择的或可筛选的标记或转基因。载体用于将外源或异源DNA转运到合适的宿主细胞中。一旦进入宿主细胞,载体可以独立于宿主染色体DNA或与宿主染色体DNA一致地复制。或者,载体可以将外源或异源DNA的插入靶向到宿主染色体中。
如本文所用,措辞“转基因载体”是指含有插入的DNA片段的载体,“转基因”在宿主细胞内转录成mRNA或作为RNA复制。措辞“转基因”不仅指所插入的DNA被转化成RNA的那部分,还指RNA转录或复制所必需的那些载体部分。转基因通常包含感兴趣的基因,但不一定需要包含含有能够产生蛋白质的开放阅读框的多核苷酸序列。
如本文所用,措辞“转化的”或“转化”是指将DNA引入细胞中。措辞“转化体”或“转基因”是指已经转化或已经经历转化程序的植物细胞、植物等。引入的DNA通常是含有插入的DNA片的载体形式。
如本文所用,措辞“转基因植物”是指基因组已由于重组DNA的稳定整合而改变的植物。转基因植物包括从原始转化的植物细胞再生的植物和来自转化植物的后代或杂交的子代转基因植物。
如本文所用,措辞“重组DNA”是指已经在含有包括天然存在的DNA或cDNA或合成DNA的DNA的细胞外进行基因工程改造和构建的DNA。
如本文所用,措辞“基因座”是指短序列,其通常是独特的并且通常通过参考点在基因组的一个特定位置处发现;例如作为基因、或基因或基因间区的一部分的短DNA序列。基因座可以是基因组中特定位置处的独特PCR产物。基因座可以包含一个或多个多态性。
如本文所用,措辞“遗传基因座”是指染色体上的位置。
如本文所用,措辞“基因组基因座”是指生物体的整个染色体组内的位置。
如本文所用,措辞“标记”是指用于鉴定染色体上独特位置的染色体上的基因座。基因型可以通过使用一个或多个标记来定义。“标记”是多态性核酸序列或核酸特征。“多态性”是序列(特别是DNA序列)或特征(例如转录模式或甲基化模式)中个体之间的变异。有用的多态性包括单核苷酸多态性(SNP)、DNA序列中的插入或缺失(Indels)、DNA序列的简单序列重复(SSR)、限制性片段长度多态性、单体型和标签SNP。基因标记、基因、DNA衍生序列、RNA衍生序列、启动子、基因的5’未翻译区、基因的3'未翻译区、微小RNA、siRNA、QTL、卫星标记、转基因、mRNA、ds mRNA、转录模式和甲基化模式可以包含多态性。在更广泛的方面,“标记”可以是可用于区分生物体之间的可遗传差异的可检测特性。此类特性的实例可以包括遗传标记、蛋白质组成、蛋白质水平、油组成、油水平、碳水化合物组成、碳水化合物水平、脂肪酸组成、脂肪酸水平、氨基酸组成、氨基酸水平、生物聚合物、药物、淀粉组成、淀粉水平、可发酵淀粉、发酵产量、发酵效率、能量产量、次生化合物、代谢物、形态特性和农艺学特性。
如本文所用,措辞“标记测定”是指使用特定方法在特定基因座处检测多态性的方法,包括测量至少一种表型(例如种子颜色、花朵颜色或其他视觉可检测性状)、基因分型、限制性片段长度多态性(RFLP)、单碱基延伸、电泳、序列比对、等位基因特异性寡核苷酸杂交(ASO)、随机扩增多态性DNA(RAPD)、基于微阵列的技术和核酸测序技术等。
如本文所用,措辞“等位基因”是指特定基因座处的替代序列;等位基因的长度可以小至1个核苷酸碱基,但通常较大。等位基因序列可以是氨基酸序列或核酸序列。
如本文所用,措辞“单核苷酸多态性”或“SNP”是指单个位点处的多态性,其中多态性构成单碱基对改变、一个或多个碱基对的插入或一个或多个碱基对的缺失。
如本文所用,措辞“基因型”意指表型的遗传组分,并且其可以使用标记间接表征或者通过核酸测序直接表征。合适的标记包括表型特征、代谢概况、遗传标记或某种其他类型的标记。基因型可构成至少一个遗传标记基因座或至少一个单体型窗口的单体型的等位基因。在一些实施方案中,基因型可以代表单个基因座,而在其他实施方案中,它可以代表一套全基因组的基因座。在另一个实施方案中,基因型可以反映染色体的一部分、整个染色体、基因组的一部分和整个基因组的序列。
如本文所用,措辞“表型”是指作为基因表达的表现的细胞或生物体的可检测特性。
如本文所用,措辞“连锁”是指在杂交中产生配子类型的相对频率。措辞“连锁不平衡”是指两个基因座之间或性状与标记之间的统计关联。
如本文所用,措辞“数量性状基因座”或“QTL”是指在某种程度上控制通常连续分布的可用数字表示的性状的基因座。
如本文所用,措辞“等位基因状态”是指存在于含有基因组多态性的核酸分子中的核酸序列。例如,含有单核苷酸多态性的DNA分子的核酸序列可以在多态性位置包含A、C、G或T残基,使得等位基因状态由多态性位置处存在哪个残基来定义。又如,含有单核苷酸多态性的RNA分子的核酸序列可以在多态性位置处包含A、C、G或U残基,使得等位基因状态由多态性位置处存在哪个残基来定义。类似地,含有Indel的核酸分子的核酸序列可以在多态性位置处包含核酸序列的插入或缺失,使得等位基因状态由在多态性位置处存在或不存在插入或缺失来定义。
如本文所用,措辞“关联”当关于多态性和表型性状或性状指数使用时是指多态性基因座的给定等位基因的存在与表型性状或性状指数值之间的任何统计学上显著的相关性,其中该值可以是定性的或定量的。
如本文所用,措辞“分型”是指借以确定给定大豆基因组多态性的特定等位基因形式的任何方法。例如,通过确定存在哪个核苷酸(即A、G、T或C)对单核苷酸多态性(SNP)分型。插入/删除(Indels)通过确定Indel是否存在来确定。可以通过多种测定法对Indels分型,包括但不限于标记测定法。
如本文所用,措辞“优良品系”是指为了优越的农艺学表现而由育种和选择产生的任何品系。优良植物是来自优良品系的任何植物。
如本文所用,措辞“植物”包括双子叶植物和单子叶植物。双子叶植物的实例包括烟草、拟南芥、大豆、番茄、木瓜、卡诺拉油菜、向日葵、棉花、苜蓿、马铃薯、葡萄树、木豆、豌豆、芸苔、鹰嘴豆、甜菜、油菜籽、西瓜、甜瓜、胡椒、花生、南瓜(pumpkin)、萝卜、菠菜、南瓜属植物(squash)、西兰花、卷心菜、胡萝卜、菜花、芹菜、大白菜、黄瓜、茄子和生菜。单子叶植物的实例包括玉米、稻谷、小麦、甘蔗、大麦、黑麦、高粱、兰花、竹子、香蕉、香蒲、百合、燕麦、洋葱、小米和黑小麦。
如本文所用,术语“植物”还包括完整植物和植物的任何后代、细胞、组织或部分。术语“植物部分”包括植物的任何部分,包括例如而不限于:种子(包括成熟种子和未成熟种子);植物插条;植物细胞;植物细胞培养物;植物器官(例如,花粉、胚芽、花、果实、芽、叶、根、茎和外植体)。植物组织或植物器官可以是种子、愈伤组织、或组织成结构或功能单元的任何其他植物细胞群。植物细胞或组织培养物能够再生具有由其获得细胞或组织的植物生理和形态特征的植物,并且能够再生具有与该植物基本上相同基因型的植物。相比之下,一些植物细胞不能够再生而产生植物。植物细胞或组织培养物中的可再生细胞可以是胚芽、原生质体、分生细胞、愈伤组织、花粉、叶、花药、根、根尖、穗丝、花、果仁、穗、穗轴、果壳或梗。
植物部分包括可收获部分以及适用于子代植物繁殖的部分。适用于繁殖的植物部分包括例如而不限于:种子、果实、插条、幼苗、块茎以及根茎。植物的可收获部分可以是植物的任何可用部分,包括例如而不限于:花、花粉、幼苗、块茎、叶、茎、果实、种子以及根。
如本文所用,措辞“所述的植物细胞”或“转化的植物细胞”是指用稳定整合的非天然重组DNA转化的植物细胞,例如通过农杆菌介导的转化或通过使用包被了重组DNA的微粒进行轰击或其他手段。本发明的植物细胞可以是作为微生物或作为子代植物细胞而存在的初始转化的植物细胞,其再生成分化的组织,例如再生成具有稳定整合的非天然重组DNA的转基因植物,或来源于子代转基因植物的种子或花粉。
如本文所用,措辞“性状”是指植物或特定植物材料或细胞的生理学、形态学、生物化学或物理学特性。在一些情况下,这种特性对于人眼是可见的,包括种子或植株大小,或者可以通过生物化学技术测量,这些技术包括检测种子或叶子的蛋白质、淀粉或油含量,或通过观察代谢或生理过程(例如通过测量二氧化碳的摄取),或通过观察一个或多个基因(例如通过使用Northern分析、RT-PCR、微阵列基因表达测定)或报告基因表达系统的表达水平,或通过在农学上进行观察,包括胁迫耐受性、产量或病原体耐受性。
如本文所用,“非遗传序列”或“非遗传基因组序列”是在植物的核基因组中发现的天然DNA序列,其具有至少1Kb的长度,并且没有任何开放阅读框、基因序列或基因调控序列。此外,非遗传序列不含任何内含子序列(即,内含子排除在非遗传的定义之外)。非遗传序列不能被转录或翻译成蛋白质。许多植物基因组包含非遗传区,其中多达95%的基因组可以是非遗传的,并且这些区可能主要由重复DNA组成。
如本文所用,“遗传区”定义为包含编码RNA和/或多肽的开放阅读框的多核苷酸序列。遗传区也可以涵盖参与调控开放阅读框的表达直至编码区上游约2Kb和编码区下游1Kb(但是可能更上游或下游)的任何可鉴定的相邻5'和3'非编码核苷酸序列。遗传区还包括可能存在于遗传区中的任何内含子。此外,遗传区可以包含单个基因序列或散布有非遗传序列的短段(小于1Kb)的多个基因序列。
虽然已经参考具体方法和实施方案描述了本发明,但应该理解,可以进行各种修改和改变而不背离本发明。为了描述和公开可能结合本发明使用的组合物和方法学,本文援引的所有出版物都明确地以引用方式并入本文。所有援引的专利、专利申请以及所引用的网站和公共数据库中的序列信息也以引用方式并入。
实施例
实施例1
在该实施例中选择两组共三个玉蜀黍植物回交世代(BC2、BC3和BC4)进行评估。第一组在两个亲本XJA40 x 4XP811XT–类似的亲本之间的基因组覆盖率相对较低,其中BC2的基因组覆盖度在RPP4为62%、在RPP6为33%。
第二组在两个亲本LDS51 X MV8735XT–不同的亲本之间的基因组覆盖度相对较高,其中BC2的基因组覆盖度在RPP4为99%、在RPP6为85%。
SNP数据库提供参考基因组以与各个序列进行比较,并且在该实施例中产生BC2的15,636个全基因组标记、BC3的14,824个全基因组标记和BC4的15,402个全基因组标记(对于LDS51 X MV8735XT组而言)。
将来自BC2、BC3和BC4世代的两个组的基因分型数据(使用本领域已知的方法产生)与用于基因型数据推演的SNP数据库进行比较。基因型推演模块的流程图在图1中示出,其中这种算法在计算机系统中执行。标记研究管理器模块使用所得的基因分型信息生成用于预测/评估非劣种植物和劣种植物数量的用户友好的输出可视化。
标记研究管理器(MSM)模块是使用具有可视化工具的算法开发的。推演后的基因分型数据通过MSM模块引导,以建立具有转化度量的染色体表格。这样的染色体表格的可视化使得能以用户友好的方式进行选择,其中MSM模块可以在该实施例中在每个样本中生成具有3500至15500个SNP标记的染色体表格。
表1总结了在该实施例中使用的每一代的不同种群和种群大小。表1中的输出仅基于对分子标记的分析,而不是从物理植物的表型中的观察。
基因型推演模块成功地将劣种植物与非劣种植物区分开来。使用具有更大基因组视图的标记研究管理器模块可以使劣种植物可视化。另外,鉴定劣种等位基因和/或大量SNP标记可以显著改善估计和预测。
该实施例中使用的方法和系统可以处理来自数千个SNP标记的遗传数据,这增加了知情选择决策所需的基因组覆盖度,特别是在窄源杂交中。所提供的方法和系统经济有效,因为不需要为每个项目设计新的标记,在所述方法和系统中提供了复用能力。
Claims (37)
1.一种用于性状渐渗的计算机化方法,包括:
(a)通过收集植物中的全基因组遗传标记信息来生成遗传标记数据库;
(b)从至少一个回交植物样本获得序列;
(c)将步骤(b)中获得的所述序列与步骤(a)的所述遗传标记数据库进行比较以推演遗传标记;以及
(d)预测所述回交植物样本是劣种植物还是非劣种植物。
2.根据权利要求1所述的方法,还包括以下步骤:选择预定数量的具有用于杂交的最有利遗传谱的植物。
3.根据权利要求2所述的方法,其中所述预定数量在5与50之间。
4.根据权利要求1所述的方法,其中所述遗传标记包括单核苷酸多态性(SNP)。
5.根据权利要求1所述的方法,其中所述遗传标记数据库是SNP数据库或SNP文库。
6.根据权利要求5所述的方法,其中所述SNP数据库或SNP文库包含具有100与500个之间的SNP的全基因组SNP集合。
7.根据权利要求5所述的方法,其中所述SNP数据库或SNP文库包含至少1,000个SNP的全基因组SNP集合。
8.根据权利要求5所述的方法,其中所述SNP数据库或SNP文库包含具有1,000与100,000个之间的SNP的全基因组SNP集合。
9.根据权利要求1所述的方法,其中所述植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。
10.根据权利要求1所述的方法,其中所述回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
11.根据权利要求5所述的方法,其中步骤(c)的所述比较步骤使用基因型推演模块。
12.根据权利要求1所述的方法,其中步骤(d)的所述预测步骤使用标记研究管理器模块。
13.根据权利要求12所述的方法,其中所述标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。
14.一种用于性状渐渗的计算机化系统,包括:
(a)遗传标记数据库;
(b)遗传标记推演模块,其接受来自至少一个回交植物样本的序列的输入;和
(c)标记研究管理器模块,其提供可视化输出。
15.根据权利要求14所述的系统,其中所述标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。
16.根据权利要求14所述的系统,其中所述标记研究管理器模块提供用于选择预定数量的具有用于杂交的最有利遗传谱的植物的可视化输出。
17.根据权利要求16所述的系统,其中所述预定数量在5与50之间。
18.根据权利要求14所述的系统,其中所述遗传标记数据库是SNP数据库或SNP文库。
19.根据权利要求18所述的系统,其中所述SNP数据库或SNP文库包含具有100与500个之间的SNP的全基因组SNP集合。
20.根据权利要求18所述的系统,其中所述SNP数据库或SNP文库包含至少1,000个SNP的全基因组SNP集合。
21.根据权利要求18所述的系统,其中所述SNP数据库或SNP文库包含具有1,000与100,000个之间的SNP的全基因组SNP集合。
22.根据权利要求14所述的系统,其中所述遗传标记推演模块是SNP推演模块。
23.根据权利要求14所述的系统,其中所述植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。
24.根据权利要求14所述的系统,其中所述回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
25.一种在计算机化系统中用于性状渐渗的方法,包括:
(a)由用户将至少一个回交植物样本的序列输入权利要求11所述的系统中;以及
(b)从权利要求14所述的系统接收用于预测/评估非劣种植物和劣种植物的数量的输出。
26.一种用于性状渐渗的计算机化方法,包括:
(a)从亲本植物产生全基因组遗传标记信息;
(b)从至少一个回交植物样本获得序列;
(c)将步骤(b)中获得的序列与来自步骤(a)的亲本植物的全基因组遗传标记信息进行比较以推演遗传标记;以及
(d)预测所述回交植物样本是劣种植物还是非劣种植物。
27.根据权利要求26所述的方法,还包括以下步骤:选择预定数量的具有用于杂交的最有利遗传谱的植物。
28.根据权利要求27所述的方法,其中所述预定数量在5与50之间。
29.根据权利要求26所述的方法,其中所述遗传标记包括单核苷酸多态性(SNP)。
30.根据权利要求29所述的方法,其中来自亲本植物的所述全基因组遗传标记信息包含具有100与500个之间的SNP的全基因组SNP集合。
31.根据权利要求29所述的方法,其中来自亲本植物的所述全基因组遗传标记信息包含至少1,000个SNP的全基因组SNP集合。
32.根据权利要求29所述的方法,其中来自亲本植物的所述全基因组遗传标记信息包含具有1,000与100,000个之间的SNP的全基因组SNP集合。
33.根据权利要求26所述的方法,其中所述植物选自大豆、玉蜀黍、卡诺拉油菜、棉花、小麦、向日葵和稻谷。
34.根据权利要求26所述的方法,其中所述回交植物样本来自第一代、第二代、第三代、第四代、第五代回交植物或其组合。
35.根据权利要求29所述的方法,其中步骤(c)的所述比较步骤使用基因型推演模块。
36.根据权利要求26所述的方法,其中步骤(d)的所述预测步骤使用标记研究管理器模块。
37.根据权利要求36所述的方法,其中所述标记研究管理器模块提供用于预测/评估非劣种植物和劣种植物的数量的可视化输出。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562253347P | 2015-11-10 | 2015-11-10 | |
US62/253,347 | 2015-11-10 | ||
PCT/US2016/058575 WO2017083091A1 (en) | 2015-11-10 | 2016-10-25 | Methods and systems for trait introgression |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108135144A true CN108135144A (zh) | 2018-06-08 |
Family
ID=58695924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680057770.7A Pending CN108135144A (zh) | 2015-11-10 | 2016-10-25 | 用于性状渐渗的方法和系统 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP3373726A1 (zh) |
CN (1) | CN108135144A (zh) |
AR (1) | AR107215A1 (zh) |
BR (1) | BR102016025738A2 (zh) |
WO (1) | WO2017083091A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080228700A1 (en) | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
US10777302B2 (en) * | 2012-06-04 | 2020-09-15 | 23Andme, Inc. | Identifying variants of interest by imputation |
CN112514790B (zh) * | 2020-11-27 | 2022-04-01 | 上海师范大学 | 水稻分子导航育种方法及应用 |
-
2016
- 2016-10-25 EP EP16864760.0A patent/EP3373726A1/en not_active Withdrawn
- 2016-10-25 WO PCT/US2016/058575 patent/WO2017083091A1/en unknown
- 2016-10-25 CN CN201680057770.7A patent/CN108135144A/zh active Pending
- 2016-11-03 BR BR102016025738-7A patent/BR102016025738A2/pt not_active Application Discontinuation
- 2016-11-10 AR ARP160103418A patent/AR107215A1/es unknown
Also Published As
Publication number | Publication date |
---|---|
EP3373726A1 (en) | 2018-09-19 |
AR107215A1 (es) | 2018-04-11 |
WO2017083091A1 (en) | 2017-05-18 |
BR102016025738A2 (pt) | 2017-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | Genome-wide association study of grain appearance and milling quality in a worldwide collection of indica rice germplasm | |
Xiao et al. | Genetic structure and linkage disequilibrium pattern of a rapeseed (Brassica napus L.) association mapping panel revealed by microsatellites | |
Lv et al. | Genetic diversity and population structure of cucumber (Cucumis sativus L.) | |
Yamamoto et al. | A simulation-based breeding design that uses whole-genome prediction in tomato | |
Ranc et al. | Genome-wide association mapping in tomato (Solanum lycopersicum) is possible using genome admixture of Solanum lycopersicum var. cerasiforme | |
Reig-Valiente et al. | Genetic diversity and population structure of rice varieties cultivated in temperate regions | |
Kawamura et al. | Genetic distance of inbred lines of Chinese cabbage and its relationship to heterosis | |
Singh et al. | Heterosis and combining ability in cytoplasmic male sterile and doubled haploid based Brassica oleracea progenies and prediction of heterosis using microsatellites | |
CN106028794B (zh) | 改良的分子育种方法 | |
Dong et al. | Genome-wide association study reveals both overlapping and independent genetic loci to control seed weight and silique length in Brassica napus | |
AU2011261447B2 (en) | Methods and compositions for predicting unobserved phenotypes (PUP) | |
Zhao et al. | Genetic variation and association mapping of seed-related traits in cultivated peanut (Arachis hypogaea L.) using single-locus simple sequence repeat markers | |
Samah et al. | Genetic diversity, genotype discrimination, and population structure of Mexican Opuntia sp., determined by SSR markers | |
Xia et al. | Genetic differentiation revealed by selective loci of drought-responding EST-SSRs between upland and lowland rice in China | |
Adu et al. | High-density DArT-based SilicoDArT and SNP markers for genetic diversity and population structure studies in cassava (Manihot esculenta Crantz) | |
Cambiaso et al. | Whole genome re-sequencing analysis of two tomato genotypes for polymorphism insight in cloned genes and a genetic map construction | |
Wang et al. | Genomic and transcriptomic analysis identified gene clusters and candidate genes for oil content in peanut (Arachis hypogaea L.) | |
CN108135144A (zh) | 用于性状渐渗的方法和系统 | |
Li et al. | EST-SSR primer development and genetic structure analysis of Psathyrostachys juncea Nevski | |
Habyarimana et al. | Whole-genome resequencing of Sorghum bicolor and S. bicolor× S. halepense lines provides new insights for improving plant agroecological characteristics | |
Abhijith et al. | Genome-wide association study reveals novel genomic regions governing agronomic and grain quality traits and superior allelic combinations for Basmati rice improvement | |
Park et al. | Development of genome-wide single nucleotide polymorphism markers for variety identification of F1 hybrids in cucumber (Cucumis sativus L.) | |
Ishikawa et al. | Multifamily QTL analysis and comprehensive design of genotypes for high-quality soft wheat | |
Farooqi et al. | Genetic characterization of root architectural traits in barley (Hordeum vulgare L.) using SNP markers | |
He et al. | Epistasis-aware genome-wide association studies provide insights into the efficient breeding of high-yield and high-quality rice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180608 |
|
WD01 | Invention patent application deemed withdrawn after publication |