CN109072299A

CN109072299A - 同时合并基因分型的方法

Info

Publication number: CN109072299A
Application number: CN201780029265.6A
Authority: CN
Inventors: J.P.格尔克; H.R.斯诺格伦埃里克森; F.特赫诺
Original assignee: EI Du Pont de Nemours and Co
Current assignee: EIDP Inc
Priority date: 2016-05-12
Filing date: 2017-05-03
Publication date: 2018-12-21
Anticipated expiration: 2037-05-03
Also published as: CN109072299B; EP3978625A1; US12033724B2; EP3455369B1; WO2017196597A1; CA3017672A1; US20190116747A1; EP3455369A1; US20210307274A1; BR112018073236A2; US11291174B2; MX2018013510A

Abstract

提供的是从合并样品确定子代植物基因型的方法。所述方法包括在两个或更多个子代植物中对标记等位基因进行基因分型，每个子代植物来源于具有已知的基因型的亲本的不同亲本杂交。所述方法利用计算机模拟反卷积实施隐马尔科夫建模，以从所述合并样品产生的遗传信号确定至少一个子代植物中的一个或多个标记基因座的每个可能基因型的概率。本发明方法提供在子代植物基因分型方面增加的效率。

Description

同时合并基因分型的方法

技术领域

此公开涉及基因分型的方法。特别地，此公开涉及使来自于不同亲本植物对杂交的植物子代进行同时合并基因分型的方法。

背景技术

用于优化农艺性状的作物遗传学操作已经导致种子产业的革命。然而，多达98％的这些农艺性状是数量性状，使得它们受两个或更多个基因控制并且在各个表型之间具有可测量的可变性。为了理解和控制这些基因的遗传和由此产生的表型，本领域的科学家传统上利用如数量性状基因座(QTL)分析的方法。

作为QTL分析的结果，科学家们鉴定了与控制目的性状的基因非常接近的染色体区域。这些染色体区域可以是靶基因本身或可以是遗传标记，如限制性片段长度多态性(RFLP)、扩增片段长度多态性(AFLP)、随机扩增多态性DNA(RAPD)、可变数目串联重复(VNTR)、微卫星多态性、单核苷酸多态性(SNP)、和短串联重复(STR)。因为标记与基因非常接近，所以它们往往与基因一起遗传(称为遗传连锁的现象)。因此，标记可用于追踪目的基因的遗传。用于鉴定各种目的基因或与这些基因相关的标记的位置和作用的过程和统计学方法称为QTL定位。分子遗传技术的最新进展已经制得可用的密集的遗传标记图谱，并且为这些制造的许多个体进行基因分型是可行的。因此，QTL分析的出现由此提供了优于更传统的用于选择农艺性状的方法的主要优点，所述农艺性状基于单个植物及其祖先的表型记录。

此外，对衍生自多个创始者或从正在进行的育种计划中收集的更复杂群体的分析有可能显著提高对重要农艺性状的理解。例如，如果可以更准确地量化跨越不同遗传背景的单个基因之间的稳定性和量级，则可以获得改善的对选择的响应。作为QTL定位的替代方案，全基因组回归可以同时估计基因组中所有可用标记的效应。由此，可以获得遗传值的基因组预测，然后将其用于通过称为基因组选择的过程报告选择决定(参见例如，Meuwissen等人，(2001)Genetics[遗传学]157：1819-1829)。然而，每年使用成千上万个个体遗传实体进行基因分型的育种计划需要高成本的大量资源。

因此，仍然需要使用表现出提高的效率的方法鉴定用于检测重要农艺性状的遗传标记，以便在节省时间和另外的资源的同时降低基因分型的成本。本文提供的方法提供了用于在植物育种计划中使用的重要工具，以在降低成本的同时提高实验室处理能力。

发明内容

提供了用于两个或更多个子代植物的同时合并基因分型的各种方法。例如，提供了同时合并基因分型的方法，其中每个子代植物来源于不同亲本植物对的杂交。在这样的实施例中，该方法包括：(a)收集：(i)与一个或多个标记基因座有关的遗传图谱距离信息；(ii)第一亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第一亲本杂交产生第一子代植物；(iii)第二亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第二亲本杂交产生第二子代植物；以及(iv)与由所述第一亲本杂交产生的所述第一子代和由所述第二亲本杂交产生的所述第二子代有关的谱系信息。此外，遗传图谱距离信息来自与所述亲本植物的植物物种相同的植物物种。此实施例还包括以下步骤：(b)：提供合并DNA样品，该合并DNA样品包含：(i)合并基因组DNA样品，其包含从所述第一子代植物分离的第一基因组脱氧核糖核苷酸(DNA)样品和从所述第二子代植物分离的第二基因组DNA样品；(ii)从合并组织样品中分离的基因组DNA样品，所述合并组织样品包含来自所述第一子代植物的第一组织样品、和来自所述第二子代植物的第二组织样品；或(iii)从所述第一子代植物与所述第二子代植物杂交产生的后代分离的基因组DNA样品；(c)在合并DNA样品中检测来自步骤(a)的每个标记基因座的至少一个等位基因；和(d)针对在步骤(c)中检测的至少一个标记基因座对合并DNA样品进行基因分型，其中基因分型步骤包含：(i)通过基于谱系信息和遗传图谱距离信息计算先前标记基因座处的遗传模式能导致标记基因座上的遗传模式的概率，为步骤(c)中检测的每个标记基因座建立第一矩阵；(ii)通过基于在步骤(c)中的每个检测的等位基因和谱系信息计算可以通过由来自产生所述子代植物的亲本杂交中的每个亲本植物的遗传的每个排列产生观察到的合并基因组DNA样品的基因型的概率，为步骤(c)中检测的每个标记基因座建立第二矩阵；以及(iii)确定至少一个子代植物中的在步骤(c)中检测的至少一个标记基因座的每个可能的基因型的概率。

在一些实施例中，在步骤(d)(iii)中的确定包含隐马尔科夫建模(Hidden MarkovModeling)，该隐马尔科夫建模包含：(A)计算标记基因座处的前向概率的向量；(B)计算标记基因座处的后向概率的向量；以及(C)计算标记基因座处的后验祖先遗传概率(posteriorancestral inheritance probabilities)。在其他实施例中，该方法进一步包括计算标记基因座处的前向概率的向量，包含根据以下方程(I)求解前向概率的向量f_k：计算标记基因座处的后向概率的向量，包含根据以下方程(IV)求解后向概率的向量b_k：并计算标记基因座处的后验祖先遗传概率，包含根据以下方程(VII)求解后验祖先遗传概率p_k：

还提供的是用于两个或更多个子代植物的同时合并基因分型的方法，每个子代植物来源于不同亲本植物对的杂交，该方法包括：(a)收集：(i)与一个或多个标记基因座有关的遗传图谱距离信息；(ii)对于来自至少两个不同亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中每个亲本杂交产生至少一个子代植物；和(iii)与每个亲本杂交产生的每个子代有关的谱系信息；其中，遗传图谱距离信息来自与亲本植物的植物物种相同的植物物种。此方法可进一步包括以下步骤：(b)提供合并DNA样品，所述合并DNA样品包含：(i)合并基因组DNA样品，其包含从每个子代植物分离的基因组DNA样品；(ii)从合并组织样品分离的基因组DNA样品，所述合并组织样品包含来自每个子代植物的组织样品：或(iii)从通过两个子代植物杂交产生的后代分离的基因组DNA样品，每个子代植物通过不同的亲本杂交产生；(c)在合并DNA样品中检测来自步骤(a)的每个标记基因座的至少一个等位基因；和(d)针对在步骤(c)中检测的至少一个标记基因座对合并DNA样品进行基因分型。此外，基因分型步骤可包含：(i)通过基于谱系信息和遗传图谱距离信息计算先前标记基因座处的遗传模式能导致标记基因座上的遗传模式的概率，为步骤(c)中检测的每个标记基因座建立第一矩阵T_k；(ii)通过基于在步骤(c)中的每个检测的等位基因和谱系信息计算可以通过由来自产生所述子代植物的亲本杂交中的每个亲本植物的遗传的每个排列产生观察到的合并基因组DNA样品的基因型的概率，为步骤(c)中检测的每个标记基因座建立第二矩阵E_k；以及(iii)确定在至少一个子代植物中的在步骤(c)中检测的至少一个标记基因座的每个可能的基因型的概率。

在还其他实施例中，提供了通过DNA混合和反卷积来增加子代植物的基因分型效率的方法，并所述方法包括以下步骤：(a)收集：(i)与三个或更多个标记基因座有关的遗传图谱距离信息；(ii)来自至少两个不同亲本育种杂交的每个亲本植物的三个或更多个标记基因座的等位基因的基因型信息，其中每个亲本育种杂交产生至少一个子代植物，并且其中至少一个标记在这些亲本育种杂交的至少一个中是多态的；和(iii)与由每个亲本育种杂交产生的每个子代植物有关的谱系信息；其中，遗传图谱距离信息来自与亲本植物的植物物种相同的植物物种；(b)提供合并DNA样品，其包含：(i)合并基因组DNA样品，其包含从每个子代植物分离的基因组DNA样品；(ii)从合并组织样品分离的基因组DNA样品，该合并组织样品包含来自每个子代植物的组织样品；或(iii)从两个子代植物杂交产生的后代分离的基因组DNA样品，每个子代植物通过不同的亲本杂交产生；(c)在合并DNA样品中检测来自步骤(a)的每个标记基因座的至少一个等位基因；和(d)针对在步骤(c)中检测的至少一个标记基因座对合并DNA样品进行基因分型，其中所述基因分型步骤包含：(i)通过基于谱系信息和遗传图谱距离信息计算先前标记基因座处的遗传模式能导致标记基因座上的遗传模式的概率，为步骤(c)中检测的每个标记基因座建立第一矩阵T_k；(ii)通过基于在步骤(c)中的每个检测的等位基因和谱系信息计算可以通过由来自产生所述子代植物的亲本杂交中的每个亲本植物的遗传的每个排列产生观察到的合并基因组DNA样品的基因型的概率，为步骤(c)中检测的每个标记基因座建立第二矩阵E_k；和(iii)确定每个子代植物的在步骤(c)中检测的至少一个标记基因座的最可能基因型。

在一些实施例中，合并的基因组DNA可包括来自两种或更多种不同植物物种的DNA。

附图说明

图1描绘了与本公开的示例性合并基因分型方法(右)相比的标准基因分型方案(左)的示意图。

图2描绘了在三个遗传连锁的基因座L₁、L₂、和L₃上对于DNA合并物的计算机模拟反卷积的可视化示意图，该DNA合并物涉及来自两个亲本育种杂交(I₁×I₂和I₃×I₄)的子代植物(P₁和P₂)。

图3A描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M1x品种M2与亲本杂交品种M3x品种M4配对。y轴表示反卷积误差率(DER)，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图3B描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M5x品种M3与亲本杂交品种M6x品种M7配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图3C描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M8x品种M9与亲本杂交品种M10x品种M11配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图3D描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M12x品种M13与亲本杂交品种M14x品种M15配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图3E描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M16x品种M17与亲本杂交品种M18x品种M19配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。50％中心概率区域不可见，因为50％的中心概率区域实际上为零。

图3F描绘了显示玉米中模拟的2W合并物的平均反卷积误差率作为基因分型的标记数量的函数的图表。将亲本杂交品种M1x品种M20与亲本杂交品种M14x品种M21配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图4A描绘了显示作为基因分型的标记的数量的函数的模拟的低芥酸菜籽2W合并物的平均反卷积误差率的图表。将亲本杂交品种C1x品种C2与亲本杂交品种C3x品种C4配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图4B描绘了显示作为基因分型的标记的数量的函数的模拟的低芥酸菜籽2W合并物的平均反卷积误差率的图表。将亲本杂交品种C5x品种C6与亲本杂交品种C7x品种C8配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图4C描绘了显示作为基因分型的标记的数量的函数的模拟的低芥酸菜籽2W合并物的平均反卷积误差率的图表。将亲本杂交品种C9x品种C10与亲本杂交品种C11x品种C12配对。y轴表示DER，且x轴表示合并物中基因分型的标记的数量。阴影区域表示50％和75％的中心概率区域。

图5描绘的图表了显示玉米亲本杂交品种M5x品种M3与玉米亲本杂交品种M6x品种M7配对的平均DER，其作为在两个谱系(p)中具有多态性的标记的百分比和每个谱系的信息标记的目标数量(M_T)的函数。信息标记的数量是100(图5A)、250(图5B)和450(图5C)。x轴表示基因分型标记M_G的总数，且y轴表示DER。阴影区域表示50％和75％的中心概率区域。

图6描绘的图表了显示低芥酸菜籽亲本杂交品种C5x品种C6与低芥酸菜籽亲本杂交品种C7x品种C8配对的平均DER，其作为在两个谱系(p)中具有多态性的标记的百分比和每个系谱的信息标记的目标数量(M_T)的函数。x轴表示基因分型标记M_G的总数，且y轴表示DER。阴影区域表示50％和75％的中心概率区域。

图7描绘了合并基因分型测定的示意图。

具体实施方式

本文提供的是用于对个体进行基因分型的方法。在具体的方面，提供的是用于对两个或更多个子代植物进行同时合并基因分型的方法，这些子代植物的每个是从不同的亲本植物对杂交产生的。在一些实施例中，将从由每个亲本植物育种杂交产生的子代植物分离的基因组DNA进行合并以提供合并DNA样品。可替代地，可将来自每个子代植物的植物组织进行合并，然后可以从合并的组织分离基因组DNA。在还其他实施例中，将由亲本育种杂交产生的子代植物与由不同的亲本育种杂交产生的子代杂交，并从所得后代中分离基因组DNA。本发明方法还包括以下步骤：检测合并DNA样品(例如，合并基因组DNA样品、从合并的组织分离的基因组DNA、或从子代杂交的后代分离的基因组DNA)中一个或多个标记基因座的至少一个等位基因，并针对标记基因座对合并DNA样品进行基因分型。然后将遗传信号通过计算机模拟反卷积进行处理以确定在一个或多个子代植物中的标记基因座上的每个可能的基因型的概率。在还其他实施例中，反卷积步骤实现如本文其他地方描述的隐马尔科夫建模。本发明方法利用一个或多个以下数据：(1)合并DNA的基因型数据(即，检测的标记等位基因)；(2)祖先植物(例如，亲本植物)的标记基因型；(3)合并子代植物与祖先(例如，亲本植物)之间的谱系关系；和(4)基因组的遗传图谱。

应当理解，此公开不限于特定实施例，这些实施例当然可以变化。还应当理解，本文使用的术语仅用于描述特定实施例的目的，而不旨在是限制性的。

在本公开中，使用了许多术语和缩写。此公开和权利要求中使用的某些定义在下文提供。为了提供对本公开和权利要求(包括给出这些术语的范围)的清楚和一致的理解，除非另外特别说明，否则以下定义适用。

此外，本文中所列出的每篇参考文献的公开内容均全文以引用方式并入本文。

当在本说明书和所附权利要求中使用时，单数和单数形式的术语例如“一个/一种(a/an)”以及“该(the)”包括复数指代物，除非上下文中另外明确指明。因此，例如术语“植物(plant)、所述植物(the plant)、或一个植物(a plant)”也包括多个植物；也取决于上下文，使用的术语“植物”也可包括该植物遗传相似或相同的子代；使用的术语“核酸”实际上任选地包括该核酸分子的多个拷贝；同样地，术语“探针”任选地(并且通常)涵盖许多相似或相同的探针分子。

此外，如本文所用，将“包含”解释为明确说明存在提及的所述特征、整数、步骤或组分，但是不排除一种或多种特征、整数、步骤、组分或其组的存在或添加。因此，例如，包含两个基因组DNA样品的合并DNA样品可以具有三个或更多个基因组DNA样品。另外，术语“包含”旨在包括由术语“基本上由......组成”和“由......组成”涵盖的实施例。类似地，术语“基本上由......组成”旨在包括由术语“由......组成”涵盖的实施例。

“农学”、“农艺性状”、和“农艺性状表现”是指给定植物品种的性状(以及潜在遗传元件)，所述性状在生长期过程中有助于产量。个体农艺性状包括出苗活力、营养势、胁迫耐受性、疾病抗性或耐受性、昆虫抗性或耐受性、除草剂抗性、发生分枝、开花、种子形成、种子大小、种子密度、抗倒伏性、脱粒性等。

“等位基因”意指遗传序列的一个或多个可替代的形式的任一个。在二倍体细胞或生物体中，给定序列的两个等位基因典型地占据一对同源染色体上的对应的基因座。关于SNP标记，等位基因是指存在于单个植物中的该SNP基因座处的特定核苷酸碱基。如果等位基因与某种表型性状正相关，则该等位基因对该表型性状是“有利的”。如果等位基因与某种表型性状负相关，则该等位基因对该表型性状是“不利的”。

在核酸扩增的上下文中的术语“扩增”是任何借以产生所选择的核酸(或其转录形式)的一个或多个另外的拷贝的方法。“扩增子”是扩增的核酸，例如通过任何可用的扩增对模板核酸进行扩增所产生的核酸。

当用于提及标记、标记等位基因、和/或多态性和表型性状和/或单倍型时，术语“相关的”或”相关”是指标记基因座的给定等位基因的存在与表型性状和/或单倍型之间的任何统计学上显著的相关性，其可以是定性的或定量的。

“回交”是其中育种者将子代品种与亲本基因型之一杂交一次或多次的方法。

如本文所用的“双单倍体”是指具有当单倍体细胞经受染色体加倍以实现纯合性时形成的基因型的植物。

“优良种系”是农学上优越的品系，其从针对优异农艺性能的多个循环的繁殖和选择产生。许多优良种系是可获得的并且是植物育种领域的技术人员已知的。

“优良种群”是可以用于代表给定作物物种(例如玉米)的农学上优越的基因型的现有技术水平的优良个体或品系的混合。

“轮回”植物或“轮回亲本”植物是指通常具有有利农艺性状的遗传背景的植物，其与包含所希望的性状或等位基因的植物杂交，其有时被称为“供体”植物或“供体亲本”植物。然后，回交使得育种者能够将来自供体植物的所希望的性状或等位基因转移到轮回植物的有利遗传背景中。

“遗传图谱”是对给定物种内的一个或多个染色体(或连锁群)上的基因座之间的遗传相关性或连锁关系的描述，通常以图表或表格形式描述。

“基因组选择”是指根据对覆盖整个基因组的标记的估计效应获得的一组性状的个体遗传值的预测来选择所述个体。如果将其应用于单倍体个体，则该方法称为“配子选择”。

“基因型”是一个或多个基因座处的等位基因状态的描述。

“种质”意指包含生物体的遗传特性的物理基础的遗传物质。如本文所用，种质包括新植物可以从其生长的种子和活组织；或者，是可以将其培养为整个植物的另一个植物部分(如叶、茎、花粉或细胞)。种质资源提供植物育种者用于改良商业栽培品种的遗传性状的来源。

“杂种”是指由于将来自亲本植物的遗传贡献混合而具有改善或增加的任何生物性状或农艺性状的功能的杂种子代植物。

“杂种优势”是指杂交子代植物，其表现出由于将来自亲本植物的遗传贡献混合而导致的任何生物性状或农艺性状的改善或增加的功能。“杂种”组是当来自一个群体的植物与来自第二群体的植物杂交时，其杂交子代显示出杂种优势的一组植物群体。

如果个体在给定基因座处仅具有一种类型的等位基因(例如，双单倍体个体在两个同源染色体中的每一个的座位处具有同一等位基因的拷贝)，则该个体是“纯合的”。如果在给定基因座处存在超过一种等位基因类型(例如，具有两个不同等位基因中的各一个的一个拷贝的二倍体个体)，则该个体是“杂合的”。

“计算机模拟”是指通过计算机(例如，在计算机上或经由计算机模拟)进行的方法。

术语“标记”或“可检测的标记”是指能够检测的分子。可检测的标记还可以包括报告基因和猝灭剂的组合，例如用于FRET探针或TaqMan^TM探针中。术语“报告基因”是指能够显示可检测信号的物质或其部分，该信号可由猝灭剂抑制。报告基因的可检测信号例如是可检测范围内的荧光。术语“猝灭剂”是指能够遏制、减少、抑制等由报道基因产生的可检测信号的物质或其部分。如本文所用，术语“猝灭”和“荧光能量转移”是指当报告基因和猝灭剂紧密接近并且报告基因被能量源激发时的过程，其中激发态的相当部分能量非辐射地转移到猝灭剂，在那里它以非辐射方式消散或以与报告基因不同的发射波长发射。

“连锁”是指如果等位基因的传播是独立的，等位基因比偶然预期更频繁地共分离的倾向。典型地，连锁是指在相同染色体上的等位基因。遗传重组在整个基因组上以假定的随机频率发生。通过测量性状对或标记对之间的重组频率来构建遗传图谱。染色体上的性状或标记彼此越接近，则重组频率越低，且连锁程度越大。如果它们通常共分离，则本文认为性状或标记是连锁的。将每代1/100重组概率定义为1.0厘摩(1.0cM)或0.01摩根(M)的遗传图谱距离。

位于单条染色体区段上的遗传元件或基因是物理连锁的。在一些实施例中，两个基因座位于非常近的距离，在减数分裂过程中同源染色体对之间的重组不会在这两个基因座之间高频率发生，例如使得连锁基因座有至少约90％的机会共分离，例如，91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.75％或更多的机会。位于染色体区段内的遗传元件(典型地位于小于或等于50cM的遗传重组距离内，例如约49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、1、0.75、0.5、0.25cM或更小)也是“遗传连锁的”。也就是说，位于单个染色体区段内的两个遗传元件在减数分裂过程中彼此以小于或等于约50％，例如约49％、48％、47％、46％、45％、44％、43％、42％、41％、40％、39％、38％、37％、36％、35％、34％、33％、32％、31％、30％、29％、28％、27％、26％、25％、24％、23％、22％、21％、20％、19％、18％、17％、16％、15％、14％、13％、12％、11％、10％、9％、8％、7％、6％、5％、4％、3％、2％、1％、0.75％、0.5％、0.25％或更小的频率经历重组。“紧密连锁”标记显示与给定标记的约10％或更小，例如9％、8％、7％、6％、5％、4％、3％、2％、1％、0.75％、0.5％、0.25％或更小(给定标记基因座位于紧密连锁标记基因座的约10cM之内，例如紧密连锁标记基因座的9、8、7、6、5、4、3、2、1、0.75、0.5、0.25cM或更小之内)的杂交频率。换句话说，紧密连锁标记基因座有至少约90％的机会，例如91％、92％、93％、94％、95％、96％、97％、98％、99％、99.5％、99.75％或更多的机会发生共分离。

“连锁不平衡”是两个或更多个基因座处的等位基因的非随机关联，其中两个或更多个等位基因以比其各自频率预期的更高的频率一起出现。“连锁不平衡”也可以在未连锁的标记之间发生。它基于群体内的等位基因频率并受到连锁影响但不取决于连锁。

“基因座”是DNA的确定区段。

“图谱定位”或“图谱位置”是遗传图谱上相对于连锁遗传标记的指定位置，其中可以在给定物种内发现特定标记。图谱位置通常以摩根(M)或厘摩(cM)提供。

“作图”是通过使用遗传标记、针对这些标记的群体分离和/或重组频率的标准遗传原理来定义基因座的相关性和关系的方法。

“标记”或“分子标记”或“标记基因座”是用于表示足以独特于表征基因组上特定基因座的核酸或氯基酸序列的术语。任何可检测的多态性状都可以用作标记，只要它是差异地遗传并且表现出与目的表型性状的连锁不平衡。

“标记辅助选择”是指在一个植物或多个植物中选择所希望的性状的方法，其是通过检测来自所述植物的一种或多种核酸(其中所述核酸与所希望的性状连锁)，然后选择拥有那些一种或多种核酸的植物或种质。

术语“植物”包括指未成熟或成熟的完整植物，包括已从其中除去种子或谷粒或花药的植物。将产生植物的种子或胚胎也被认为是植物。

“植物部分”是指植物的任何部分或块，包括叶、茎、芽、根、根尖、花药、种子、谷粒、胚、花粉、胚珠、花、子叶、下胚轴、豆荚、花、枝条、秆(stalk)、组织、组织培养物、细胞等。

“栽培种”和“品种”同义地使用并是指一个物种(例如玉蜀黍(Zea mays))中的一组植物，这些植物共享某些遗传特性，将它们与该物种内的其他可能品种区分开。玉米栽培种可以是在若干代自花授粉(例如，子代自体受精(filial selfings))后产生的近交系或可以是人工产生的双单倍体。玉米栽培种中的个体是同质的、在遗传上几乎相同的，其中大多数基因座处于纯合状态。

“多态性”是指两个相关核酸之间的改变或差异。“核苷酸多态性”是指当将两个核酸比对以得到最大对应性时，当与相关序列比较时，在一个序列中不同的核苷酸。

“多核苷酸”、“多核苷酸序列”、“核酸”、“核酸分子”、“核酸序列”、“核酸片段”和“寡核苷酸”在本文中可互换使用以表示单链或多链的核苷酸的聚合物，其任选地含有合成的、非天然的或改变的RNA或DNA核苷酸碱基。DNA多核苷酸可以由cDNA、基因组DNA、合成DNA或其混合物的一条或多条链组成。

“引物”是指当置于互补链的合成被聚合酶催化的条件下时，能够作为核酸合成或沿互补链复制的起始点的寡核苷酸。典型地，引物的长度为约10至30个核苷酸，但可以使用更长或更短的序列。能以双链形式提供引物，但更典型地使用单链形式。引物可进一步包含可检测的标记，例如5′末端标记。

“探针”是指与目的多核苷酸互补(但不一定完全互补)并通过与目的多核苷酸的至少一条链杂交形成双链体结构的寡核苷酸。典型地，探针的长度为从10至50个核苷酸的寡核苷酸，但可以使用更长或更短的序列。探针可进一步含有可检测的标记。

“数量性状基因座”或“QTL”是指控制数量性状的遗传元件。

“重组频率”是两个遗传基因座之间的杂交事件(重组)的频率。重组频率可以通过遵循减数分裂期间的标记和/或性状的分离来观察。

“自交”或“自花授粉”或“自体受精”是其中育种者将植物与其自身杂交的方法；例如，第二代杂种F2与其自身产生命名为F2：3的子代。

“SNP”或“单核苷酸多态性”是指当基因组序列中的单个核苷酸(A、T、C或G)被改变或可变时发生的序列变异。当SNP被定位到基因组上的位点时，存在“SNP标记”。

如本文所使用的，“分离的”或“纯化的”多核苷酸或多肽或其生物活性部分是基本上或本质上不含与如在其天然存在的环境中发现的多核苷酸或多肽正常相伴或相互作用的组分。典型地，“分离的”多核苷酸不含在从其衍生出该多核苷酸的生物体的基因组DNA中天然地在该多核苷酸侧翼的序列(即，位于该多核苷酸的5′和3′末端的序列)(最佳地是蛋白质编码序列)。例如，该分离的多核苷酸可以包含小于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸序列，在该多核苷酸从其衍生出的细胞的基因组DNA中，该核苷酸序列天然地位于该多核苷酸的侧翼。基本上不含细胞物质的多肽包括具有小于约30％、20％、10％、5％、或1％(以干重计)的污染蛋白质、培养基或其他化学组分的多肽的制剂。本文使用的标准重组DNA和分子克隆技术在本领域是已知的，并且在以下文献中进行了更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，Molecular Cloning：A Laboratory Manual[分子克隆：实验室手册]；Cold Spring Harbor Laboratory Press：Cold Spring Harbor，1989[冷泉港实验室出版社：冷泉港，1989]，其内容通过引用以其整体结合在此。

产生输入合并基因分型数据的反卷积

本文提供是用于对两个或更多个子代植物进行基因分型的方法，所述子代植物通过不同的亲本植物杂交产生。在具体的方面，在合并DNA样品中检测到一个或多个标记等位基因。在一些实施例中，利用不同的亲本植物杂交，其中每个亲本植物杂交产生至少一个子代植物。基因组DNA可以从来自每个亲本杂交的子代植物进行提取和纯化(使用本领域已知的任何合适的基因组DNA分离技术，如通过Stacey和Isaac描述的修饰的CTAB(十六烷基三乙基溴化铵，Sigma H5882)方法(Methods in Molecular Biology[分子生物学方法]，第28卷：Protocols for Nucleic Acid Analysis by Nonradioactive Probes[通过非放射性探针进行核酸分析的方案]，编辑：Isaac，胡玛纳出版社公司(Humana Press Inc.)，Totowa，NJ 1994，Ch.2，第9-15页)，其内容通过引用以其整体结合在此)，并进行合并以产生合并DNA样品。在其他实施例中，合并DNA样品包含从每个子代植物收获的植物组织(例如，叶穿孔)以产生子代植物组织的合并物，从其中分离基因组DNA样品。在还其他实施例中，合并DNA样品可包含来自后代的分离的基因组DNA，所述后代是将来自亲本杂交的子代与来自不同的亲本杂交的子代进行杂交而产生。在一些实施例中，本发明方法包括从子代植物提取基因组DNA的步骤，例如从每个子代植物提取基因组DNA样品、从每个子代植物合并的植物组织提取基因组DNA样品、或从子代之间的育种杂交的后代提取基因组DNA样品。在其他实施例中，本发明方法包含从例如储存的基因组DNA样品中获得子代植物基因组DNA。

在一些方面，本发明方法包含两种或更多种亲本杂交。在其他方面，本发明方法包含三种或更多种亲本杂交。在还其他方面，本发明方法包含四种或更多种亲本杂交，例如4、5、6、7、8、9、10、或更多种亲本杂交。任何数量的亲本杂交适合与本发明方法一起使用。例如，在一些实施例中，本发明方法包含两种不同的育种杂交，其中一个亲本植物与其他三个亲本植物相比具有不同的基因型。在其他实施例中，本发明方法包含两种不同的育种杂交，其中所有四个亲本植物具有不同的基因型。在还其他实施例中，本发明方法包含三种不同的育种杂交，其中一个亲本植物与其他五个亲本植物相比具有不同的基因型。可替代地，利用三种不同的亲本杂交，其中两个或更多个亲本植物与其余的亲本植物相比具有不同的基因型，或其中所有六个亲本植物具有不同的基因型。在还其他方面，利用四种或更多种不同的亲本杂交，其中两个或更多个亲本植物与其余的亲本植物相比具有不同的基因型，或其中所有亲本植物具有不同的基因型。与本文提供的方法一起使用的亲本杂交的类型可以是植物育种程序中使用的任何类型的植物杂交，例如F₁杂交、F₂杂交、F₃杂交、子代植物的回交和随后子代自体受精(filial selfings)、子代植物的三系杂交和随后子代自体受精(filial selfings)、子代植物的四系杂交和随后子代自体受精(filial selfings)、或其组合。此外，通过亲本杂交产生的子代植物的倍性可以是二倍体或单倍体。优选地，本发明方法的子代植物是单倍体、双单倍体，或通过少于一次或者一次或多次子代自体受精(filial selfings)衍生的子代植物。

在本公开的某些方面，亲本杂交和产生的子代是植物物种性的。适合于与本发明方法使用的植物物种包括但不限于单子叶植物和双子叶植物。目的示例性植物物种包括但不限于玉米(玉蜀黍)、芸苔属(例如，甘蓝型油菜(B.napus)、芜菁(B.rapa)、芥菜(B.juncea))、首蓿(alfalfa、Medicago sativa)、大麦(barley、Hordeum vulgare)、黑麦(rye、Secale cereale)、稻(rice、Oryza sativa)、黑麦(rye、Secale cereale)、高粱(sorghum、Sorghum bicolor、Sorghum vulgare)、粟(millet)(例如，珍珠粟(御谷(Pennisetum glaucum))、黍(粟米(Panicummiliaceum))、粟(foxtail millet)(谷子(Setaria italica))、穇子(finger millet)(龙爪稷(Eleusine coracana)))、向日葵(sunflower、Helianthus annuus)、红花(safflower、Carthamus tmctorius)、小麦(wheat、Triticum aestivum)、大豆(soybean、Glycine max)、烟草(tobacco、Nicotiana tabacum)、马铃薯(potato、Solanum tuberosum)、番茄(tomato、Solanum lycopersicum)、花生(peanuts、Arachis hypogaea)、棉花(cotton、Gossypium barbadense、Gossypiumhirsutum)、甘薯(sweet potato、Ipomoea batatus)、木薯(cassava、Manihot esculenta)、咖啡(咖啡属(Coffea spp.))、椰子(coconut、Cocos nucifera)、菠萝(pineapple、Ananascomosus)、柑橘树(柑橘属(Citrus spp))、桃子(peach、Prunus persica)、可可(cocoa、Theobroma cacao)、茶树(tea、Camellia sinensis)、香蕉(香蕉属(Musa spp.))、鳄梨(avocado、Persea americana)、无花果(fig、Ficus casica)、番石榴(guava、Psidiumguajava)、芒果(mango、Mangifera indica)、橄榄(olive、Olea europaea)、木瓜(番木瓜(Carica papaya))、腰果(cashew、Anacardium occidentale))、澳洲坚果(macadamia、Macadamia integrifolia))、巴旦杏(alnond、Prunus amygdalus))、甜菜(sugar beets、Beta vulgaris))、甘蔗(甘蔗属(Saccharum spp.))、燕麦、蔬菜、观赏植物、草和针叶树。在优选的实施例中，植物物种选自由玉米、小麦、稻、粟、大麦、高粱、黑麦、大豆、苜蓿、低芥酸菜籽、棉花、向日葵、马铃薯和番茄组成的组。

在具体的方面，本发明方法包含对一个或多个标记基因座的至少一个等位基因进行基因分型。在一个实施例中，对来自每个亲本杂交的至少一个亲本植物针对一个或多个标记基因座的至少一个等位基因进行基因分型。在其他方面，对来自每个亲本杂交的每个亲本植物针对一个或多个标记基因座的至少一个等位基因进行基因分型。在一些方面，对来自每个亲本杂交产生的至少一个子代针对一个或多个标记基因座的至少一个等位基因进行基因分型。在还其他实施例中，对每个亲本杂交产生的至少一个子代和每个亲本杂交的至少一个亲本植物针对一个或多个标记基因座的至少一个等位基因进行基因分型。在一些方面，基因分型步骤包含对2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、或更多个标记基因座的至少一个等位基因进行基因分型。在其他方面，这些方法包括对100、200、300、400、500、600、700、800、900、1,000、或更多个标记基因座的至少一个等位基因进行基因分型。在还其他方面，这些方法包括对1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、或更多个标记基因座的至少一个等位基因进行基因分型。在还其他实施例中，这些方法包括对10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、1,000,000、10,000,000、100,000,000或更多个标记基因座的至少一个等位基因进行基因分型。本领域技术人员将理解，基因分型可以通过任何合适的技术进行，并可包含检测一个或多个标记基因座的至少一个等位基因。合适的检测技术在本文别处描述。

在一些实施例中，至少一个标记基因座在本发明方法中使用的至少一个亲本杂交中是多态的。在其他实施例中，至少一个标记基因座在本发明方法中使用的所有亲本杂交中是多态的。

本文还提供的是同时合并基因分型的方法，所述方法包括反卷积算法，所述反卷积算法包括以下中的一个或多个作为输入：(1)从子代植物或其组织获得的合并DNA样品的基因型数据；(2)来自产生子代植物的祖先(例如，亲本植物)的一个或多个标记基因座的至少一个等位基因的基因型；(3)合并子代植物与其对应的祖先之间的谱系关系；和(4)来自与子代植物和亲本植物是相同的植物物种的植物物种的基因组的遗传图谱。如上所述，可以通过使用适合的检测技术，对植物中一个或多个标记基因座的至少一个等位基因进行检测获得合并DNA样品和/或亲本植物的基因型数据。在一些实施例中，本发明方法包括一个或多个DNA提取步骤，其中从一个或多个亲本植物和/或其一个或多个子代或组织中提取基因组DNA。在其他实施例中，可以从例如存档的基因型数据收集每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，应当理解，每个目的标记等位基因在一个或多个亲本植物中可以是已知的。在此类实施例中，不必从相关基因型是已知的亲本植物中提取基因组DNA，或在该亲本植物中检测标记等位基因。在一些实施例中，来自本发明方法中使用的每个亲本杂交的每个亲本的相关的基因型是已知的。例如，一些亲本杂交可以在商业育种程序中常用的一个或两个亲本植物(例如一个或多个优良植物品种)之间。在其他实施例中，一个或多个亲本植物的基因型信息是未知的。在此类实施例中，可以使用如本文描述的基因组DNA提取和/或检测一个或多个标记等位基因来获得与来自亲本植物的一个或多个标记基因座有关的基因型信息。

在一些实施例中，收集与由每个亲本杂交产生的每个子代植物有关的谱系信息。例如，可以指定或追踪通过亲本杂交产生的子代，使得产生子代植物的亲本植物的一者或两者是已知的(参见例如，图2)。此外，谱系信息可包括祖父母植物和其他祖先谱系。其他谱系信息可包括产生子代植物的杂交的类型，例如F₁杂交、回交、三系杂交或四系杂交。应当理解，收集谱系信息是指追踪由每个亲本杂交产生的子代植物的任何合适的方法。

在一些实施例中，本文提供的方法包括收集遗传图谱距离信息的步骤。在优选的实施例中，针对被基因分型的每个标记等位基因来收集遗传图谱距离信息。遗传图谱距离信息是指被基因分型的植物物种的遗传图谱。遗传图谱距离信息包括目的标记基因座(以摩根(M)或厘摩(cM)测量)和一般顺序的标记基因座之间的估计的遗传距离，并使本方法的用户能够考虑重组频率以帮助反卷积由合并DNA产生的遗传信号。在一些实施例中，遗传图谱距离信息包含通过出版物或本领域常用的公共数据库之一公开获得的遗传图谱。例如，示例性大豆和玉米遗传图谱分别是从USDA附属的大豆数据库网站(http：//www.soybase.org/)与玉米遗传学和基因组学数据库(http：//wwW.maizegdb.org/)获得。在其他实施例中，使用本领域已知的遗传作图技术(如Ganal等人，(2011)Plos ONE[公共科学图书馆]6：e28334对于玉米遗传图谱描述的那些，其内容通过引用以其整体结合在此)为具体的植物物种产生遗传图谱。在还其他实施例中，可以通过首先从两个亲本植物之间的杂交产生大的重组群体来构建遗传图谱，所述两个亲本植物具有所讨论的标记的对比基因型。然后，针对这些标记对所有重组体进行基因分型，并将重组率r_k计算为具有与在亲本中发现的那些不同的等位基因组合的重组体的数目。最后，使用Haldane方程(VIII)的倒数将重组率转换为遗传图谱距离：

应当理解，本发明方法不要求针对任何特定植物基因型开发或获得遗传图谱，只要所述遗传图谱来自与被基因分型的植物子代相同的植物物种。

因此，一旦收集和/或检测与合并子代样品的基因型数据有关的输入、亲本植物的标记等位基因、子代植物与其各自祖先之间的谱系关系、以及基因组的遗传图谱，可以实施计算机模拟反卷积以确定一个或多个子代植物的至少一个标记基因座的每个可能的基因型的概率。在优选的实施例中，将隐马尔科夫建模用于对一个或多个子代植物中的至少一个标记基因座的每个可能的基因型选择最可能基因型。在最优选的实施例中，使用隐马尔科夫建模产生后验概率以确定一个或多个子代植物的至少一个标记基因座的每个可能基因型的概率。

概率性的计算机模拟反卷积中的隐马尔科夫建模

本发明方法利用计算机模拟反卷积从合并DNA样品中精确地回收标记基因型，其中合并DNA样品包含：1)从通过两个或更多个不同亲本杂交产生的每个子代分离的基因组DNA样品的混合物；2)从通过两个或更多个不同的亲本杂交产生的每个子代合并组织样品提取的基因组DNA；或者3)从通过亲本杂交产生的子代植物的后代提取的基因组DNA，该亲本杂交与通过不同的亲本杂交产生的子代植物进行杂交。在每种情况下，本公开的方法以下步骤：使用本文描述的技术检测合并DNA样品中的一个或多个标记基因座的至少一个等位基因。

在一个实施例中，每个子代植物是来自不同的受控制的双亲育种杂交的双单倍体(DH/H)。在其他实施例中，子代植物通过少于一次或者一次或多次子代自体受精(filialselfings)得到。在一些实施例中，每个亲本中的目的基因型是已知的。在优选的实施例中，每个亲本是已知的、固定的遗传实体且被高密度基因分型。可以使用本发明方法利用此遗传结构来显著提高基因分型效率。在具体的实施例中，本文提供的是方法，所述方法包括将从不同的亲本育种杂交产生的两个或更多个植物子代分离的基因组DNA样品进行合并、对合并基因组DNA合并物共同地或同时地基因分型、以及使用如本文将详细描述的计算机模拟反卷积对通过基因分型产生的遗传信号进行反卷积。

图1中描绘的是与标准基因分型方案相比的同时合并基因分型的示例性方法的示意图。如左图所示，标准基因分型方案需要对每个子代植物进行基因分型。因此，对于两个子代植物，必须从每个个体分离和纯化基因组DNA。然后使用本领域已知的任何合适的基因分型技术对每种基因组样品进行基因分型。图1中右边显示的是本发明方法的示例性实施例。在此实施例中，从来自两个子代植物合并的植物组织中提取和纯化基因组DNA。将通过合并基因分型产生的遗传信号通过计算机模拟反卷积解析以确定每个个体的基因型。因此，本发明方法提供了以相当大的规模(与常规基因分型相比)促进基因分型的效率增益，从而实现了基因组选择。在优选的实施例中，利用随机计算机模拟反卷积。在更优选的实施例中，随机计算机模拟反卷积执行隐马尔科夫建模(HMM)。具有HMM的随机计算机模拟反卷积现在将更详细地描述。

概率性计算机模拟反卷积参考一组其直系祖先(例如，产生植物子代的育种杂交的亲本)推断合并个体(例如，植物子代)的标记基因型。在具体的实施例中，本发明方法包含反卷积算法，该反卷积算法包括作为输入的四条信息：

1.DNA合并物的基因型数据；

2.祖先(例如，亲本植物)的标记基因型；

3.合并子代植物DNA与祖先(例如，亲本植物)之间的谱系关系；和

4.基因组的遗传图谱。

给定此信息，在一些实施例中，执行算法以针对基因组中每个标记基因座计算合并个体相对于祖先的后验遗传概率。然后使用这些概率推断合并个体的标记基因型。在一些实施例中，合并个体是子代植物，每个来源于不同的亲本植物对的杂交，其中基因组DNA从每个子代植物中分离并合并以产生合并基因组DNA样品用于基因分型。在其他实施例中，合并个体是子代植物，每个来源于不同的亲本植物对的杂交，其中从来自每个子代植物的合并组织样品分离基因组DNA。在还其他实施例中，合并个体是子代植物，每个来源于不同亲本植物对的杂交，其中然后子代植物杂交以产生后代，从其中分离基因组DNA以用于基因分型。在此类实施例中，祖先是杂交以产生子代植物的亲本植物。在一些实施例中，将来自两个或更多个不同的亲本杂交的子代植物根据本发明方法进行基因分型。在其他实施例中，将来自三个或更多个不同的亲本杂交的子代植物根据本发明方法进行基因分型。在还其他实施例中，将来自四个或更多个不同的亲本杂交的子代植物根据本发明方法进行基因分型。在具体的方面，在一个或多个标记基因座上完成基因分型。在优选的方面，在两个或更多个标记基因座上完成基因分型。在更优选的方面，在三个或更多个标记基因座上(例如在3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、50、100、200、300、400、500、600、700、800、900、1,000、或更多个标记基因座上)完成基因分型。

可以进一步说明遗传计算对上面列出的四条信息的依赖性。在不失一般性的情况下，假设一个案例，其中对于涉及来自两个亲本育种杂交(I₁×I₂与I₃×I₄)的两个子代植物(P₁和P₂)的DNA合并物有三个遗传连锁基因座(L₁、L₂和L₃)，并且在合并物或祖先中没有基因型检测错误：

·在第一基因座(L₁)，已在合并物中检测基因型等位基因T，并且仅祖先I₄携带该等位基因。在这种情况下，合并物中的至少一个个体必须从祖先I₄遗传。此推断是基于合并物的基因型数据与祖先基因型数据两者的知识而做出的。

·如果没有谱系信息，则来自创始者I₄的遗传概率将在所有合并个体中均匀分布。然而，谱系信息表明仅子代P₂可能从I₄遗传。因此，子代P₂必须携带T等位基因，概率为100％。因此，合并物中的所有其他子代携带此等位基因的概率为零。此推断通过谱系关系可得。可以应用类似的推理以显示子代P₁必须在来自祖先I₂的基因座L₃处具有遗传的等位基因A。

·在基因座L₂处，单独的谱系和基因分型信息是不确定的，因为两个检测到的等位基因可以追溯到多个祖先并且子代有两种可能的遗传模式，这将导相同的观察到的合并基因型(I₁与I₄或者I₂与I₃)。然而，可以证明，通过组合所有上述来源的信息，我们仍然可以计算基因型概率，从而预测哪个子代携带哪个等位基因。在当前情况下，相邻标记(通过遗传图谱排序)表明L₂处的I₁和I₄遗传模式需要在基因座L₂与L₃之间的重组事件，这比基因座L₁与L₂之间的重组事件(这是I₂和I₃模式所需要的)更不可能，因此减少了前者的概率。

上面的简单实例显示了如何通过共同权衡来自遗传图谱的信息、邻近标记的基因型和谱系信息来解析不确定的情况。对于标准大小的基因组和标记覆盖，这可能涉及过多数量的计算，特别是如果基因分型错误被建模。如果所有合并物的直系祖先都存在于祖先集中，并且谱系信息充分描述了祖先和后代之间的所有关系(包括所进行的杂交类型)，那么祖先基因型沿着合并个体的基因组的遗传满足HMM的要求。或者，如果这些参数中的一个或多个是未知的，则可以使用来自相同群体的多个合并基因型来训练HMM。

HMM以两个矩阵的形式合并上面列出的四条信息：第一矩阵在本文中称为转换矩阵，而第二矩阵在本文中称为发射矩阵。转换矩阵提供了前一个基因座处的遗传模式可以导致当前基因座处的遗传模式的概率。这些概率是谱系关系信息和遗传图谱距离信息两者的函数。发射矩阵提供了观察到的合并物的基因型可以通过来自祖先的遗传的每个排列产生的概率。此矩阵合并基因型信息，并可以通过谱系信息进一步简化。HMM的算法对发射和转换矩阵进行操作，以有效地计算合并个体从每个可能的祖先遗传每个基因座的概率。即使存在大量标记基因座和多个祖先，这些算法也能有效运行。在谱系未完全已知的情况下，使用HM是不合适的。推断仍然是可能的，但是将需要使用更密集的计算技术并且可能地需要更大的标记基因座组来实现相同的准确度。

如本文所述，概率性反卷积最佳地利用了商业育种程序中常规可用的四种信息源。然而，也可以使用其他计算机模拟反卷积方法，如以下中描述的计算机单倍型定相：Browning和Browning(2011)Nat.Rev.Genet.[遗传学自然评论]122：703-714，其内容通过引用以其整体结合在此。

HMM可以用前向后向算法来执行，如描述在Rabiner(1989)Proc.IEEE[国际会议会刊]77：257-286中，其内容通过引用以其整体结合在此。给定基因座k，具有发射矩阵E_k、转换矩阵T_k、以及来自先前计算的前向概率的向量(以下表示为f_k-1)，正推法(forWard pass)是：

其中[m，]指定观察到的基因型m(例如，A/A)的发射矩阵的行，是指逐元素乘法。在一些实施例中，方程(I)被修改以包括归一化常数c_k。因此，方程(I)然后变为：

其中归一化常数c_k等于：

在一些实施例中，则反向算法是：

其中b_k表示后向概率的向量。在一些实施例中，方程(IV)被修改以包括归一化常数a_k。因此，方程(IV)然后变为：

且a_k类似地定义为c_k，其中：

前向概率f₀的初始向量(当k＝1时使用)对应于合并物中涉及的杂交的先验概率。例如，对于F₁衍生的DH/H品系f₀＝[0.25 0.25 0.25 0.25]′的2W合并物(即，预期的亲本基因组对杂交的贡献的产物，在F₁杂交的情况下均等于0.5)，初始b_M+1，其中M是标记的数量，对于反推法总是[1 1 1 1]′(即，用1′s填充的适当维数的向量)。

正推法从k＝1至k＝M执行，且反推法从k＝M至k＝1执行。然后通过以下计算获得基因座k处的后验祖先遗传概率：

图2中描绘的是本发明方法的非限制性示例性实施例。图2中显示的是亲本植物(I₁、I₂、I₃、和I₄)，它们以两个亲本杂交I₁/I₂和I₃/I₄进行杂交。在此实施例中，在称为L₁、L₂、和L₃的标记基因座处的亲本植物(即，祖先)的基因型是已知的。描绘了每个亲本的等位基因调用以及在亲本植物与子代植物P₁和P₂之间的谱系关系。如图2中显示的，子代植物P₁和P₂分别是亲本杂交I₁/I₂和I₃/I₄的后代。虽然图2揭示子代P₁在所有三个基因座接受来自亲本植物I₂的标记等位基因，且子代P₂在L₁接受来自亲本植物I₄的标记等位基因并且在基因座L₂和L₃接受来自亲本植物I₃的标记等位基因，应该理解此信息在经由电脑模拟反卷积步骤之前是未知的。在此实施例中，子代植物不是单独进行基因分型，而是从每个子代植物中分离基因组DNA并合并以产生合并子代基因组DNA。可替代地，合并DNA样品是从合并组织样品中提取的。然后将合并子代DNA使用任何适合的基因分型技术进行基因分型。然后可以实施前向-反向HMM以在标记基因座L₁、L₂、和L₃处反卷积P₁和P₂的基因型。

基因座k的转换矩阵T_k描述了基因座k-1处的遗传的模式将导致基因座k处的特定的遗传模式的条件概率。例如，其描述了合并个体在基因座L₂处从祖先I₁和I₃遗传的概率，条件是在基因座L₁处从I₂和I₃遗传而来。一般来说，T_k对于2W合并物是(外部标签不是计算的一部分)：

其中r_k是基因座k与k-1之间的重组频率。可以用Haldane的映射函数从在两个标记基因座之间的遗传图谱距离(d_k，以摩根计)计算重组频率(参见Haldane(1919)J.Genet.[医学遗传学杂志]8：299-309，其内容通过引用以其整体结合在此)，为：

在图2显示的示例性实施例中，基因座L₂与L₁之间的距离是0.10且L₃与L₂之间的距离是0.05，其翻译为r₂＝0.091和r₃＝0.048。由于基因座L₁位于染色体的起始处，因此与任何先前的基因座无连锁，r₁＝0.500。可以使用其他映射函数(例如，Kosambi，(1943)Ann.Eugen.12：172-175，其内容通过引用以其整体结合在此)。将这些值用r_k取代给出以下三个基因座的转换矩阵(由于舍入误差，可能存在小的差异)。

通过调整转换矩阵和先前的前向概率f₀，HMM可以扩展到除F₁衍生的DH/H之外的杂交类型。例如，在一些实施例中，衍生自回交一(BC₁)代的两个单倍体或双单倍体子代植物之间的合并物的转换矩阵，其中R₁和D₁为第一育种杂交的轮回和供体亲本，且R₂和D₂为第二育种杂交的那些：

对于相同的杂交类型，f₀＝[0.5625 0.1875 0.1875 0，0625]′。通过类似的调整，该方法可以扩展到其他杂交类型，这些杂交类型包括但不限于来自最新的回交代(BC₂、BC₃等)的DH/H或子代个体、通过子代自体受精(filial selfings)衍生的个体(例如，F₂，F₃个体)、衍生自更最新的子代的DH/H(F₂、F₃等)、和来自涉及超过2个亲本(例如，三系-或四系杂交)的育种杂交的DH/H或子代个体。应当理解，鉴于本公开，转换矩阵式可以容易地适应任何类型的育种杂交，并且其在本领域的普通技术范围内。

返回至图2中显示的示例性实施例，基因座k的发射矩阵E_k描述了合并物的祖先遗传模式条件下观察到的标记基因型的概率。例如，以从基因座L₁处的I₁和I₃遗传的合并物为条件，观察A/A基因型的概率是一，且其对于A/T和T/T基因型的概率为零。以从I₁和I₄遗传的合并物为条件，观察A/A或T/T基因型的概率为零而A/T基因型的概率为一。将此基本原理应用于所有基因座和遗传模式会产生以下三个发射矩阵(标签不是计算的一部分)：

在图2中描绘的此实施例中，假定基因分型错误不存在。或者，如果考虑基因分型错误，矩阵中的值将略微偏离1和0，以反映例如，即使两个祖先都是A等位基因的纯合子，A/T的合并基因型也几乎没有被观察到的机会。为了适应缺失的基因型，用1′s填充的第四行可以添加到矩阵中。

随着转换和发射矩阵的到位，然后计算前向和后向概率f_k和b_k。以k＝1开始，根据方程(II)的前向概率是：

并从k＝3开始，根据方程(V)的后向概率是：

最后，在应用方程(VII)并将结果安排在矩阵中之后，获得后验祖先遗传概率p_k(参见图2)，如下：

图2显示的实施例中，从基因座L₂处的祖先I₂和I₃遗传的合并DH/H的后验概率是2/3，且从祖先I₁和I₄的遗传等于1/3。来自I₁和I₃或者I₂和I₄的遗传具有零概率，因为在没有基因分型错误的情况下，当两个祖先对于相同的等位基因是纯合的时，观察C/T合并基因型是不可能的。从I₁或I₂遗传的子代P₁以及来自I₃或I₄的子代P₂的谱系信息是已知的。因此，得出结论是基因座L₂处的最可能的子代P₁的标记基因型是T且对于P₂是C。

在一些实施例中，隐马尔科夫建模的反卷积能以自然对数(基数e)的标度表示。当以基数e的标度表示时，对数前向概率变为：

ln(f_k[i])＝ln∑_j＝1[ln(T_k[j，i])*_lnln(f_k-1[j])]*_ln ln(E_k[m，i]) (IX)

对数后向概率变为：

ln(b_k[i])＝ln∑_j＝1{ln(T_k[j，i])*_ln[ln(b_k+1[j])*_lnln(E_k[m，j])]} (X)

且对数后验祖先概率变为：

ln(p_k[i])＝-{ln∑_j＝1[ln(f_k[j])*_lnln(b_k+1[j])]}*_ln[ln(f_k[i])*_lnln(b_k+1[i])] (XI)

其中ln(x)是x的自然对数，重新定义为返回0_ln(如果x无限接近或等于0)，其中0_ln为任何负数，其中例如0_ln＝-1000。此外，

其中‘log sum’运算符+_ln定义为：

且‘log product’运算符*_ln为：

为了验证目的和评估反卷积过程的准确性，可以将从本发明方法获得的推断标记基因型与合并子代植物的真实或观察到的标记得分进行比较。然而，对于许多应用，如全基因组预测(参见例如Meuwissen等人，(2001)Genetics[遗传学]157：1819-1829，其内容通过引用以其整体结合在此)，可以直接使用祖先遗传概率p_k。

用于检测标记等位基因的合适技术

在本文所述的某些方面，两个或更多个子代植物的同时合并基因分型的方法包括检测步骤。例如，在一些实施例中，检测步骤包含在合并DNA样品中检测至少一个标记等位基因。在其他实施例中，对亲本育种杂交中使用的祖先或亲本植物进行基因分型并涉及检测步骤，其中在一个或多个亲本植物中检测至少一个标记等位基因。在还其他实施例中，提供了对亲本植物以及子代植物两者利用检测步骤的方法。在此类实施例中，检测步骤包含检测亲本植物和通过亲本植物的杂交产生的一个或多个子代植物中的一个或多个标记基因座的至少一个等位基因。尽管不旨在限于任何特定的实施例，但本文提供的是适用于本发明方法的示例性检测方法。

在一个实施例中，检测的方法包括亲本植物和/或子代植物中的至少一个标记基因座的DNA测序。如本文所用，“测序”是指用于确定DNA分子中核苷酸的顺序的测序方法。本领域已知的任何DNA测序方法可以用于本文提供的方法中。在本文提供的方法中有用的DNA测序方法的非限制性实施例包括下一代测序(NGS)技术，例如在Egan等人，(2012)AmericanJournal of Botany[美国植物学期刊]99(2)：175-185中描述的；通过测序进行的基因分型(GBS)方法，例如在Elshire等人，(2011)PLoS ONE[公共科学图书馆]6(5)：e19379中描述；分子倒置探针(MIP)基因分型，如例如在Hardenbol等人，(2003)Nature Biotechnology[自然生物技术]21(6)：673-678中描述；或者通过全基因组重测序进行高通量基因分型，如实例在Huang等人，(2009)Genome Research[基因组研究]19：1068-1076中描述。以上参考文献的每个通过引用以其整体结合在此。在一些基因分型方法中，基因型由等位基因计数推断，例如，测序读数计数以确定等位基因的身份及其纯合性。

在其他方面，检测可以包含设计引物或探针，其与涵盖标记基因座的至少部分基因组DNA互补或部分互补并且能够在至少中等严格条件下与目的标记基因座特异性杂交。在这些方面，引物或探针任选地包含可检测标记。可以使用本领域任何合适的技术从植物材料中提取基因组DNA，例如通过Stacey和Isaac(1994)(将其内容通过引用以其整体结合在此)描述的CTAB(十六烷基三乙基溴化铵，SigmaH5882)方法。检测可包含分离核酸、扩增涵盖标记基因座的基因组DNA或涵盖标记基因座的基因组DNA的部分、并检测所得的扩增标记扩增子。在一些实施例中，扩增包含将扩增引物或扩增引物对和任选的至少一种核酸探针与从大豆植物或大豆种质中分离的核酸混合，其中引物或引物对和任选的探针与涵盖标记基因座的至少部分基因组DNA是互补的或部分互补的，并且能够使用核酸作为模板通过DNA聚合酶启动DNA聚合；以及，在包含DNA聚合酶和模板核酸的DNA聚合反应中延伸引物或引物对，以产生至少一个扩增子。在具体的实施例中，检测包含实时PCR分析。

在一些实施例中，使用合适的基于扩增的检测方法检测分子标记。典型的扩增方法包括各种基于聚合酶的复制方法，包括聚合酶链式反应(PCR)、连接酶介导的方法(如连接酶链式反应(LCR))和基于RNA聚合酶的扩增(如，通过转录)方法。在这些类型的方法中，核酸引物通常与多态性标记区侧翼的保守区杂交。在某些方法中，还使用与扩增区域结合的核酸探针。通常，用于制备寡核苷酸(包括引物和探针)的合成方法是本领域熟知的。例如，寡核苷酸可以例如使用可商购的自动合成仪(如描述在Needham-VanDevanter等人(1984)Nucl Acids Res[核酸研究]12：6159-6168中的)根据Beaucage和Caruthers(1981)Tetrahedron Letts[四面体通讯]22：1859-1862描述的固相亚磷酰胺三酯方法化学合成，其每个的内容通过引用以其整体结合在此。寡核苷酸(包括修饰的寡核苷酸)也可以从本领域技术人员已知的各种商业来源订购。

应当理解，可以使用任何合适的方法设计合适的引物和探针。本发明并不旨在限于任何特定的引物、引物对或探针。例如，可以使用任何合适的软件程序，如或引物3来设计引物。

这些引物不限于产生任何特定大小的扩增子。例如，用于扩增本文标记基因座和等位基因的引物不限于扩增相关基因座的整个区域。在一些实施例中，标记扩增产生的扩增子长度为至少20个核苷酸、或可替代地长度为至少50个核苷酸、或可替代地长度为至少100个核苷酸、或可替代地长度为至少200个核苷酸、或可替代地长度为至少300个核苷酸、或可替代地长度为至少400个核苷酸、或可替代地长度为至少500核苷酸、或可替代地长度为至少1000个核苷酸、或可替代地长度为至少2000个核苷酸。

PCR、RT-PCR、和LCR是用于扩增目的核酸(例如，those comprising标记基因座)的常用的扩增和扩增-检测方法，有助于检测标记。关于这些和其他扩增方法的使用的细节是本领域熟知的，并且可以在各种标准文本中找到。这些技术的细节也可以在许多参考文献中找到，如Mullis等人(1987)美国专利4,683,202；Arnheim和Levinson(1990)C&EN 36-47；Kwoh等人(1989)Proc Natl Acad Sci USA[美国国家科学院院刊]86：1173；Guatelli等人(1990)Proc Natl Acad Sci USA[美国国家科学院院刊]87：1874；Lomell等人(1989)JClin Chem[临床化学杂志]35：1826；Landegren等人(1988)Science[科学]241：1077-1080；Van Brunt(1990)Biotechnology[生物技术]8：291-294；Wu和Wallace(1989)Gene[基因]4：560；Barringer等人(1990)Gene[基因]89：117；以及Sooknanan和Malek(1995)Biotechnology[生物技术]13：563-564，其每个的内容通过引用以其整体结合在此。

可以使用此类核酸扩增技术来扩增和/或检测目的核酸，如包含标记基因座的核酸。提供了用于扩增有用标记基因座的扩增引物和用于检测有用标记基因座或对等位基因进行基因分型(如SNP等位基因)的合适探针。实时扩增测定(包括分子信标或基于的测定)尤其适用于检测SNP等位基因。在此类情况下，通常将探针设计成与包括SNP基因座的扩增子区域结合，其中针对每个可能的SNP等位基因设计一个等位基因特异性探针。例如，如果对于特定SNP基因座有两个已知的SNP等位基因“A”或“C”，则一个探针在SNP位置设计为具有“A”，而分开的探针设计为在SNP位置具有“C”。虽然探针通常除了在SNP位置之外彼此相同，但它们不必是。例如，两个等位基因特异性探针可以相对于彼此向上游或下游移动一个或多个碱基。然而，如果探针在其他方面不相同，则应将它们设计成使它们以大致相同的效率结合，这可以通过在限制探针化学性质的严格参数集下设计来实现。此外，典型地在每个不同的等位基因-特异性探针上应用不同的可检测的标记(例如不同的报告基因-猝灭剂对)以允许每个探针的差异检测。在某些实施例中，针对某个SNP基因座的每个等位基因-特异性探针的长度是13-18个核苷酸，在3′末端具有荧光猝灭剂双重标记，并且在5′末端具有6-FAM(6-羧基荧光素)或VIC(4，7，2′-三氯-7′-苯基-6-羧基荧光素)荧光团。

在某些实施例中，探针将具有可检测的标签。任何合适的标签都可以与探针一起使用。适用于核酸探针的可检测标记包括，例如，可通过光谱、放射性同位素、光化学、生物化学、免疫化学、电学、光学、或化学方法检测的任何组合物。有用的标签包括用于用标记的链霉抗生物素蛋白缀合物染色的生物素、磁珠、荧光染料、放射性标记、酶和比色标记。其他标签包括配体，其与用荧光团标记的抗体、化学发光剂、和酶结合。探针还可以构成放射性标记的PCR引物，其用于产生放射性标记的扩增子。用于标记核酸的标记策略及其相应的检测策略可以例如在Haugland(1996)Handbook of Fluorescent Probes andResearch Chemicals[荧光探针和研究化学品手册]第六版，由分子探针公司(Molecular Probes，Inc.)(Eugene，OR)；或Haugland(2001)Handbook of Fluorescent Probes and Research Chemicals[荧光探针和研究化学品手册]第八版，由分子探针公司(Molecular Probes，Inc.)(Eugene，OR)，这些的每个的内容通过引用以其整体结合在此。

可检测标记也可以包括报告基因-猝灭剂对，如在分子信标和探针中使用的。报告基因可以是用合适的连接基团修饰的荧光有机染料用于连接寡核苷酸，例如末端3′碳或末端5′碳。猝灭剂也可以是有机染料，其可以是或可以不是荧光的。通常，无论猝灭剂是荧光的还是仅通过非辐射衰变从报告基因释放转移的能量，猝灭剂的吸收带应该至少基本上与报告基因的荧光发射带重叠以优化猝灭。非荧光猝灭剂或暗猝灭剂通常通过从激发的报告基因吸收能量起作用，但不会辐射释放能量。

可以根据已知的技术选择用于特定探针的合适的报告基因-猝灭剂对。例如在Berlman，Handbook of Fluorescence Spectra of Aromatic Molecules[芳香族分子的荧光光谱手册]，第2版，美国学术出版社(Academic Press)，纽约，1971(其内容通过引用结合在此)中列出并描述了荧光和暗猝灭剂及其相关的光学性质，其中可以选择例性报告基因-猝灭剂对。可以例如在Haugland(2001)Handbook of Fluorescent Probes and Research Chemicals[荧光探针和研究化学品手册]第八版，由分子探针公司(Molecular Probes，Inc.)(Eugene，OR)(其内容通过引用结合在此)中发现经由可以添加到本发明的寡核苷酸中的常见反应基团来修饰用于共价连接的报告基因和猝灭剂的实例。

在某些实施例中，报告基因-猝灭剂对选自包括荧光素和罗丹明染料的xanthene染料。这些化合物的许多合适形式可商购获得，在苯基上具有取代基，其可用作键合位点或用作附接寡核苷酸的键合官能团。用作报告基因的另一组有用的荧光化合物是萘基胺，其在α或β位具有氨基。此类萘基氨基化合物包括1-二甲基氨基萘基-5磺酸盐、1-苯胺基-8-萘磺酸盐和2-对-甲苯胺基-6-萘磺酸盐(2-p-touidinyl-6-naphthalene sulfonate)。其他染料包括3-苯基-7-异氰酸基香豆素；吖啶，如9-异硫氰酸基吖啶；N-(对-(2-苯并噁唑基)苯基)马来酰亚胺；苯并噁二唑基；芪；芘等。在某些其他实施例中，报告基因和猝灭剂选自荧光素和罗丹明染料。这些染料和用于附接寡核苷酸的合适连接方法是本领域熟知的。

报告基因的合适的实例可以选自染料，如SYBR green、5-羧基荧光素(5-FAM^TM，从加利福尼亚州的福斯特市的应用生物系统公司(Applied Biosystems)可得)、6-羧基荧光素(6-FAM)、四氯-6-羧基荧光素(TET)、2，7-二甲氧基-4，5-二氯-6-羧基荧光素、六氯-6-羧基荧光素(HEX)、6-羧基-2′，4，7，7′-四氯荧光素(6-TET^TM，从应用生物系统公司(AppliedBiosystems)可得)、羧基-X-若丹明(ROX)、6-羧基-4′，5′-二氯-2′，7′-二甲氧基荧光素(6-JOE^TM，从应用生物系统公司(Applied Biosystems)可得)、VIC^TM染料产物(从分子探针公司(Molecular Probes，Inc.)可得)、NED^TM染料产物(从应用生物系统公司(AppliedBiosystems)可得)等。猝灭剂的合适的实例可以选自6-羧基-四甲基-若丹明、4-(4-二甲基氨基苯基偶氮)苯甲酸(DABYL)、四甲基若丹明(TAMRA)、BHQ-0^TM、BHQ-1^TM、BHQ-2^TM、和BHQ-3^TM(其每个从加利福尼亚州的诺瓦托市的生物搜索技术公司(Biosearch Technologies，Inc.)可得)、QSY-7^TM、QSY-9^TM、QSY-21^TM和QSY-35^TM(其每个分子探针公司(MolecularProbes，Inc.)可得)等。

在一个方面，例如进行使用分子信标或探针，对本文描述的扩增混合物进行实时PCR或LCR。分子信标(MB)是在适当的杂交条件下自身杂交以形成茎和环结构的寡核苷酸。MB在寡核苷酸的末端具有标签和猝灭剂；因此，在允许分子内杂交的条件下，标签通常被猝灭剂猝灭(或至少改变其荧光)。在其中MB不显示分子内杂交的条件下(例如，当结合至靶核酸时，如至扩增期间扩增子的区域)，MB标签未被猝灭。关于制备和使用MB的标准方法的细节在文献中已经很好地建立，且MB可以从许多商业试剂来源获得。还参见例如Leone等人(1995)Nucl Acids Res[核酸研究]26：2150-2155；Tyagi和Kramer(1996)NatBiotechnol[自然生物技术]14：303-308；Blok和Kramer(1997)Mol Cell Probes[分子细胞探针]11：187-194；Hsuih等人(1997)J Clin Microbiol[临床化学杂志]34：501-507；Kostrikis等人(1998)Science[科学]279：1228-1229；Sokol等人(1998)Proc Natl AcadSci USA[美国国家科学院院刊]95：11538-11543；Tyagi等人(1998)Nat Biotechnol[自然生物技术]16：49-53；Bonnet等人(1999)Proc Natl Acad Sci USA[美国国家科学院院刊]96：6171-6176；Fang等人(1999)J Am Chem Soc[美国化学学会杂志]121：2921-2922；Marras等人(1999)Genet Anal Biomol Eng[遗传分析生物分子工程]14：151-156；和Vet等人(1999)Proc Natl Acad Sci USA[美国国家科学院院刊]96：6394-6399。关于MB构建和用途的另外的细节也可在以下专利文献中找到：例如美国专利号5,925,517；6,150,097；和6,037,130。以上参考文献的每个通过引用以其整体结合在此。

另一个实时检测方法是5′-核酸外切酶检测方法，也称为测定，如列于美国专利号5,804,375；5,538,848；5,487,972；和5,210,015中，其每个的内容通过引用以其整体结合在此。在测定中，在PCR期间使用修饰的探针(长度通常为10-30个核苷酸)，其将中间体结合到扩增引物对的两个成员上或之间。修饰的探针具有报告基因和猝灭剂，并被设计为产生可检测的信号以在PCR期间指示其与靶核酸序列杂交。只要报告基因和猝灭剂都在探针上，猝灭剂就会阻止报告基因发出可检测的信号。然而，当聚合酶在扩增过程中延伸引物时，聚合酶的固有5′至3′核酸酶活性降解探针，将报告基因与猝灭剂分离，并使可检测信号能发射。通常，在扩增循环期间产生的可检测信号的量与每个循环中产生的产物的量成比例。

众所周知，猝灭效率是报告基因和猝灭剂接近的强函数，即随着两个分子越来越近，猝灭效率增加。由于猝灭强烈取决于报告基因和猝灭剂的物理接近，报告基因和猝灭剂通常在彼此的几个核苷酸内(通常在彼此的30个核苷酸内、或在6到16个核苷酸内)附接到探针上。典型地，通过将报告基因-猝灭剂对的一个成员附接到探针的5′末端并将另一个成员附接到约6到16个核苷酸远处的核苷酸上(在一些情况下在探针的3′末端)实现这种分离。

在扩增/检测方法中也可以省略单独的检测探针，例如，通过进行实时扩增反应，该反应通过在并入产物中后修饰相关的扩增引物、将标记的核苷酸掺入扩增子中来检测产物形成，或通过监测(例如，通过荧光偏振)与未扩增的前体相比的扩增子的分子旋转性质的变化。

不使用与两种引物中间结合的单独探针的合适的实时检测技术的一个实施例是KASPar检测系统/方法，其是本领域熟知的。在KASPar中，设计两个等位基因特异性引物，使得每个引物的3′核苷酸与多态性碱基杂交。例如，如果SNP是A/C多态性，其中一个引物在3′位置具有“A”，而另一个引物在3′位置具有“C”。这两个等位基因特异性引物中的每一个在引物的5′末端也具有独特的尾部序列。使用常见的反向引物，其连同两个等位基因特异性引物中的任一个一起扩增。两个5′氟标记的报告基因寡核苷酸也包括在反应混合物中，一个设计用于与等位基因特异性引物的每个独特尾部序列相互作用。最后，对于两个报告基因寡核苷酸中的每一个包括一个猝灭剂寡核苷酸，猝灭剂寡核苷酸与报告基因寡核苷酸互补并且当与报告基因寡核苷酸结合时能够猝灭荧光信号。在PCR期间，等位基因特异性引物和反向引物与互补DNA结合，这允许发生扩增子的扩增。在随后的循环期间，产生含有与等位基因特异性引物的独特尾部序列互补的序列的互补核酸链。在另外的循环中，报告基因寡核苷酸与此互补尾部序列相互作用，充当标记的引物。因此，由PCR的此循环产生的产物是荧光标记的核酸链。因为并入此扩增产物中的标记对导致扩增的等位基因特异性引物是特异性的，所以检测呈递信号的特异性荧光可用于确定样品中存在的SNP等位基因。

此外，应当理解，扩增不是标记检测的要求-例如，可以简单地通过对基因组DNA的样品进行DNA印迹来直接检测未扩增的基因组DNA。用于进行DNA印迹、扩增(例如PCR、LCR等)、和许多其他核酸检测方法的程序已经良好建立并且例如在以下中教导：Sambrook；Current Protocols in Molecular Biology[分子生物学实验指南]，F.M.Ausubel等人编辑.实验指南公司(Current Protocols)是格林出版公司(Greene PublishingAssociates，Inc.)与约翰威立父子公司(John Wiley&Sons，Inc.)的合资企业(由2002年补充)；和PCR Protocols A Guide to Methods and Applications[PCR方案方法和应用指南](Innis等人编辑)学术出版社有限公司(Academic Press Inc.)圣地亚哥，CA(1990)。关于植物中核酸的检测的另外的细节可以在以下中找到：例如在Plant Molecular Biology[植物分子生物学](1993)Croy(编辑)BIOS科学出版社(BIOS Scientific Publishers，Inc.)，以上参考文献的每个通过引用以其整体结合在此。

也可以使用检测SNP的其他技术，如等位基因特异性杂交(ASH)或核酸测序技术。ASH技术基于短的单链寡核苷酸探针与完全互补的单链靶核酸的稳定退火。经由附接至探针的同位素或非同位素标记进行检测。对于每种多态性，设计两种或更多种不同的ASH探针以除了在多态性核苷酸处以外具有相同的DNA序列。每个探针与一个等位基因序列具有精确的同源性，因此探针的范围可以区分所有已知的可替代的等位基因序列。每个探针与靶DNA杂交。在适当的探针设计和杂交条件下，探针与靶DNA之间的单碱基错配将阻止杂交。

分离的多核苷酸或其片段(例如引物和/或探针)能够在适当的条件下与其他核酸分子特异性杂交。在一些实施例中，核酸分子包含本发明的任何标记基因座。应当理解，可以使用任何合适的方法设计合适的引物和探针。这不旨在限于任何特定的引物、引物对或探针。例如，可以使用任何合适的软件程序，如或引物3来设计引物或探针。在另一方面，本发明的引物和探针包括例如在高或低严格下与基本上同源的序列杂交的、或与这些分子同时具有的核酸分子。传统的严格条件由Sambrook以及由Haymes等人在以下中描述：Nucleic Acid Hybridization，A Practical Approach[核酸杂交，使用方法]，IRL出版社(IRL Press)，华盛顿，D.C.(1985)，其每个的内容通过引用以其整体结合在此。因此，允许完全互补的偏离，只要此类偏离不完全排除分子形成双链结构的能力。为了使核酸分子充当引物或探针，其仅需要在序列上足够互补以能够在所用的特定溶剂和盐浓度下形成稳定的双链结构。促进DNA杂交的适当的严格条件是本领域技术人员已知的或可以在以下发现：CurrentProtocolsin Molecular Biology[分子生物学实验指南]，约翰威立父子公司(John Wiley&Sons)，纽约，1989，6.3.1-6.3.6，将其内容通过引用以其整体结合在此。

典型地，严格条件是以下条件，在这些条件下该盐浓度在pH 7.0至8.3时是小于约1.5M钠离子、典型为约0.01至约1.0M钠离子浓度(或其他盐)，并且对于短探针(例如，10至50个核苷酸)的温度为至少约30℃，而对于长探针(例如，超过50个核苷酸)的温度为至少约60℃。添加去稳定剂例如甲酰胺也可以实现严格条件。示例性低严格条件包括在37℃使用30％至35％甲酰胺、1M NaC1、1％SDS(十二烷基硫酸钠)的缓冲溶液进行杂交，并且在50℃至55℃在1x至2xSSC(20xSSC＝3.0M NaC1/0.3M柠檬酸三钠)中洗涤。示例性中严格条件包括在37℃在40％至45％甲酰胺、1M NaC1、1％SDS中进行杂交，并且在55℃至60℃在0.5x至1xSSC中洗涤。示例性高严格条件包括在37℃在50％甲酰胺、1M NaC1、1％SDS中杂交，并且在60℃至65℃在0.1xSSC中洗涤。特异性典型地取决于杂交后洗涤的功能，关键因素是最终洗涤溶液的离子强度以及温度。对于DNA-DNA杂交，热熔点(Tm)可以从Meinkoth等人，Anal.Biochem.[分析生物化学]138：267-284(1984)的方程接近，其每个的内容通过引用以其整体结合在此：Tm＝81.5℃+16.6(log M)4-0.41(％GC)-0.61(％形式)-500/L；其中M为单价阳离子的摩尔浓度，％GC为DNA中鸟苷和胞嘧啶核苷酸的百分比，％form为杂交溶液中甲酰胺的百分比，并且L为杂合体的碱基对长度。Tm是温度(在定义的离子强度以及pH下)，在该温度下50％的互补靶序列杂交到完全配对的探针上。对于每1％的错配，Tm降低约1℃；因此，可调整Tm、杂交和/或洗涤条件以与所期需同一性的序列杂交。例如，如果查找具有≥90％同一性的序列，该Tm可以降低10℃。通常，将严格条件选择为比特定序列及其互补序列在所限定的离子强度和pH下的T_m低约5℃。然而，极严格条件可以利用比Tm低1℃、2℃、3℃或4℃的杂交和/或洗涤；中等严格条件可以利用比Tm低6℃、7℃、8℃、9℃或10℃的杂交和/或洗涤；低严格条件可以利用比Tm低11℃、12℃、13℃、14℃、15℃或20℃的杂交和/或洗涤。使用方程方程、杂交和洗涤组合物以及所需的Tm，本领域普通技术人员将理解，本质上描述了杂交和/或洗涤溶液的严格性的变化。如果所希望的错配程度导致Tm小于45℃(水溶液)或32℃(甲酰胺溶液)，则优选增加SSC浓度以使得可使用较高温度。对核酸杂交的全面指导见于以下文献：Tijssen，Laboratory Techniques in Biochemistry and MolecularBiology-Hybridization with Nucleic Acid Probes[生物化学与分子生物学技术-与核酸探针的杂交]，第I部分，第2章“Overview ofprinciples of hybridization and thestrategy of nucleic acid probe assays[杂交原理概述和核酸探针测定策略]”，爱思唯尔公司(Elsevier)，纽约(1993)；以及Current Protocols in Molecular Biology[分子生物学实验指南]，第2章，Ausubel等人编辑(Greene Publishing and Wiley-Interscience[格林出版与威利交叉科学出版社]，纽约(1995)，其每个的内容通过引用以其整体结合在此)。杂交和/或洗涤条件可以应用至少10、30、60、90、120、或240分钟。

与一个或多个表型相关的标记基因座的检测

此公开的另外的目的是提供两个或更多个子代植物的针对一个或多个表型相关的标记基因座的同时合并基因分型的方法。在某个方面，提供两个或更多个子代植物(每个来源于不同亲本植物对的杂交)的同时合并基因分型的方法，并包括检测步骤，所述检测步骤包含能够与标记基因座的有利的等位基因杂交的一个或多个分离的多核苷酸，所述标记基因座与至少一个表型相关，所述表型选自由以下组成的组：产量、叶角、雌雄穗开花间隔、滞绿持续、早期生长速率、总生长速率、生长模式、最大生物量、总生物量，氮利用效率、水分利用效率、母育酚含量、油酸含量、植酸含量、氨基酸组成、油数量或质量、能量利用率、消化率、脂肪酸组成、病原体防御机制、赖氨酸和硫水平、淀粉合成、抗病性、除草剂抗性、雄性不育、植物活力、营养素含量、半纤维素含量、纤维素产量、耐寒性、耐盐性、耐热性、耐旱性、谷物水分含量、茎秆倒伏、根倒伏、根系拉力、定植(stand establishment)、出苗、中期抽丝(midsilk)、测试重量、蛋白质含量、淀粉百分比、相对成熟度、株高、种子大小、抽穗期、抗虫性、抗病性、脆断性(brittle snap)、茎秆断裂、抗真菌性、种子水分、头部形状(headshape)、去壳能力(hullability)、幼苗活力、开始开花日期、成熟日期、种子粉碎性、冬季存活、纤维强度、穗高、植物不结实、种子数量、种子重量、和颜色等级。在某些实施例中，分离的多核苷酸是引物或探针。在具体的实施例中，所述方法进一步包括检测一个或多个基因组DNA样品或合并基因组DNA样品中杂交的多核苷酸的存在，所述杂交的多核苷酸作为具有标记基因座的有利的等位基因的子代植物的指示，所述标记基因座与以下相关：产量、叶角、雌雄穗开花间隔、滞绿持续、早期生长速率、总生长速率、生长模式、最大生物量、总生物量，氮利用效率、水分利用效率、母育酚含量、油酸含量、植酸含量、氨基酸组成、油数量或质量、能量利用率、消化率、脂肪酸组成、病原体防御机制、赖氨酸和硫水平、淀粉合成、抗病性、除草剂抗性、雄性不育、植物活力、营养素含量、半纤维素含量、纤维素产量、耐寒性、耐盐性、耐热性、耐旱性、谷物水分含量、茎秆倒伏、根倒伏、根系拉力、定植、出苗、中期抽丝、测试重量、蛋白质含量、淀粉百分比、相对成熟度、株高、种子大小、抽穗期、抗虫性、抗病性、脆断性、茎秆断裂、抗真菌性、种子水分、头部形状、去壳能力、幼苗活力、开始开花日期、成熟日期、种子粉碎性、冬季存活、纤维强度、穗高、植物不结实、种子数量、种子重量、和/或颜色等级。在其他实施例中，将检测到杂交多核苷酸的存在的子代植物或其种质与另一个植物(如轮回亲本)杂交，以产生子代植物种质群。在此类实施例中，可以使用本文描述的检测方法针对有利于一个或多个以上描述的表型的标记等位基因对子代植物种质进行基因分型。

除了以上描述的表型，本发明方法中检测的标记基因座与一个或多个其他目的表型相关，这些目的表型包括但不限于对以下一种或多种的提高的抗性：抑制ALS的除草剂、羟基苯丙酮酸加双氧酶抑制剂、phosphanoglycine(包括但不限于草甘膦)、磺胺、咪唑啉酮，双丙氨膦、草丁膦、赛克津、硝磺草酮、异噁唑草酮，唑啶草酮、氟丙嘧草酯、草硫膦、草铵膦、麦草畏、2，4-D、和氧化酶抑制剂。在一些实施例中，通过本发明方法检测的一个或多个标记基因座与一个或多个表型相关，所述表型选自由以下组成的组：延长的生殖生长阶段、早期开花、耐旱性、胁迫耐受性、抗病性、除草剂抗性、增加的产量、改良的油、修饰的蛋白质，对褪绿条件的耐受性、和昆虫抗性、或其任何组合。在一些实施例中，所述性状选自由以下组成的组：炭腐病抗旱复合抗性、赤霉病抗性、致病疫霉抗性、茎溃疡病抗性、猝死综合症抗性、菌核病抗性、尾孢抗性、炭疽病抗性、靶斑点抗性、灰斑病抗性、大豆胞囊线虫抗性、根结线虫抗性、锈病抗性、高油酸含量、低亚麻酸含量、蚜虫抗性、臭虫抗性、和缺铁失绿抗性、及其任何组合。在一些实施例中，一种或多种性状由一种或多种转基因、由一种或多种天然基因座、或其任何组合赋予。

通过以下实例对本公开进行说明。前面和后面的描述和各种实例不是旨在限制，而是说明所描述的实施例。因此，应当理解，本公开不限于这些实例的具体细节。

实例

实例1.两种DH/H的模拟合并物(2W合并物)

用来自玉米和低芥酸菜籽育种杂交的模拟基因型数据证明了同时合并基因分型。模拟包括早熟的坚秆综合种(Stiff-Stalk Synthetic)(SSS)和Non-Stiff Stalk(NSS)玉米谱系的六个-DH(2W)合并物，以及B-品系和R-品系低芥酸菜籽谱系的三个2W合并物(表1)。对于两种作物，组合包括其中所有育种杂交来自相同杂种优势组以及来自不同杂种优势组的育种杂交组合的情况。

在此研究中，I₁/I₂以及I₃/I₄代表两个育种杂交，所述育种杂交包含亲本近交系I₁、I₂、I₃、和I₄。对于每个育种杂交，使用观察到的亲本的单一核苷酸多态性(SNP)基因型和对应的遗传图谱产生250个F₁DH/H植物子代。在不失一般性的情况下，假设所有标记都是双等位基因SNP。

根据计数-位置模型模拟减数分裂，其遵循霍尔丹映射函数的假定，如在Karlin和Liberman(1978)Proc.Nat.Acad.Sci.[美国国家科学院院刊]17：6332-6336中描述，其内容通过引用以其整体结合在此。简而言之，在计数-位置模型中，通过首先从泊松分布中提取交叉的数量来模拟单个染色体上的减数分裂，其中速率参数等于染色体的遗传长度(以摩根计)。然后，在染色体长度上从均匀分布中提取交叉的位置。然后对每个染色体重复该过程。这些模拟用公共可用的R软件包hypred进行(参见Technow，″R Package hypred：Simulation of Genomic Data in Applied Genetics[R软件包hypred：应用遗传学中基因组数据的模拟]″，软件包版本0.4(2013)，在Cran.R Project网站(https：//cran.r-project.org/src/contrib/Archive/hypred/)可得，其内容通过引用以其整体结合在此)。然而，可以使用任何其他减数分裂模拟软件(参见例如，Maurer等人(2008)Euphytica 161：133-139；Voorrips和Maliepaard(2012)BMC Bioinformatics[BMC生物信息学]13：248，其每个的内容通过引用以其整体结合在此)。

最后，通过将I₁/I₂的250个子代和来自I₃/I₄的250个子代随机配对产生250个DNA合并物。合并物包含来自每个育种杂交的一个DH。从成对的DNA谱中获得DNA合并物的基因型(即，如果配对产生纯合基因型，则指定0或2(这取决于等位基因)，或者如果配对产生杂合基因型则指定1)。

仅考虑在包含合并物的育种杂交的至少一个中的多态性的标记。对于单态标记，反卷积是微不足道的。基于HM的计算机模拟反卷积算法如对于每个育种杂交组合的250个2W合并物的每个所描述的运行，以推断合并DH/H的SNP基因型。

然后评估反卷积误差率(DER)。在2W合并物的情况下并且在没有基因分型错误的情况下，在包含合并物的育种杂交中的仅一个中具有多态性的标记的反卷积是100％准确的。这是因为只有一种遗传模式可导致本文其他地方所讨论的杂合合并基因型。因此，必须仅对在合并物中涉及的两个育种杂交中的多态性的标记评估DER。因此，DER被计算为两个育种杂交中多态性的标记的比例，其中推断的标记基因型(根据HMM算法最可能的那个)与观察到的标记基因型不匹配。对于250个合并物中的每一个，分别进行该计算。注意，对于每个合并物，利用所述算法的反卷积独立地进行。因此，DER不取决于所考虑的合并物总数。对于例如在Browning and Browning(2011)Nat.Rev.Genet.122：703-714(其内容通过引用以其整体结合在此)中讨论的基于单倍型定相的反卷积算法，情况不是这样，。模拟的玉米和低芥酸菜籽2W合并物的结果显示在表1中。

表1.对于模拟的玉米和低芥酸菜籽2W合并物的结果总结。

合并物包含来自每个命名的育种杂交的一个DH。报告的是育种杂交组合的所有合并物的平均。M_G是基因分型标记的数量，且p是在两个育种杂交中多态性的标记的比例。

为了评估标记的总数对对DER的影响，标记的数量以25步长从最小100变化到最大可能。对于每个育种杂交组合，最大值通过在育种杂交的至少一个中多态性的标记的数量来确定。随机选择标记，唯一的限制是每条染色体必须具有至少3个标记。对于育种杂交组合的250个DNA合并物中的每一个，重新进行标记的取样以将标记组之间的可变性并入到总体不确定性中。对所有六个玉米和三个低芥酸菜籽育种杂交组合重复此方法。对于玉米和低芥酸菜籽育种组合，基因分型的总标记数对DER的影响分别显示在图3A-3F和图4A-4C中。如图3A-3F、图4A-4C和表1所示，对于所检查的所有育种组合，DER随着标记M_G数量的增加而降低。对于玉米，对于具有较高比例p的双多态性标记的育种杂交组合，DER较高。对于p接近或小于15％的组合，在M_G＝125时DER约为3％，并当M_G增加至500时降至0.5％以下的值。然而，对于p接近30％的对，DER在125M_G时约为5％、且在500的M_G时约为1％。低芥酸菜籽育种杂交组合的DER略微低于具有相似p的玉米实例中的DER。

为了评估双多态性标记(p)对DER上的标记的总数的影响，p以5％步长在15％与90％之间变化。令M_G表示标记的总数，其中对合并物进行基因分型。为了得到所希望的标记的混合，将pM_G和(1-p)M_G标记从分别在两个育种杂交或仅一个中多态性标记的组中随机取样。以此类方式确定M_G的值以获得每个育种杂交的M_T多态性标记的靶。M_G的值计算为

例如，如果每个育种杂交需要M_T＝100多态性标记，则当p＝0.3时必须对154个标记进行基因分型，且当p＝0.7时必须对118个进行基因分型。对玉米SSS育种杂交组合(品种M5/品种M3)与(品种M6/品种M7)以及低芥酸菜籽R-品系组合(品种C5/品种C6)与(品种C7/品种C8)进行此分析。在前者情况下，考虑了100、250和450的M_T值(图5)，在后者情况下，仅考虑M_T＝200(图6)。对于250个2W合并物中的每一个，随机进行标记的重新采样。玉米育种杂交组合与低芥酸菜籽育种杂交组合的结果分别显示在图5和图6中。如图5和6所示，当玉米和低芥酸菜籽育种杂交组合的p值有意增加时，DER随着p的增加而增加。无论M_T(每个育种杂交的多态性标记的靶数量)，都观察到此减少。然而，对于M_T的较高值，DER的绝对水平较低。在玉米实例中，对于100、250、和450的M_T值，在p＝50％的DER分别约为5％、1％和0.5％(图5)。

总之，DER随着标记(M_G)数量的增加而降低，并且随着两个育种杂交(p)中多态性的标记比例的增加而增加。

什么DER水平被认为是可接受的将取决于标记基因型的预期用途。例如，可以想象，同时使用所有标记的应用(如全基因组预测或种质表征)可以比对个体标记施加更多权重的应用(如QTL作图和标记辅助选择)耐受更高的DER。给定p水平的DER越低，进行基因分型(M_G)的标记越多。换句话说，每个杂交(M_T)所希望的信息标记数量越高，可以使用的p值越高。找到给定育种杂交组合的最佳p将需要预测DER或至少鉴定上限。这可以通过使用关于育种杂交之间的遗传距离和多态性标记的分布的信息来实现。假设遗传距离越大且多态区域内标记的分布越均匀DER越低。DER的预测也可以通过以与此研究中类似的方式进行的随机模拟获得。这可以对模拟的假设有效的程度给出准确的预测。预测DER的能力还将允许优化育种杂交的选择以在合并物(中组合且对标记进行基因分型。

实例2.真实数据验证和可行性证明

进行此真实数据验证研究以证实事件中合并基因分型和计算机模拟反卷积的可行性。此研究包含来自十个育种杂交组合的两个DH品系(SSS与SSS、NSS与NSS、和SSS与NSS)的208个不同的玉米2W合并物。这些合并物用包含合并物的两个育种杂交的至少一个中的多态性的在125与171个之间的SNP标记进行基因分型(参见表2)。合并样品的DNA从个体DH的合并植物种子组织样品中直接提取。使用基于标准荧光的测定对SNP标记进行基因分型，例如如在Holland等人，(1991)Proc.Natl.Acad.Sci.[美国国家科学院院刊]88：7276-7280中描述，其内容通过引用以其整体结合在此。使用上文提供的方程(II)、(V)、(VII)进行利用HMM的反卷积。出于验证目的，对于相同的标记，分别对合并DH品系进行基因分型，这使得能够通过将反卷积的基因型得分与观察到的得分进行比较来计算DER。该比较仅针对在两DH个体中具有观察到的得分的标记进行。因为这在合并物与合并物之间略有不同，所以数据在表2中显示为标记的数量的平均值和双多态性标记的比例的平均值。

在合并物的两个育种杂交中多态性的标记的平均观察到的DER范围在2.4与7.0之间(表2)。例如，在来自育种杂交组合(品种M10/品种M9)配对以(品种M26/品种M19)的DH子代之间的一个特定的合并物中，将155个标记进行基因分型。其中99个标记在品种M10/品种M9育种杂交中是多态性，98个标记在品种M26/品种M19育种杂交中是多态性，且42个标记在的两个育种杂交中是多态性。在此具体的实施例中，双多态性标记的反卷积标记得分与42个情况中的41个中的两个DH的观察到的得分匹配，这导致2.38％的双多态性标记的DER。

通常，在实际数据验证中观察到的DER数与在模拟研究中观察到的那些一致。随着双多态性标记比例的增加和基因分型的标记数量的减少，DER趋于增加。这些趋势也与获得自模拟研究的结果一致。因此，计算机模拟反卷积在实践中是准确和可行的。

表2.对于验证和实际可行性研究的实际玉米2W合并物的结果总结

合并物包含来自每个命名的育种杂交的一个DH。报告的是

对于育种杂交组合的所有观察结果的平均值。M_G是基因分型标记的数量，且p是在两个育种杂交中多态性的标记的比例。反卷积误差率(DER)单/双-在一个/两个育种杂交中多态性的所有标记的％错误基因型得分。

实例3.合并两个以上的DH

合并和计算机模拟反卷积不限于2W合并物。为了证明此，将本发明方法应用于来自不同的玉米育种杂交的三个(3W)和四个(4W)DH品系的模拟合并物(表3)。将3W和4W合并物如先前对于2W合并物所描述的那样进行模拟。当所有三个/四个合并DH具有相同的等位基因时，该合并物接受观察到的0或2的标记得分，这取决于等位基因。如果合并DH品系具有不同的等位基因，则合并物接受的杂合得分1。这意味着一种基因分型技术，其能以鉴定合并物中多个等位基因的存在，但不一定能鉴定它们的确切分布(即每个等位基因的拷贝数)。使用在包含合并物的育种杂交的至少一个中多态性的标记。这导致大多数合并物中有超过1,500个可用标记(表3)。对于每个育种杂交组合，产生100个独特的合并物。如先前描述的使用适用于3W和4W情况的转换和发射矩阵进行计算机模拟反卷积。如前所述，通过将反卷积得分与合并DH品系的真实得分进行比较来确定DER。这提供了区分在合并物中一个、两个、三个和四个育种杂交中多态性的标记的能力。表3中报告了每个育种杂交组合的100个合并物的平均值。

DER对于3W合并物低于3％且对于4W合并物低于5.5％(表3)。DER越高，标记在其中具有多态性的育种杂交越多。应该注意的是，与2W合并物相比，对于仅在一个育种杂交中多态性的标记，反卷积不一定是微不足道的和100％准确的。这是因为若干个祖父母的安排可导致杂合合并物基因型，从而阻止明确的解决方案。这种情况的例外是当其中标记不分离的所有育种杂交具有相同的等位基因时。然而，仅在一个育种杂交中多态性的标记的DER非常低(＜0.5％)。

总之，至少对于更高的标记密度而言，利用计算机模拟反卷积的合并基因分型可以应用于两个以上DH的合并物并且提供准确的结果。

实例4：测序数据的应用

用于序列读数的HMM可以用前向后向算法来执行，如描述在Rabiner(1989)Proc.IEEE 77：257-286中，其内容通过引用以其整体结合在此。给定基因座k，具有发射矩阵E_k、转换矩阵T_k、以及来自先前计算的前向概率的向量(以下表示为f_k-1)，正推法是：

其中[m，]指定观察到的基因型m(例如，参考等位基因的m计数)的发射矩阵的行，是指逐元素乘法。在一些实施例中，方程(I)被修改以包括归一化常数c_k。因此，方程(I)然后变为：

其中归一化常数c_k等于：

在一些实施例中，则反向算法是：

且a_k类似地定义为c_k，其中：

前向概率f₀的初始向量(当k＝1时使用)对应于合并物中涉及的杂交的先验概率。例如，对于F₁衍生的DH/H品系f₀＝[0.25 0.25 0.25 0.25]′的2W合并物(即，预期的亲本基因组对杂交的贡献的产物，在F₁杂交的情况下均等于0.5)，初始b_M-1，其中M是标记的数量，对于反推法总是[1 1 1 1]′(即，用1′s填充的适当维数的向量)。

图7中描绘的是本发明方法的非限制性示例性实施例。图7中显示的是亲本植物(I₁、I₂、I₃、和I₄)，它们以两个亲本杂交I₁/I₂和I₃/I₄进行杂交。在此实施例中，在称为L₁、L₂、和L₃的标记基因座处的亲本植物(即，祖先)的基因型是已知的。描绘了每个亲本的等位基因调用以及在亲本植物与子代植物P₁和P₂之间的谱系关系。如图7中显示的，子代植物P₁和P₂分别是亲本杂交I₁/I₂和I₃/I₄的后代。虽然图7揭示子代P₁在所有三个基因座接受来自亲本植物I₂的标记等位基因，且子代P₂在L₁接受在来自亲本植物I₄的标记等位基因并且在基因座L₂和L₃接受来自亲本植物I₃的标记等位基因，应该理解此信息在计算机模拟反卷积步骤之前是未知的。在此实施例中，子代植物不是单独进行基因分型，而是从每个子代植物中分离基因组DNA并合并以产生合并子代基因组DNA。可替代地，合并DNA样品是从合并组织样品中提取的。然后将合并子代DNA使用任何适合的基因分型技术进行基因分型。然后可以实施前向-反向HMM以在标记基因座L_]、L₂、和L₃处反卷积P₁和P₂的基因型。

基因座k的转换矩阵T_k描述了基因座k-1处的遗传的模式将导致基因座k处的特定的遗传模式的条件概率。例如，其描述了合并个体在基因座L₂处从祖先I₁和I₃遗传的概率，条件是在基因座L₁处从I₂和I₃遗传而来。一般来说，T_k对于2W合并物是(标签不是计算的一部分)：

在图7显示的示例性实施例中，基因座L₂与L₁之间的距离是0.10且L₃与L₂之间的距离是0.05，其翻译为r₂＝0.091和r₃＝0.048。由于基因座L₁位于染色体的起始处，因此与任何先前的基因座无连锁，r₁＝0.500。可以使用其他映射函数(例如，Kosambi，(1943)Ann.Eugen.12：172-175，其内容通过引用以其整体结合在此)。将这些值用r_k取代给出以下三个基因座的转换矩阵(由于含入误差，可能存在小的差异)。

基因座k的发射矩阵E_k描述了合并物的祖先遗传模式条件下观察到的标记基因型的概率。由测序平台生成的计数数据可以使用β-二项式概率分布来建模。简而言之，当样品中的基础等位基因频率不确定时，β-二项式分布模拟了n总序列读数中观察到参考等位基因的m读数的概率。可以选择基因座的任意等位基因作为参考等位基因。具体来说，总读数m中观察到参考等位基因读数的概率n是

其中B是β函数，且α和β是反映参考等位基因频率中的潜在不确定性的正参数。通常，当α＞β时，等位基因的频率倾向于＞0.5，当β＞α时，倾向于＜0.5，而当α＝β时，平均等于0.5。此外，α+β越小，频率的不确定度越高。当该加和变得非常大时，β-二项式模型近似于二项式模型。我们如下计算了两个参数

其中π是参考等位基因频率的先验估计，且v是控制其周围不确定量的离散参数(v越小，不确定性越大，其中v＞0)。可通过首先估计样品中每个合并的谱系的读数比例，然后对在给定的亲本配置中贡献参考等位基因的那些谱系进行求和来获得π的估计。谱系比例可以例如从标记基因座的读数数据估计，该标记基因座在如果没有可替代等位基因的每个谱系内是单态的。在没有先验估计的情况下，则应假定它们是相等的。对于亲本配置(其中所有或没有谱系贡献参考等位基因)，π可以分别设置为0.99和0.01(或类似值)以允许基因分型错误的可能性并避免被零除。在丢失数据的情况下，即n＝0，发射矩阵减少到1′s的行向量。

为了继续图7中的实例，对于基因座L₁、L₂和L₃，分别观察到以下参考等位基因和总等位基因计数：m₁＝0、n₁＝3；m₂＝3、n₂＝8；m₃＝2、n₃＝6(参考等位基因是亲本I₁的参考等位基因)。对于I₁/I₂，谱系比例估计为0.6∶0.4，并且v设定为2.5。然后，三个基因座的发射矩阵(标签不是计算的一部分)是：

例如，为了针对基因座L₂处的配置I₂-I₃计算m＝3的发射概率，首先确定π(其是0.4)，因为参考等位基因由来自第二谱系的亲本(其具有0.4的合并物比例)贡献。然后根据方程(X)和(XI)计算α和β，结果是α＝2.5和β＝3.75。将这些数字连同v、n和m的值(其分别为2.5、8和3)输入(IX)得到0.18。

并从k＝3开始，根据方程(V)的后向概率是：

最后，在应用方程(VII)并将结果安排在矩阵中之后，获得后验祖先遗传概率p_k(参见图7)，如下：

因此，例如，合并DH个体在基因座L₂处从I₂和I₃遗传的后验概率是≈3/4，且它们从I₁和I₄遗传的概率是≈1/4。从I₁和I₃或者I₂和I₄的遗传具有非常低的概率，因为当两祖先携带相同的等位基因时，观察可替代等位基因的读数(在此实例中，3个参考等位基因计数，5个非参考等位基因计数)是不可能的。然而，因为发射矩阵允许一些基因分型错误，那些概率仍然是积极的。从I₁或I₂遗传的子代P₁以及来自I₃或I₄的子代P₂的谱系信息是已知的。因此，通过良好(IBD)遗传模式最可能的同一性是子代P₁完全从I₂遗传基因座L₁和L₃之间的染色体区段，而P₂遗传重组染色体区段，其中在基因座L₂和L₃之间发生从I₄到I₃的重组。基于此，我们可以指定子代最可能的标记基因型。对于子代P₁，在基因座L₂处，例如，其是T，且对于P₂在相同的基因座是C。

为了验证目的和评估反卷积过程的准确性，可以将从本发明方法获得的推断标记基因型与合并子代植物的观察到的标记得分进行比较。然而，对于许多应用，如全基因组预测(参见例如Meuwissen等人，(2001)Genetics[遗传学]157：1819-1829，其内容通过引用以其整体结合在此)，可以直接使用祖先遗传概率p_k。

真实数据验证

该研究包括来自一个杂种优势组(组1)的8个DH和来自相对杂种优势组(组2)的8个DH，其组合成十六个不同的2W合并物、八个3W合并物和四个4W合并物。从谱系(品种1/品种2)和(品种3/品种4)得到相同数量的来自组1的DH，且从谱系(品种5/品种6)、(品种7/品种8)得到相同数量的组2DH。对于2W合并物，将每个组1谱系与每个组2谱系组合，在每种情况下具有四个独特的DH组合。通过将两个组1谱系与组2谱系中的任一个组合来产生3W合并物。通过将来自四个组1中的每一个的一个DH和组2谱系组合来产生4W合并物。由于数据质量低，丢弃了3W合并物样品中的一个。

从每个DH的植物叶组织提取DNA。将来自不同谱系的两个、三个或四个DH的等量DNA组合以形成合并DNA样品。对DNA合并物的多核苷酸进行测序，单个DH对照的DNA一样进行测序。出于本实例的目的，我们检查了覆盖在遗传图谱上具有已知位置的2520个SNP的序列读数，这些SNP作为所有10个玉米染色体上的标记。在样品内，每个标记由零个或多个序列读数表示。使用SNP标记处的参考和可替代等位基因的读数计数用作反卷积的数据。从分析中去除样品中零读数的SNP，因为它们不提供反卷积的信息。在合并物内具有多态性的SNP处，参考和可替代等位基因的相对丰度由于采样误差而变化，其由β-二项式模型解释。

对包含合并物的所有育种杂交中为单态的标记的反卷积不需要HMM算法，而是通过指定对应的亲本组的等位基因来完成。这是在后处理步骤中完成的。如上所述，然而，对于可替代等位基因呈单态性的标记用于估计每个合并物中和来自π的谱系比例。

对于具有一个或多个序列读数的标记，其在合并物中的育种杂交的至少一个中是多态的，使用上文提供的算法进行利用HMM的反卷积。

出于验证目的，还对合并物中涉及的DH进行了两次重复的单独基因分型。这些对照允许通过将反卷积标记得分与来自对照的得分进行比较来评估反卷积准确性。具体地，反卷积误差率被计算为DH的HMM基因型与对照不匹配的标记的百分比。为此，仅使用符合以下所有质量标准的标记：(1)在混合的样品中的一个或多个序列读数、(2)对照没有亲本-子代不一致、(3)对照中没有杂合调用、和(4)对照的两个重复中相同的基因型。

在合并物的至少一个育种杂交中多态性的标记的平均观察到的DER在对于2W合并物的0.24％与对于4W合并物的1.45之间变化(表4)。例如，在来自与品种5/品种6配对的育种杂交组合品种1/品种2的DH子代之间的特定2W合并物中，967个标记在这些杂交的至少一个中是多态的，并且满足上述验证标记的所有标准。在此具体的实例中，多态性标记的反卷积标记得分在967个情况中964个中与第一杂交的DH的观察得分相匹配，而在967个情况中967个中与第二杂交的DH的观察得分相匹配。这导致第一DH的DER为0.31％，第二DH为0.00％。

表4.对于实际玉米2W合并物可行性研究的结果总结。报告的是一个类别(2W，3W，4W)内的所有观察结果的平均值。反卷积误差率(DER)-在育种杂交的至少一个中具有多态性的所有验证标记的％错误基因型得分。

	#观察结果	#多态性标记	#验证标记	DER
					2W	16	1007	917	0.24％
3W	7	1272	1110	0.94％
					4W	4	1417	1218	1.45％

实例5：多物种的测序方法的应用

此实例证明多物种的合并样品的基因分型。两个或更多个不同物种的一个或多个个体可以组合进相同合并物中(多物种合并物)。如在此实施例中所证明的，如果待基因分型的物种的基因组序列是已知的且彼此不同，则可以将序列读数特异性地指定给每个物种。然后可以使用实例4的HMM方法将相同物种的品系的基因型各自反卷积。为了证明这一点，将实例4的基于序列的方法应用至三个DH品系(3W)的多物种合并物中，其中这些DH品系的两个来自不同的玉米育种杂交，且第三个DH品系来自低芥酸菜籽育种杂交。

该研究包含来自一个杂种优势组(组1)的6个玉米DH，来自相对杂种优势组(组2)的6个DH、和6个低芥酸菜籽DH。将这些DH组合进6个3W合并物中。每个合并物由一个玉米组1DH、一个玉米组2DH、与一个低芥酸菜籽DH组成。从谱系(品种1/品种2)和(品种3/品种4)得到相同数量的来自组1的玉米DH，且从谱系(品种5/品种6)、(品种7/品种8)得到相同数量的组2DH。从谱系(品种9/品种10)和(品种11/品种12)中得到相同数量的低芥酸菜籽DH。

从每个DH的植物叶组织提取DNA。将来自每个DH的等量DNA组合以形成合并DNA样品。出于验证目的，将单个玉米和低芥酸菜籽DH的样品和单独的玉米DH的2W合并物用作对照。对DNA合并物的多核苷酸进行测序，单个DH和仅玉米2W对照的DNA一样进行测序。出于此实例的目的，检查了2,278个SNP低芥酸菜籽特异性SNP，同样利用遗传图谱位置检查了2,869个SNP玉米特异性SNP。遗传图谱位置用于来自相同物种的多个DH的计算机模拟反卷积，但在该具体实例中对于单个低芥酸菜籽DH不是必需的。覆盖这些多态性的序列读数用作所有10个玉米染色体和所有19个低芥酸菜籽染色体的标记。在样品内，每个标记由零个或多个序列读数表示。由于每个合并物只有一个低芥酸菜籽DH，所以可以直接从覆盖每个低芥酸菜籽SNP标记的序列读数的基因型确定低芥酸菜籽DH的基因型，并且不需要计算机模拟反卷积。对于玉米DH，计算机模拟反卷积使用覆盖玉米SNP标记的序列读数，如实例4进行。在合并物内具有多态性的SNP处，参考和可替代等位基因的相对丰度由于采样误差而变化，其由β-二项式模型解释。

对包含合并物的所有育种杂交中为单态的标记的反卷积不需要HMM算法，而是通过指定对应的亲本组的等位基因来完成。这是在后处理步骤中完成的。如实例4中，然而，对于可替代等位基因呈单态性的标记用于估计每个合并物中和来自π的谱系比例。对于具有一个或多个序列读数的标记，其在合并物中的育种杂交的至少一个中是多态的，使用实例4中提供的算法进行利用HMM的反卷积。

在一个样品中评估每个单个DH，而在两个技术重复中评估每个2W和3W合并物。为了验证合并方法正确地将基因型分配至低芥酸菜籽DH品系的能力，将来自单个DH对照和3W合并物的低芥酸菜籽DH基因型与从独立测序实验获得的每个低芥酸菜籽DH的先前已知基因型进行比较。单个DH的基因分型误差率平均为0.174％，且3W合并物平均为0.198％(表5)。对于玉米DH，玉米2W对照的反卷积误差率(在至少一个杂交中多态性的标记的误差)为0.47％，且具有一个低芥酸菜籽DH的3W合并物的反卷积误差率为0.45％，表明玉米DH可以在低芥酸菜籽DH的存在下有效地反卷积。合并基因分型的多物种方法也可以应用于除测序之外的遗传标记技术，其条件是遗传标记对每个物种都是特异性的。

表5.对于多物种3W合并物的结果总结。报告的是一个类别(单DH低芥酸菜籽、3W低芥酸菜籽、2W玉米、3W玉米)内的所有观察结果的平均值。反卷积误差率(DER)-在育种杂交的至少一个中具有多态性的所有验证标记的％错误基因型得分。基因分型误差率(GER)-与先前已知的基因型相比，所有验证标记的％错误基因型得分。

Claims

1.一种用于两个或更多个子代植物的同时合并基因分型的方法，每个子代植物来源于不同亲本植物对的杂交，所述方法包括：

(a)收集：

(i)与一个或多个标记基因座有关的遗传图谱距离信息；

(ii)第一亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第一亲本杂交产生第一子代植物；

(iii)第二亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第二亲本杂交产生第二子代植物；和

(iv)与由所述第一亲本杂交产生的所述第一子代和由所述第二亲本杂交产生的所述第二子代有关的谱系信息；

其中，所述遗传图谱距离信息来自与所述亲本植物的植物物种相同的植物物种；

(b)提供合并DNA样品，其包含：

(i)合并基因组DNA样品，其包含从所述第一子代植物分离的第一基因组脱氧核糖核苷酸(DNA)样品和从所述第二子代植物分离的第二基因组DNA样品；

(ii)从合并组织样品分离的基因组DNA样品，所述合并组织样品包含来自所述第一子代植物的第一组织样品和来自所述第二子代植物的第二组织样品；或者

(iii)从所述第一子代植物与所述第二子代植物杂交产生的后代分离的基因组DNA样品；

(c)在所述合并DNA样品中检测来自步骤(a)的每个标记基因座的至少一个等位基因；和

(d)针对在步骤(c)中检测的至少一个标记基因座对所述合并DNA样品进行基因分型，其中所述基因分型步骤包括：

(i)通过基于谱系信息和遗传图谱距离信息计算先前标记基因座处的遗传模式能够导致标记基因座上的遗传模式的概率，为步骤(c)中检测的每个标记基因座建立第一矩阵；

(ii)通过基于在步骤(c)中的每个检测的等位基因和谱系信息计算能够通过由来自产生所述子代植物的亲本杂交中的每个亲本植物的遗传的每个排列产生观察到的合并基因组DNA样品的基因型的概率，为步骤(c)中检测的每个标记基因座建立第二矩阵；和

(iii)确定至少一个子代植物中的在步骤(c)中检测的至少一个标记基因座的每个可能的基因型的概率。

2.如权利要求1所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：

(A)计算所述标记基因座处的前向概率的向量；

(B)计算所述标记基因座处的后向概率的向量；和

(C)计算所述标记基因座处的后验祖先遗传概率。

3.如权利要求2所述的方法，其中：

计算所述标记基因座处的前向概率的向量包括根据以下方程(I)求解前向概率的向量f_k：

计算所述标记基因座处的后向概率的向量包括根据以下方程(IV)求解后向概率的向量b_k：

计算所述标记基因座处的后验祖先遗传概率包括根据以下方程(VII)求解后验祖先遗传概率p_k：

并且

其中：

(i)k是给定的标记基因座；

(ii)[m，]指定观察到的基因型m的第二矩阵的行；

(iii)T_k是步骤(c)中检测的每个标记基因座的第一矩阵；以及

(iv)E_k是步骤(c)中检测的每个标记基因座的第二矩阵。

4.如权利要求2所述的方法，其中：

计算所述标记基因座处的前向概率的向量包括根据以下方程(II)求解前向概率的向量f_k：

计算所述标记基因座处的后向概率的向量包括根据以下方程(V)求解后向概率的向量b_k：

并且

其中：

(i)k是给定的标记基因座；

(ii)[m，]指定观察到的基因型m的第二矩阵的行；

(iii)T_k是步骤(c)中检测的每个标记基因座的第一矩阵；

(iv)E_k是步骤(c)中检测的每个标记基因座的第二矩阵；

(v)c_k是等于以下方程(III)的归一化常数：

以及

(vi)a_k是等于以下方程(VI)的归一化常数：

5.如权利要求2所述的方法，其中步骤(d)(iii)中的所述确定包括隐马尔科夫建模，其中计算前向概率的向量、计算后向概率的向量、和计算后验祖先遗传概率以自然对数的标度表示(基数e)。

6.如权利要求1所述的方法，其中：

步骤(a)进一步包括收集：(i)第三亲本杂交中的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第三亲本杂交产生第三子代植物；和(ii)与由所述第三亲本杂交产生的所述第三子代有关的谱系信息；以及

其中步骤(b)中的合并DNA样品进一步包含：

(i)合并基因组DNA样品，其进一步包含从所述第三子代植物分离的第三基因组DNA样品；或者

(ii)从合并组织样品分离的基因组DNA样品，所述合并组织样品进一步包含来自所述第三子代植物的第三组织样品。

7.如权利要求6所述的方法，其中：

步骤(a)进一步包括收集：(i)第四亲本杂交中的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中所述第四亲本杂交产生第四子代植物；和(ii)与由所述第四亲本杂交产生的所述第四子代有关的谱系信息；并且

其中步骤(b)中的合并DNA样品进一步包含：

(i)合并基因组DNA样品，其进一步包含从所述第四子代植物分离的第四基因组DNA样品；或者

(ii)从合并组织样品分离的基因组DNA样品，所述合并组织样品进一步包含来自所述第四子代植物的第四组织样品。

8.如权利要求1-7中任一项所述的方法，其中对所述合并DNA样品进行基因分型进一步包括(iii)确定每个子代植物中在步骤(c)中检测的至少一个标记基因座的最可能基因型。

9.如权利要求1-7中任一项所述的方法，其中所述标记基因座的至少一个在至少一个亲本杂交中是多态的。

10.如权利要求1-7中任一项所述的方法，其中所述亲本杂交的至少一个选自由以下组成的组：F₁杂交、回交和随后子代自体受精、三系杂交和随后子代自体受精以及四系杂交和随后子代自体受精。

11.如权利要求1-7中任一项所述的方法，其中所述子代植物的至少一个是单倍体、双单倍体，或者是通过少于一次或者一次或多次子代自体受精衍生的子代植物。

12.如权利要求1-7中任一项所述的方法，其中每个子代植物是选自由以下组成的组的植物物种：玉米、小麦、稻、粟、大麦、高粱、黑麦、大豆、苜蓿、低芥酸菜籽、棉花、向日葵、马铃薯和番茄。

13.如权利要求12所述的方法，其中所述植物物种是玉米或低芥酸菜籽。

14.如权利要求1-7中任一项所述的方法，其中步骤(c)中检测的至少一个标记基因座与一个或多个表型相关。

15.如权利要求14所述的方法，其中所述一个或多个表型选自由以下组成的组：产量、叶角、雌雄穗开花间隔、滞绿持续、早期生长速率、总生长速率、生长模式、最大生物量、总生物量、氮利用效率、水分利用效率、母育酚含量、油酸含量、植酸含量、氨基酸组成、油数量或质量、能量利用率、消化率、脂肪酸组成、病原体防御机制、赖氨酸和硫水平、淀粉合成、抗病性、除草剂抗性、雄性不育、植物活力、营养素含量、半纤维素含量、纤维素产量、耐寒性、耐盐性、耐热性、耐旱性、谷物水分含量、茎秆倒伏、根倒伏、根系拉力、定植、出苗、中期抽丝、测试重量、蛋白质含量、淀粉百分比、相对成熟度、株高、种子大小、抽穗期、抗虫性、抗病性、脆断性、茎秆断裂、抗真菌性、种子水分、头部形状、去壳能力、幼苗活力、开始开花日期、成熟日期、种子粉碎性、冬季存活、纤维强度、穗高、植物不结实、种子数量、种子重量、和颜色等级。

16.如权利要求1-7中任一项所述的方法，其中步骤(b)进一步包括：(i)从所述子代植物的至少一个中提取基因组DNA样品；(ii)从所述合并组织样品中提取基因组DNA样品；或者(iii)从所述后代中提取基因组DNA样品。

17.如权利要求1-7中任一项所述的方法，其中检测所述合并DNA样品包括对所述标记基因座的至少一个进行测序。

18.如权利要求1-7中任一项所述的方法，其中检测所述合并DNA样品包括对包含每个等位基因的标记基因座的核酸序列进行扩增，并且检测所得的包含每个标记基因座的扩增的核酸。

19.如权利要求18所述的方法，其中所述扩增包含一个或多个核酸引物和一个或多个核酸探针。

20.如权利要求1-7中任一项所述的方法，其中收集所述基因型信息包括在至少一个亲本植物中检测每个标记基因座的等位基因。

21.如权利要求20所述的方法，其中在所述亲本植物中进行检测包括对所述标记基因座的至少一个进行测序。

22.如权利要求20所述的方法，其中在所述亲本植物中进行检测包括对包含每个等位基因的标记基因座的核酸序列进行扩增，并且检测所得的包含每个标记基因座的扩增的核酸。

23.如权利要求1-7中任一项所述的方法，其中步骤(a)进一步包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个标记基因座。

24.如权利要求23所述的方法，其中步骤(a)进一步包含至少100、1,000、或10,000个标记基因座。

25.一种用于两个或更多个子代植物的同时合并基因分型的方法，每个子代植物来源于不同亲本植物对的杂交，所述方法包括：

(a)收集：

(i)与一个或多个标记基因座有关的遗传图谱距离信息；

(ii)来自至少两个不同亲本杂交的每个亲本植物的一个或多个标记基因座的等位基因的基因型信息，其中每个亲本杂交产生至少一个子代植物；以及

(iii)与每个亲本杂交产生的每个子代有关的谱系信息；

(b)提供合并DNA样品，其包含：

(i)合并基因组DNA样品，其包含从每个子代植物分离的基因组DNA样品；

(ii)从合并组织样品分离的基因组DNA样品，所述合并组织样品包含来自每个子代植物的组织样品；或者

(iii)从两个子代植物杂交产生的后代分离的基因组DNA样品，每个子代植物通过不同的亲本杂交产生；

(c)在所述合并DNA样品中检测来自步骤(a)的每个标记基因座的至少一个等位基因；以及

(i)通过基于谱系信息和遗传图谱距离信息计算先前标记基因座处的遗传模式能够导致标记基因座上的遗传模式的概率，为步骤(c)中检测的每个标记基因座建立第一矩阵T_k；

(ii)通过基于在步骤(c)中的每个检测的等位基因和谱系信息计算能够通过由来自产生所述子代植物的亲本杂交中的每个亲本植物的遗传的每个排列产生观察到的合并基因组DNA样品的基因型的概率，为步骤(c)中检测的每个标记基因座建立第二矩阵E_k；以及

26.如权利要求25所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：

(A)根据以下方程(I)计算所述标记基因座处的前向概率的向量f_k：

(B)根据以下方程(IV)计算所述标记基因座处的后向概率的向量b_k：

以及

(C)根据以下方程(VII)计算所述标记基因座处的后验祖先遗传概率p_k：

并且

其中：

(1)k是给定的标记基因座；以及

(2)[m，]指定观察到的基因型m的第二矩阵的行。

27.如权利要求25所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：

(A)根据以下方程(II)计算所述标记基因座处的前向概率的向量f_k：

(B)根据以下方程(V)计算所述标记基因座处的后向概率的向量b_k：

以及

并且

其中：

(1)k是给定的标记基因座；

(2)[m，]指定观察到的基因型m的第二矩阵的行；

(3)c_k是等于以下方程(III)的归一化常数：

以及

(4)a_k是等于以下方程(VI)的归一化常数：

28.如权利要求25所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：(A)计算所述标记基因座处的前向概率的向量；(B)计算所述标记基因座处的后向概率的向量；以及(C)计算所述标记基因座处的后验祖先遗传概率；其中计算前向概率的向量、计算后向概率的向量、和计算后验祖先遗传概率以自然对数的标度表示(基数e)。

29.如权利要求25-28中任一项所述的方法，其中对所述合并DNA样品进行基因分型进一步包括(iii)确定每个子代植物中在步骤(c)中检测的至少一个标记基因座的最可能基因型。

30.如权利要求25-28中任一项所述的方法，其中所述标记基因座的至少一个在至少一个亲本杂交中是多态的。

31.如权利要求25-28中任一项所述的方法，其中所述亲本杂交的至少一个选自由以下组成的组：F₁杂交、回交和随后子代自体受精、三系杂交和随后子代自体受精以及四系杂交和随后子代自体受精。

32.如权利要求25-28中任一项所述的方法，其中所述子代植物的至少一个是单倍体、双单倍体，或者是通过少于一次或者一次或多次子代自体受精衍生的子代植物。

33.如权利要求25-28中任一项所述的方法，其中每个子代植物是选自由以下组成的组的植物物种：玉米、小麦、稻、粟、大麦、高粱、黑麦、大豆、苜蓿、低芥酸菜籽、棉花、向日葵、马铃薯和番茄。

34.如权利要求33所述的方法，其中所述植物物种是玉米或低芥酸菜籽。

35.如权利要求25-28中任一项所述的方法，其中步骤(c)中检测的至少一个标记基因座与一个或多个表型相关。

36.如权利要求35所述的方法，其中所述一个或多个表型选自由以下组成的组：产量、叶角、雌雄穗开花间隔、滞绿持续、早期生长速率、总生长速率、生长模式、最大生物量、总生物量、氮利用效率、水分利用效率、母育酚含量、油酸含量、植酸含量、氨基酸组成、油数量或质量、能量利用率、消化率、脂肪酸组成、病原体防御机制、赖氨酸和硫水平、淀粉合成、抗病性、除草剂抗性、雄性不育、植物活力、营养素含量、半纤维素含量、纤维素产量、耐寒性、耐盐性、耐热性、耐旱性、谷物水分含量、茎秆倒伏、根倒伏、根系拉力、定植、出苗、中期抽丝、测试重量、蛋白质含量、淀粉百分比、相对成熟度、株高、种子大小、抽穗期、抗虫性、抗病性、脆断性、茎秆断裂、抗真菌性、种子水分、头部形状、去壳能力、幼苗活力、开始开花日期、成熟日期、种子粉碎性、冬季存活、纤维强度、穗高、植物不结实、种子数量、种子重量、和颜色等级。

37.如权利要求25-28中任一项所述的方法，其中步骤(b)进一步包括：(i)从所述子代植物的至少一个中提取基因组DNA样品；(ii)从所述合并组织样品中提取基因组DNA样品；或者(iii)从所述后代中提取基因组DNA样品。

38.如权利要求25-28中任一项所述的方法，其中检测所述合并DNA样品包括对所述标记基因座的至少一个进行测序。

39.如权利要求25-28中任一项所述的方法，其中检测所述合并DNA样品包括对包含每个等位基因的标记基因座的核酸序列进行扩增，并且检测所得的包含每个标记基因座的扩增的核酸。

40.如权利要求25-28中任一项所述的方法，其中步骤(a)进一步包括至少三个不同的亲本杂交。

41.如权利要求40所述的方法，其中步骤(a)进一步包括至少四个不同的亲本杂交。

42.如权利要求25-28中任一项所述的方法，其中步骤(a)进一步包含至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个标记基因座。

43.如权利要求42所述的方法，其中步骤(a)进一步包含至少100、1,000、或10,000个标记基因座。

44.一种用于通过DNA合并和反卷积增加子代植物基因分型效率的方法，所述方法包括：

(a)收集：

(i)与三个或多个标记基因座有关的遗传图谱距离信息；

(ii)来自至少两个不同亲本育种杂交的每个亲本植物的三个或更多个标记基因座的等位基因的基因型信息，其中每个亲本育种杂交产生至少一个子代植物，并且其中至少一个标记在所述亲本育种杂交的至少一个中是多态的；以及

(iii)与每个亲本育种杂交产生的每个子代植物有关的谱系信息；

(b)提供合并DNA样品，其包含：

(iii)确定每个子代植物中在步骤(c)中检测的至少一个标记基因座的最可能基因型。

45.如权利44要求所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：

以及

并且

其中：

(1)k是给定的标记基因座；

(2)[m，]指定观察到的基因型m的第二矩阵的行；

(4)c_k是等于以下方程(IV)的归一化常数：

以及

(5)a_k是等于以下方程(V)的归一化常数：

46.如权利44要求所述的方法，其中在步骤(d)(iii)中的所述确定包括隐马尔科夫建模，所述隐马尔科夫建模包括：(A)计算所述标记基因座处的前向概率的向量；(B)计算所述标记基因座处的后向概率的向量；以及(C)计算所述标记基因座处的后验祖先遗传概率；其中计算前向概率的向量、计算后向概率的向量、和计算后验祖先遗传概率以自然对数的标度表示(基数e)。

47.如权利要求44-46中任一项所述的方法，其中步骤(a)进一步包括至少三个不同的亲本育种杂交。

48.如权利要求47所述的方法，其中步骤(a)进一步包括至少四个不同的亲本育种杂交。

49.如权利要求44-46中任一项所述的方法，其中步骤(a)进一步包含至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个标记基因座。

50.如权利要求49所述的方法，其中步骤(a)进一步包含至少100、1,000、或10,000个标记基因座。

51.如权利要求44-46中任一项所述的方法，其中所述子代植物的至少一个是单倍体、双单倍体，或者是通过少于一次或者一次或多次子代自体受精衍生的子代植物。

52.如权利要求44-46中任一项所述的方法，其中每个子代植物是玉米或低芥酸菜籽。

53.如权利要求44-46中任一项所述的方法，其中步骤(c)中检测的至少一个标记基因座与一个或多个表型相关。

54.如权利要求53所述的方法，其中所述一个或多个表型选自由以下组成的组：产量、叶角、雌雄穗开花间隔、滞绿持续、早期生长速率、总生长速率、生长模式、最大生物量、总生物量、氮利用效率、水分利用效率、母育酚含量、油酸含量、植酸含量、氨基酸组成、油数量或质量、能量利用率、消化率、脂肪酸组成、病原体防御机制、赖氨酸和硫水平、淀粉合成、抗病性、除草剂抗性、雄性不育、植物活力、营养素含量、半纤维素含量、纤维素产量、耐寒性、耐盐性、耐热性、耐旱性、谷物水分含量、茎秆倒伏、根倒伏、根系拉力、定植、出苗、中期抽丝、测试重量、蛋白质含量、淀粉百分比、相对成熟度、株高、种子大小、抽穗期、抗虫性、抗病性、脆断性、茎秆断裂、抗真菌性、种子水分、头部形状、去壳能力、幼苗活力、开始开花日期、成熟日期、种子粉碎性、冬季存活、纤维强度、穗高、植物不结实、种子数量、种子重量、和颜色等级。

55.如权利要求1所述的方法，其中所述合并DNA样品包含来自两个或更多个植物物种的DNA。