CN107205352A

CN107205352A - 改进的分子育种方法

Info

Publication number: CN107205352A
Application number: CN201580068850.8A
Authority: CN
Inventors: F.特奇诺; L.R.托蒂尔
Original assignee: EI Du Pont de Nemours and Co
Current assignee: EIDP Inc
Priority date: 2014-12-18
Filing date: 2015-12-10
Publication date: 2017-09-26
Also published as: CA2968120A1; AU2015362942A1; MX2017007712A; US20170359978A1; CL2017001538A1; WO2016100061A1; AU2015362942B2; AR103075A1; BR112017012891A2; US11980147B2; BR112017012891B1

Abstract

披露了贝叶斯多水平全基因组回归模型，并将其预测性能与流行的BayesA模型相比应用于单独的每个群体(无合并)和联合数据集(完全合并)。对于小的群体大小(例如，＜50)，部分合并超越无合并或完全合并增加了在估计集中表示的群体的预测准确度。使用多水平模型的部分合并可以最佳利用在多群体估计集中的信息。

Description

改进的分子育种方法

背景

估计集大小是基因组预测准确度的重要决定因素。特别是在群体中，植物育种计划的特征在于高度的结构化。这阻碍了每个群体的大量估计集的建立。

在动物和植物育种中基因组选择的使用是基于产生准确的基因组估计育种值(GEBV)的能力。预测准确度的重要决定因素是估计集的大小。在动物育种方面，对于奶牛品种像迄今为止应用基因组选择最为成功的荷斯坦奶牛(Holstein Friesian)，汇编大的单品种估计集比较直截了当。然而，对于一些奶牛品种，特别是对于肉牛品种，汇编足够大小的单品种估计集往往是不可能的。因此，通过将来自几个品种的数据合并在一起创建多品种估计集具有重大意义并且是主动研究的主题。

植物育种也存在类似的情况，其特征在于育种者诱导结构的程度高。这种结构起因于保持不同杂种优势群以最大限度利用杂种优势的重要性，起因于不同的双亲育种群体的使用以及针对特异性性状或环境的专门育种计划的需要。这要求将育种计划可用的表型分型和基因型分型资源必须分配给多个群体，这可以防止为每个群体创建大的估计集。因此，几项研究调查了组合多个群体或甚至杂种优势群的合并估计集的优点。

然而，合并估计集由于群体间遗传性质的差异(例如与连锁不平衡、等位基因频率或关系结构有关的)而变得复杂。这可能是在植物和动物育种中使用合并估计集在一些应用中未能增加预测准确度的原因。

附图说明

图1是多水平模型(A)和传统的BayesA模型(B)的图形可视化。

图2是用于评估预测准确度的测试策略的图形可视化。估计集包括来自群体P₁和P₂的Λ₁和Λ₂(集П)。从Λ₁和Λ₂计算在估计集(r_Π)中表示的来自群体的系的预测准确度，来自P₃和P₄中的系的估计集(集)中未表示来自群体的系的预测准确度。

详细说明

已经提出为每个群体使用单独的估计集，但是使用来自其他群体的数据来导出基因组位置特异性先验。以这种方式，可以考虑每个群体的独特的基因组特征，同时仍然使用来自其他群体的信息。类似的，更正式的方法是由贝叶斯多水平模型促成的部分合并。在多水平模型中，针对每个群体估计特异性标记效应。然而，与非特异性标记效应同时地，从所有群体的数据估计可能被解释为总体或非特异性标记效应的这些特异性标记效应的先验平均值。由于特异性标记效应在总体效应上收缩，所以前者在一定程度上依然通过来自其他群体的数据获知。因此部分合并采取了一种中间路线，其介于无合并(仅从特异性群体的数据估计的特异性标记效应)和完全合并(从合并估计集估计的共同标记效应)之间。

合并群体增加估计集大小，但忽略每个群体的独特遗传特征。一个可能的解决方案是用多水平模型进行部分合并，这样允许估算群体特异性标记效应，同时仍然利用群体间的信息。

目的是(i)证明使用贝叶斯多水平全基因组回归模型可进行基因组预测，以及(ii)调查部分合并可能优于估计集的无合并或完全合并的情境。这些调查是基于两个公开可获得的玉米育种数据集，并由模拟研究提供支持。

材料和方法

多水平全基因组回归模型

拟合数据的统计模型是

其中y_ij是来自第j个群体的第i个个体的观测的表型值，且μ_ij是其线性预测值。表型数据y_ij以平均值零为中心，并缩放为单位方差。用作数据模型的正态密度函数表示为N，表示剩余方差。共同截距为β₀。最后，u_jk表示在群体j中第k个双等位基因的单核苷酸多态性(SNP)标记的累加效应。来自群体j的个体i在标记k处的基因型由z_ijk表示，并且其表示参考等位基因的数量，以参考等位基因频率的两倍为中心。选择哪个等位基因作为参考等位基因取决于数据集，且如下所述。效应u_jk只有当对应的标记k在群体j中具有多态性时得以估计。否则它被设置为0并被视为常数。

分层先验分布设置的图形显示如图1A所示。u_jk的先验是

其中u_k是第k个标记的总体效应，而方差参数量化了来自u_k的特异性效应u_jk的偏差。向u_k的收缩越强，越小。u_k和两个参数本身与先验分布相关联并且从数据估计而来。对于u_k这是这里，方差参数σ_k ²控制向0收缩的量。它与具有4.001自由度和尺度参数S²的缩放逆卡方先验相关联。因此，对于u_k的先验对应于“BayesA”先验。

对于方差参数

γ_k～N(m，d²，0＜a，b＝∞) 3)

这是关于γ_k的正态分布先验，其中平均值参数为m且标准偏差为d，左截尾为零。作为m、d和截尾点a和b的函数的截尾分布N(m，d²，0＜a，b＝∞)的平均值可以被解释为来自u_k的特异性标记效应u_jk的“典型”偏差。N(m，d²，0＜a，b＝∞)的平均值的较高值表示较大的偏差，反之亦然。因此，此参数可以用于量化群体散度。

对于超参数S²、m和d，使用均匀先验Uni(0.001，0.5)。截距β₀的先验是具有平均值0和非常大的方差的正态分布。对于剩余方差指定了对σ_e在间隔[0，1]上的均匀分布先验，这与方差分量上的无信息先验的建议一致。

来自后验分布的样本用吉布斯(Gibbs)采样绘制，在JAGS吉布斯采样环境中实施。用于推断的样本总数为1000，从长度为510000的单个链抽取。将前10000个样本作为退火(burn in)丢弃，并且仅将每第500个随后的样本进行存储。这些设置确保了所有参数(u_k和u_jk的ESS通常＞500)的收敛和＞100的有效样本大小(ESS)。

ESS用R程序包CODA计算，该R程序包CODA也用于使用诊断图监测收敛。

常规全基因组回归模型

使用贝叶斯全基因组回归方法“BayesA”，对超参数S²进行修改(参见图1B的图解表示)。线性模型是

其与模型(1)相同，除了将群体指数j从标记效应u_k除去。对于无合并，该模型依次应用于每个群体，用于完全合并到联合数据集。对于σ_e ²，使用了自由度为-1和尺度等于零的不当缩放逆卡方先验。这相当于关于σ_e的均匀先验，如同用于多水平模型，但是利用共轭。

将BayesA吉布斯采样器作为与R统计软件环境兼容的C程序实施。再次，用于推断的样本总数为1000，从长度为510000的单个链中抽取，退火为10000，稀疏(thinning)间隔为500。

估计、预测和测试程序

П表示在估计集中表示的P个群体的集且在П中来自群体的N_p个个体的集为Λp，其中p指示П中的群体。在图2给出了图解表示。而且，将来自П中的、不存在于Λp中的群体的那些个体表示为并且将不存在于П中的群体的集表示为在中的群体被称为“新”群体。因此，对于p∈П，估计集包括属于Λp的所有个体。测试集用于计算预测准确度，包括来自П中的群体的中的个体和来自在中的群体的所有个体。测试个体的表型观测值在估计程序中被掩盖。随机将群体分为П和并且将群体内的个体随机分为Λp和

在每个群体中，预测准确度被计算为在测试集中个体的GEBV与观测到的表型值之间的相关性。随后，对于П和中的群体，对群体内预测准确度进行平均。此后，将这些群体内预测准确度平均值表示为r_Π和因此，r_∏和分别对应于估计集中表示和未表示的群体的预测准确度。

当使用部分合并时，使用针对相应群体估计的标记效应(即，u_jk)的后验平均值预测Λp中的个体的GEBV。使用总体(非特异性)标记效应u_k的后验平均值预测来自中群体的个体的GEBV。

当使用完全合并时，测试集中所有个体的GEBV从用模型(4)的联合数据集估计的标记效应u_k的后验平均值进行预测。

最后，当使用无合并时，Λp中的个体的GEBV使用在将模型(4)应用于相应集Λp的估计数据之后获得的标记效应u_k的后验平均值进行预测。无合并方法没有提供预测来自中群体的个体的GEBV的直接方法。因此，对于无合并方法没有评估

应用于嵌套关联映射(NAM)玉米群体

NAM数据集从http://www.panzea.org获得。它包括从遗传多样化的一组玉米近交系和B73系作为共同亲本之间的25个双亲杂交的4699个重组近交系(RIL)。平均群体大小为188。用覆盖整个基因组的1106个多态性SNP标记对RIL进行基因分型。将非B73等位基因被定义为参考等位基因。所有SNP均为双等位基因，因此参考等位基因对应于所有25个群体中相同的核苷酸。为了方便计算，使用了285个标记的稀疏集(thinned set)，以平均每5cM间隔有一个标记的这样的方式进行选择。每10cM间隔有一个标记的密度对于NAM群体中的基因组预测是足够的。多环境田间试验中，对性状吐丝期(DS)、果穗高度(EH)、果穗长度(EL)、小斑病抗性(SLB)、近红外淀粉测量(NS)和上叶角(ULA)进行了分析和表型分型。用于拟合模型的表型记录是单环境表型的平均值。DS、EH、EL、SLB、NS和ULA的环境数量分别为10、11、8、3、7和9。所选择的性状代表可获得的主要性状类别：产量组分(EL)、农艺学(EH)、抗病性(SLB)、开花(DS)、质量(NS)和形态学(ULA)。

为了调查估计集中的系的总数N、群体数量P和每个群体中系的数量N_p对合并方法的预测准确度和相对性能的影响，考虑了P和N_p的以下组合：P＝5且N_p＝50和100，P＝10且N_p＝25、50和100，P＝20且N_p＝12.5、25和50。对于P＝20且N_p＝12.5，我们抽取了19个群体，每个群体具有12个个体，且一个群体有22个个体，这导致平均N_p为12.5。因此，P和N_p组合产生了250、500或1000的N。对于性状的每个组合P和N_p，如上所述通过重复П和Λp的抽样产生50个估计测试数据集。自始至终，将三种合并方法应用于相同的数据集。因此，不同数据集之间的抽样变化不会进入合并方法之间的比较。

应用于相互联系的双亲(IB)玉米群体

该数据集从Riedelsheimer等人(2013)的补充信息中获得。它包括来自五个平均大小为127的双亲群体的635个双单倍体(DH)系。群体来自四个欧洲硬粒型自交系之间的杂交。对于所有DH系，可获得16741个群体间多态性的SNP标记。缺失的标记基因型以两倍于参考等位基因的频率被替换，该参考等位基因是具有较低频率的等位基因。当分析数据时，我们使用了285个标记的稀疏集。因为数据集不包括标记的图谱，所以随机地选择标记。

DH系在多环境田间试验中针对Giberella穗腐病严重性(GER)(由禾谷镰刀菌(Fusarium graminearum)引起的真菌病)、脱氧雪腐镰刀菌烯醇含量(DON，由真菌产生的主要霉菌毒素)、果穗长度(EL)、粒行数(KR)和每行粒数(KpR)进行表型分型。该数据集的更详细的描述可以在Riedelsheimer等人(2013)和Martin等人(2012)中找到。

如上所述，将群体随机分为Λp和但是，由于总共只有5个群体，不排除来自П的群体。因此集是空集，且没有被评估。

集Λp包括每个群体中25％、50％和75％的系，其分别对应于31、63和95的平均N_p。对于估计个体的每个性状和百分比值，产生100个估计测试数据集，每次还是重新抽样285个标记的子集。

应用于模拟的数据集

进行了模拟研究来专门调查群体中在QTL效应的差异水平增加的情况下合并方法的性能。模拟的基础是NAM群体中系的标记基因型。为了模拟遗传值，随机地选择20个标记位点作为QTL，其随后从观测到的标记的集中移除。从标准正态分布中提取累加总体效应a_q。然后，群体特异性QTL效应a_jq从N(a_q，τ_q ²)中抽样。选择方差参数τ²使得相对标准偏差(rSD)即τ_q/a_q等于2、1、0.5、0.25和0.0。rSD越大，群体特异性QTL效应越不相似。根据每个个体的QTL基因型通过对QTL效应a_jq进行求和获得真实的遗传值。最后，通过将正态分布的噪声变量相加到真实的遗传值来模拟表型值。选择噪声变量的方差使得群体间的遗传力等于0.70。家族遗传力的平均值必然随着rSD的降低而增加，在rSD 2、1、0.5、0.25和0.0处分别为0.53、0.58、0.64、0.68和0.70。

集П包括P＝10个群体且集Λp具有大小N_p＝25。对于每个rSD值，产生了50个估计测试数据集。对于每个数据集，重新随机产生QTL位置和效应。在这种情况下也使用了285个标记的稀疏集。因为真实的遗传值是已知的，r_П和被计算为真实的遗传值和GEBV之间的相关性。

结果

NAM玉米群体

趋势通常在性状之间保持。因此，提供和讨论的结果适用于所有性状，除非另有说明。

在保持N恒定的同时增加N_p(即在估计集中具有较少但较大的群体)通常增加r_П并减少(表1)。然而，r_∏的增加比减少远远更加显著。

当增加N_p且P为常数时或当增加P且N_p为常数时，r_П和两者都增加(表1)。然而，在第一种情况下，r_П和以同样的幅度增加，在第二种情况下，r_П的增加远远小于的增加，特别是当N_p很高时。根据定义，只要N_p保持恒定，预期无合并的准确度不会改变。

对于低P和高N_p，例如P＝5且N_p＝100，无合并达到最高r_П且完全合并达到最低(表1)。对于高P和低N_p，例如P＝20且N_p＝25，部分合并达到最高r_П。这里无合并导致最低r_П。对此唯一的例外是性状DS，该DS中对于低N_p无合并具有等于或高于部分和完全合并的r_Π。

对于新群体，部分和完全合并实现了几乎相同的预测准确度(表1)。一般来说，特定的合并方法的比相应的r_П要低得多。对于高N_p，在r_П和之间的差异趋于较大。

表1：NAM玉米群体的群体内测准确度平均值。显示的值是测试个体的群体内预测准确度平均值，对超过50个随机估计-测试数据分割进行了平均。标准误差为＜0.013。P给出了集П的大小，即估计集中表示的群体数，列Np给出了用于估计的П中每个群体的个体数，即集Λp的大小。性状为：吐丝期(DS)、果穗高度(EH)、果穗长度(EL)、小斑病抗性(SLB)、近红外淀粉测量(NS)和上叶角(ULA)。

IB玉米群体

对于所有性状和合并方法，预测准确度r_∏随着N_p的增加而增加(表2)。在性状上的平均，无合并的增加最大，其中准确度从在N_p＝31时的平均值0.35增加到在N_p＝95时的0.48。部分和完全合并方法的准确度分别从在N_p＝31时的0.39和0.38增加到在N_p＝95时的0.48。

在N_p＝31时，对于性状EL、KpR部分合并最高，对于性状DON和KR，完全合并最高r_П。对于GER，两者都具有相同的准确度。无合并方法具有最低的r_П，除了EL和KpR之外，在EL和KpR中其与完全合并具有相同的准确度。对于95的最高N_p，合并方法之间的准确度差异减小。部分合并对于EL和KpR仍然具有最高的准确度，与对于DON和GER的完全合并相同。虽然不比部分合并更好，但是对于EL和KpR，无合并比完全合并具有更高的预测准确度。

表2：在相互关联的双亲玉米群体中的群体内预测准确度平均值。显示的值是测试个体的群体内预测准确度平均值，对超过100个随机估计-测试数据分割进行了平均。标准误差为＜0.01。N_p表示估计集中每个群体的个体平均数量。性状是果穗长度(EL)、脱氧雪腐镰刀菌烯醇含量(DON)、Giberella穗腐病严重性(GER)、粒行数(KR)和每行粒数(KpR)。

模拟的玉米群体

对于所有合并方法，r_Π随着rSD减少而增加(表3)。然而，无合并的增加相对较小，是随着rSD减少而家庭遗传力增加的结果。合并方法的相对性能也取决于rSD。对于考虑的最高rSD值，无合并具有最高r_Π，对于1.0的中间rSD值，部分合并具有。对于较低的rSD值，完全和部分合并实现了类似的高r_П。

对于部分和完全合并两者，也随着rSD的减少而剧烈增加，且与r_П的差异减小(表3)。部分和完全合并实现了几乎相同的

对于参数γ_k的截尾的正态分布先验N(m，d²，0＜a，b＝∞)的平均值随着rSD的增加而增加。对于0.0、0.25、0.5、1.0和2.0的rSD，其平均值分别为0.0111、0.0153、0.0190、0.0269和0.0296。

表3：模拟的玉米群体的平均预测准确度。显示的值是测试个体的群体内预测准确度平均值，对超过50个随机估计-测试数据分割进行了平均。标准误差为＜0.015。rSD是模拟的群体特异性QTL效应的相对标准偏差。

讨论

合并方法的比较

部分合并允许估计群体特异性标记效应，同时仍然促进群体间信息的“借用”。因此，它是无合并和完全合并之间的折衷，无合并模拟了每个群体的独特特征但忽略了共享信息，完全合并则恰恰相反。

当群体大小N_p足够大时，从来自相同群体(r_Π)的新个体获得高预测准确度不需要从其他群体借用信息。那么，通过与其他群体合并进一步扩大估计集可能甚至是有害的。这就解释了为什么当N_p很大(例如＞＝50)时，特别是在NAM群体中，无合并是最准确的方法，以及为什么其最有益于N_p的增加。因此，如果由于预算或其他限制N_p很小，则估计集的合并是最有前途的。据观测，当N_p很小(例如，＜50)时，合并比无合并更加准确。由于可获得来自更多群体的信息(其不用于无合并方法中)，两种合并方法中任一种相对于无合并的优势也随着P的增加而增加。因此，当P比较高且N_p很低时，预期合并最为有利。部分合并或完全合并是否是更好的方法将取决于合并群体的相似性。相似性越大，预期执行完全合并相对更好，因为估计群体特异性标记效应的能力变得不那么重要。在这种情况下，部分合并甚至可能是不利的，因为它需要估计多得多的效应，这可能导致与不可识别性相关的问题。IB群体的亲本来自相同的育种计划，而NAM群体的非共同亲本被选择以最大化多样性，且包括温带、热带和特产(甜玉米和爆粒玉米)玉米种质。因此，适应群体的独特特征在NAM中比在IB中更为重要，这可能解释了为什么在前者中完全合并总是不如部分合并，而在后者中通常相等甚至更优，以及为什么在IB中即使对于大的N_p无合并从未达到最高预测准确度。

在NAM数据集中性状之间的合并方法的相对性能非常稳定，除了DS之外。即使在高P和低N_p下，对于这种性状，无合并方法通常更优越。Buckler等人(2009)发现在NAM群体中用于DS鉴定的QTL等位基因系列的证据。因此，虽然QTL的位置在群体之间是保守的，但它们的效应非常不同。可能的原因是通过遗传背景相互作用存在多个等位基因或QTL。在这种情况下，预期数据的合并不具有超过无合并的优势。这个实例还表明，关于是否合并数据的决定必须以性状为基础进行，并且应该结合有关遗传结构的先验知识(如果有的话)。

来自模拟研究的结果也加强了合并方法的相对性能对群体间遗传效应相似性的依赖性。还据观测，均先验分布N(m，d²，0＜a，b＝∞)的平均值随着群体特异性QTL效应中模拟差异的增加而增加，该先验分布量化来自总体效应u_k的特异性标记效应u_jk的偏差。这是预期的，但表明数据对高水平超参数有益。对P和N_p进行平均，该平均值在NAM中对于DS和ULA是最大的(结果未显示)。这可能反映了对于DS，在群体特异性QTL效应之间的显著差异。然而，性状ULA没有偏离对于剩余性状观测到的预测准确度模式，并且似乎没有像在DS中的等位基因系列的任何强烈指示。在N(m，d²，0＜a，b＝∞)的平均值和在IB中合并方法的性能之间也没有明显的关系(结果未显示)。

对群体的独特特征建模需要在估计集中表示这些群体。因此，在部分和完全合并两者中，来自П的新群体的个体的预测必须依赖于总体、非特异性标记效应u_k。因此，预期两者对新群体实现了非常相似的预测准确度

这些结果表明，部分合并能够模拟估计集中的群体的独特特征，而不会在来自新群体的个体的预测能力方面折衷。

这项研究例证了在多群体(与植物和动物育种高度相关的情境)背景下可使用多水平模式进行部分合并。然而，该概念容易适用于广泛的情境。实例是跨越多个顶交测试者或环境的合并数据，这在植物育种中特别相关。将模型扩展到两个以上的水平也是简单的，例如用于从多个杂种优势群或育种程序合并多个群体。

估计集的组成

增加估计集中群体的个体数量(N_p)总是增加来自相同群体的未经测试个体的预测准确性(r_Π)，无论是(部分和完全合并)否(不合并)通过来自其他群体的个体进一步扩大估计集。

然而，由于植物育种计划必须在预算约束下运作，所以资源的最佳分配对于最大化基因组选择的潜力是非常重要的。使用用于表型分型的、与N成比例的固定预算，在N＝P·N_p的约束下，必须优化群体数量P和每个群体中个体数量N_p。可以使用关于对选择的响应和在估计集(分别为r_Π和)中表示和未表示的群体的不同预测准确度进行解释的基本理论来实现这种优化。据此，一个关键点在于，r_Π将随着N_p的增加而增加，但是由于P的减少，它将适用于较少的群体。这种情况由于我们观测到的与P的减少有关的均减少而加剧。因此，如果群体的总数量很大，如植物育种计划中通常是这种情况，具有非常低的P可能是不希望的。在植物育种的背景下，这项研究表明，如果群体相关并且存在合并非常不同的种质的优点的证据，那么群体间的合并数据可以至少部分地补偿低N_p。因此，使用合并估计集具有允许高P而不会对r_Π折衷太多的潜力。这项研究表明，通过对合并估计集中的信息的最佳利用，采用多水平模型的部分合并可以进一步增强这一潜力。

Claims

1.一种用于在育种程序中选择个体并用于对所选个体进行育种的方法，所述方法包括：

a.通过以下方式构建用于全基因组预测和分别选择的优化估计数据集：

i.选择和合并预定义的群体候选集，所述预定义的候选集选自育种杂交，并且从靶向用于选择的个体的综合列表中选择每个育种杂交中的个体进行表型分型，其中基因型信息可用于所有候选个体；

ii.在主动人工选择、特异性遗传相似性或散度量度下，使用群体和性状特异性估计的QTL效应的目标函数，针对育种杂交群体和育种性状进行计算；

iii.构建在合并的群体数量和每个群体内的单独个体方面优化的估计数据集；并且

iv.使用无合并、部分合并或完全合并统计模型作为目标遗传相似性或散度标准的函数；

b.在优化的估计数据集中对候选者进行表型分型；

c.在多种标记处对育种个体进行基因型分型；

d.使用优化的估计数据集中候选者的表型，获得基因分型的育种个体的基因组估计育种值；

e.基于以通过无合并、部分合并或完全合并的优化估计集为条件生成的基因组估计育种值，在选择个体的基因分型的候选者的完整集内进行选择；并且

f.使用该选择个体中的至少一个来对该选择个体中的至少另一个进行育种。

2.如权利要求1所述的方法，其中候选者的所述基因型信息经由使用SNP标记进行的基因分型来获得。

3.如权利要求1所述的方法，其中所述育种个体是纯合的。

4.如权利要求1所述的方法，其中所述植物选自：玉米、大豆、向日葵、高粱、卡诺拉、小麦、苜蓿、棉花、水稻、大麦、粟、甘蔗和柳枝稷。

5.如权利要求1所述的方法，其中所述育种个体是动物。

6.如权利要求1所述的方法，其中将该方法应用于植物育种。

7.如权利要求1所述的方法，其中将该方法应用于动物育种。

8.如权利要求1所述的方法，该方法进一步包括遗传多样性群体，该遗传多样性群体包括携带一种或多种转基因的个体。

9.如权利要求1所述的方法，该方法进一步包括遗传多样性群体，该遗传多样性群体包括具有用Cas9编辑的DNA的个体。

10.如权利要求1所述的方法，其中该候选者的所述基因型信息通过对基因表达、代谢物浓度或蛋白质浓度进行分析来获得。