CN107419000A

CN107419000A - 一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用

Info

Publication number: CN107419000A
Application number: CN201610349022.8A
Authority: CN
Inventors: 邱丽娟; 马岩松; 郭勇
Original assignee: Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Current assignee: Institute of Crop Sciences of Chinese Academy of Agricultural Sciences
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2017-12-01

Abstract

本发明公开了一种基于单倍型取样预测大豆农艺性状表型的方法及其应用。本发明首先提供了一种建立预测大豆的农艺性状的模型的方法，包括如下步骤：用单倍型取样原则代替全基因组SNP取样原则，并根据单倍型取样原则得到的SNP标记群体建立预测大豆的农艺性状的模型。所述农艺性状为株高、有效分枝数、单株荚数、单株粒重或百粒重。本发明创建了基于大豆品种单倍型分析的标记取样策略，能够提高大豆不同农艺性状的全基因组选择预测准确度，对于大豆育种具有重大价值。

Description

一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用

技术领域

本发明涉及一种基于单倍型取样预测大豆农艺性状表型的全基因组选择方法及其应用。

背景技术

我国大豆育种研究起始于1913年，在1923年育成了我国的第一个大豆品种金大332。建国后，特别是1978年以来，我国大豆育种取得了重大的进展，育成品种数量迅速增加，迄今为止育成品种数量超过1800个，在不同时期满足了国民经济和社会发展的需要。育种方法也从最初的自然变异选择育种发展到杂交(回交)育种，辐射诱变育种，外源DNA导入和分子标记辅助选择等。随着我国人民生活水平的提高，对大豆的需求量与日俱增。同时，由于种植结构的调整，大豆种植面积明显降低，大豆进口数量逐年递增。根据国家统计局公布的数据表明，2010-2013年全国大豆种植面积下降了17.80％，2010-2014年大豆进口数量增加了30.30％。为缓解这一矛盾，提高大豆单位面积产量，加快大豆新品种选育是一个有效地途径。

全基因组选择同时利用分布在全基因组上的高密度分子标记计算复杂农艺性状的基因组估计育种值(Genomic Estimated Breeding Value)，并以此为标准完成育种群体分离世代选择。该理论在2001年被Meuwissen等提出，并被应用到动物育种中。2007年，Bernardo等首次将基因组选择理论应用于植物育种中。与传统的基于系谱关系的表型选择相比，全基因组选择具有提高遗传增益，缩短育种周期，提高育种效率等优点。与分子标记辅助选择(Molecular Assisted Selection，MAS)相比，全基因组选择具有以下优点：⑴不需要构建作图群体，可以直接利用生产上广泛采用的有系谱信息的育成品种和优异资源构建训练群体，加快了育种进程；⑵以常规育种配置杂交组合所使用的亲本构建训练群体，保证了建立的基因组估计育种值的模型可直接用于育种群体的后代选择，减少了标记辅助选择所获得的结果还需要进一步验证的过程，节省了育种成本；⑶全基因组选择利用了分布在全基因组上的全部分子标记估算基因组估计育种值，克服了分子标记辅助选择中对微效多基因控制的复杂性状选择无效的问题。随着越来越多的植物基因组信息的公布，全基因组选择已经被应用于越来越多的作物中。

近年来，随着大豆全基因组序列的完成和大豆重测序工作的开展，在大豆基因组上鉴定了丰富的SNP位点。在此基础上，开发了含有不同数量SNP标记的大豆基因组芯片。这为全基因组选择在大豆上应用创造了条件。对于育种者来说，筛选出适合于育种群体的标记是开展大豆全基因组选择的前提。同时，合理的标记数量也是降低全基因组选择成本，加快全基因组选择在作物育种上的应用和提高对目标群体的选择效率的重要手段。

发明内容

本发明的目的是提供一种基于单倍型取样预测大豆农艺性状表型的方法及其应用。

本发明首先提供了一种建立预测大豆的农艺性状的模型的方法，包括如下步骤：用单倍型取样原则代替全基因组SNP取样原则，并根据单倍型取样原则得到的SNP标记群体建立预测大豆的农艺性状的模型。

所述农艺性状为株高、有效分枝数、单株荚数、单株粒重或百粒重。

所述“单倍型取样原则”为：分析所有SNP标记间的连锁不平衡关系，将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”，在每个单倍型区间中随机选择一个SNP标记作为该单倍型区间的代表，与全部blank-SNP标记一起，构成一个由m个SNP标记组成的SNP标记群体。

所述“单倍型取样原则”的实现方式依次包括如下步骤：

①对所述训练群体中的各个大豆进行全基因组扫描，获得所有SNP标记的基因型数据；

②分析所有SNP标记间的连锁不平衡关系，将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”，在每个单倍型区间中随机选择一个SNP标记作为该单倍型区间的代表，与全部blank-SNP标记一起，构成一个由m个SNP标记组成的SNP标记群体。

所述训练群体由n1个以上的大豆组成；n1为50以上的自然数。

本发明还保护以上任一所述方法在预测大豆的农艺性状中的应用。

本发明还保护一种基于对训练群体建立模型从待测群体中筛选具有目标农艺性状的大豆的方法，包括如下步骤：

(1)获得训练群体中的各个大豆的农艺性状的无偏估计值；所述训练群体由n1个以上的大豆组成；n1为50以上的自然数；

(2)对所述训练群体中的各个大豆进行全基因组扫描，获得所有SNP标记的基因型数据；分析所有SNP标记间的连锁不平衡关系，将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”，在每个单倍型区间中随机选择一个SNP标记作为该单倍型区间的代表，与全部blank-SNP标记一起，构成一个由m个SNP标记组成的SNP标记群体；

(3)基于所述训练群体，对于农艺性状与基因型的关系建立如下方程式甲：Y＝Y＝μ₁+X×g+ε₁；Y为n1维向量，代表训练群体中的各个大豆的所述农艺性状的无偏估计值；μ₁代表组成训练群体的各个大豆的所述农艺性状的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₁代表残差；将步骤(1)中的相应数据和所述SNP标记群体中的各个SNP标记的基因型数据转化为基因型代码输入上述方程式甲，得到对于所述农艺性状来说各个SNP的g值；

(4)基于步骤(3)得到的g值，通过随机回归最佳线性无偏预测(randomregression best linear unbiased prediction,rrBLUP)模型，得到验证群体中的各个大豆的所述农艺性状的预测值，从而从验证群体中筛选所述农艺性状满足预期标准的大豆；所述验证群体由n2个以上的大豆组成；n2为5以上的自然数。

所述步骤(1)中，首先通过田间试验获得大豆所述农艺性状的原始数据，然后将大豆作为随机效应，利用最佳线性无偏预测(BLUP)对所述农艺性状进行估计，获得大豆所述农艺性状的无偏估计值。农艺性状调查标准参照邱丽娟等编著的《大豆种质资源描述规范和数据标准(2006)》。

所述步骤(2)中，“对所述训练群体中的各个大豆进行全基因组扫描，获得所有SNP标记的基因型数据”的方法如下：取各个大豆的基因组DNA，采用IlluminaSoySNP6kiSelectBeadChip芯片(芯片上具有检测大豆5361个SNP的探针)并按照Illumina公司GoldenGate芯片检测的标准流程(http://www.illumina.com)进行检测，然后使用GenomeStudio Genotyping Module软件获取数据，以缺失数据比例小于95％为标准，获得所有SNP标记的基因型数据。“对所述训练群体中的各个大豆进行全基因组扫描，获得所有SNP标记的基因型数据”具体如表3所示。

所述步骤(2)中，利用haploview 4.2软件分析所有SNP标记间的连锁不平衡关系，数据导入采用linkage format格式，连锁不平衡扫描窗口范围为500kb。操作流程参考haploview使用手册。

(3)基于所述训练群体，对于农艺性状与基因型的关系建立如下方程式甲：Y＝μ₁+X×g+ε₁；Y为n1维向量，代表训练群体中的各个大豆的所述农艺性状的无偏估计值；μ₁代表组成训练群体的各个大豆的所述农艺性状的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₁代表残差；将步骤(1)中的相应数据和所述SNP标记群体中的各个SNP标记的基因型数据转化为基因型代码输入上述方程式甲，得到对于所述农艺性状来说各个SNP的g值；

(4)获得验证群体中的所有大豆的农艺性状的无偏估计值的平均值；所述验证群体由n2个以上的大豆组成；n2为5以上的自然数；

(5)对所述验证群体中的各个大豆进行全基因组扫描，获得所述SNP标记群体中各个SNP的基因型数据；

(6)建立如下方程式乙：y＝μ₂+x×g+ε₂；μ₂代表组成验证群体的各个大豆的所述农艺性状的无偏估计值的平均值；x为n2×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₂代表残差；将步骤(4)中的相应数据和步骤(5)得到的SNP的基因型数据转化为SNP基因型代码输入上述方程式乙，得到y值，y值即验证群体中的各个大豆的所述农艺性状的预测值；

(7)基于步骤(6)得到的y值从所述待测群体中筛选所述农艺性状满足预期标准的大豆。

所述步骤(1)和/或所述步骤(4)中，首先通过田间试验获得大豆所述农艺性状的原始数据，然后将大豆(大豆品种)作为随机效应，利用最佳线性无偏预测(BLUP)对所述农艺性状进行估计，获得大豆所述农艺性状的无偏估计值。农艺性状调查标准参照邱丽娟等编著的《大豆种质资源描述规范和数据标准(2006)》。

所述步骤(5)中，所述“全基因组扫描”采用IlluminaSoySNP 6k iSelectBeadChip芯片(芯片上具有检测大豆5361个SNP的探针)并按照Illumina公司GoldenGate芯片检测的标准流程(http://www.illumina.com)进行。使用Genome Studio Genotyping Module软件获取数据。

以上任一所述n1具体可为150以上的自然数，更具体可为192-224，更具体可为192或224。以上任一所述n2具体可为40以上的自然数，更具体可为48-56，更具体可为48或56。

本发明通过比较随机取样方法，均匀取样方法和基于连锁不平衡分析的取样方法获得的不同数量SNP标记对大豆全基因组选择预测准确度的影响，建立了适合于大豆全基因组选择的SNP标记的筛选方法。本发明创建了基于大豆品种单倍型分析的标记取样策略，能够提高大豆不同农艺性状的全基因组选择预测准确度，对于大豆的育种选育具有重大价值。

附图说明

图1为不同数量SNP间大豆主要农艺性状全基因组选择预测准确度。

图2为不同取样方法间大豆主要农艺性状全基因组选择预测准确度箱线图。

图3为不同取样方法对北方春大豆品种基因组选择预测准确度的比较箱线图，

具体实施方式

以下的实施例便于更好地理解本发明，但并不限定本发明。下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂商店购买得到的。以下实施例中的定量试验，均设置三次重复实验，结果取平均值。

单倍型区间：基因组上没有发生重组并且只包含一个单倍型的区域，该区域在不同群体间的边际及单倍型高度相似(Gabriel et al.2002)。

实施例1、方法的建立

共280个大豆品种(由表1的大豆品种和表2的大豆品种组成)，其中224个大豆品种组成训练群体，56个大豆品种组成验证群体。进行500次重复试验，每次重复试验中，280个大豆品种随机划分入训练群体和验证群体。280个大豆品种均可获自国家农作物种质资源保存中心大豆中期库(http://www.cgris.net/query/croplist.php)。

其中某一次重复试验中，训练群体的大豆品种见表1，验证群体的大豆品种见表2。

一、不同大豆品种表型数据的多年多点鉴定试验及表型数据的处理

2008-2012年间，在黑龙江、吉林、内蒙古、河北、河南、山东、安徽、湖北、江西和广西鉴定了280个大豆品种的主要农艺性状。田间试验设计采用随机区组，三次重复，4行区，5米行长。种植密度，田间管理方式采用试验地点当地常规大豆种植管理方式。收获时每小区随机选择中间长势均匀的10个单株考种，考察的农艺性状包括株高、有效分枝数(简称分枝数)、单株荚数、单株粒重和百粒重，计算平均值为该小区记录结果。农艺性状调查标准参照邱丽娟等编著的《大豆种质资源描述规范和数据标准(2006)》。

将大豆品种作为随机效应，利用最佳线性无偏预测(BLUP)分别对每个农艺性状(株高、有效分枝数、单株荚数、单株粒重和百粒重)进行估计，获得每个大豆品种的每个农艺性状的无偏估计值。最佳线性无偏预测值的计算参考Handerson等1975年方法：Henderson C R.Best linear unbiased estimation and prediction under aselection model[J].Biometrics,1975,31(2):423-447。280个大豆品种的每个农艺性状的无偏估计值见表1和表2。

表1

表2

分别计算每个农艺性状的广义遗传力(株高的广义遗传力、有效分枝数的广义遗传力、单株荚数的广义遗传力、单株粒重的广义遗传力和百粒重的广义遗传力)。

H²＝V(G)/V(P)；

H²表示广义遗传力，V(G)表示遗传方差，V(P)表示表型方差。

遗传力计算采用Fehr等方法：Fehr W R.Principle of cultivar development[M].Vol.Ⅰ,Theory and technique.Iowa State University 1987,Macmillan Inc.NewYork。

二、不同大豆品种的全基因组扫描

训练群体中的224个大豆品种和验证群体中的56个大豆品种分别进行如下操作：

1、基因组DNA提取

用Thermo公司的Genomic DNA purification试剂盒提取大豆的基因组DNA。

2、SNP芯片检测

分别取步骤1得到的各个基因组DNA，用超纯水稀释，得到DNA浓度为50ng/μl的核酸溶液。取10μl核酸溶液，采用IlluminaSoySNP 6k iSelectBeadChip芯片(芯片上具有检测大豆5361个SNP的探针)并按照Illumina公司GoldenGate芯片检测的标准流程(http://www.illumina.com)进行检测，然后使用Genome Studio Genotyping Module软件获取SNP数据，形成全基因组信息。

得到280个大豆品种的全基因组信息。以缺失数据比例小于95％为标准，共获得5354个SNP位点的相应信息。5354个SNP位点的相应信息见表3。

表3 5354个SNP在大豆基因组上的分布信息

三、采用现有方法进行农艺性状预测的准确度评估

1、基因型数据预处理

针对5354个SNP标记中有缺失数据的个体(即某个样本的某个SNP数据没有扫描到)，利用rrBLUP包中的“A.mat”代码估算缺失个体基因型。估算方法采用平均数估算法，最大缺失数据比例设定为50％。计算公式如下：

X_ij表示第i份品种在第j个SNP上的基因型。N表示第j个SNP标记上非缺失个体数量。

共得到5268个SNP位点(即表3中，除了最后43行以外的SNP位点)的相应信息。

2、用训练群体建立初步模型

对于农艺性状表型与基因型的关系建立如下方程式：Y＝μ₁+X×g+ε₁。Y为n1维向量，代表供试材料的某一农艺性状的无偏估计值；μ₁代表组成训练群体的224个大豆品种该农艺性状的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1、0、+1组成，其中±1代表纯和基因型(+1和-1随机)，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₁代表残差。

以株高为例，具体阐述如下：Y＝μ₁+X×g+ε₁；Y为n1维向量，代表供试材料的株高的无偏估计值；μ₁代表组成训练群体的224个大豆品种的株高的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₁代表残差。X×g具体体现为X_ij×g_j,i和j分别为n1和m以下的自然数，即第一个SNP的基因型代码X_i1对应第一个SNP的效应值g₁，依次类推。供试材料为训练群体中的224个大豆品种、步骤1中得到了5268个SNP，因此n1＝224，m＝5268。将Y(组成训练群体的224个大豆品种的株高的无偏估计值)、μ₁(组成训练群体的224个大豆品种的株高的无偏估计值的平均值)、X(224个大豆品种，每个大豆品种5268个SNP，X为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)输入，可以得到对于株高表型来说各个SNP的g值。

按照上述方法，可以得到对于有效分枝数表型来说各个SNP的g值。

按照上述方法，可以得到对于单株荚数表型来说各个SNP的g值。

按照上述方法，可以得到对于单株粒重表型来说各个SNP的g值。

按照上述方法，可以得到对于百粒重表型来说各个SNP的g值。

3、初步模型的准确度评估

验证群体中的56个大豆品种分别进行如下操作(以株高为例)：

(1)将各个大豆品种步骤1得到的基因型数据转化为SNP基因型代码和步骤2得到的对于株高表型来说各个SNP的g值输入如下公式，得到y值，即株高表型预测值：y＝μ₂+x×g+ε₂”。μ₂代表组成验证群体的56个大豆品种的株高的无偏估计值的平均值；x为n2×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₂代表残差。x×g具体体现为x_ij×g_j,i和j分别为n2和m以下的自然数，即第一个SNP的基因型代码x_i1对应第一个SNP的效应值g₁，依次类推。供试材料为验证群体中的56个大豆品种、步骤1中得到了5268个SNP，因此n2＝56，m＝5268。将μ₂(组成验证群体的56个大豆品种的株高的无偏估计值的平均值)、x(56个大豆品种，每个大豆品种5268个SNP，x为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)和步骤2得到的对于株高表型来说各个SNP的g值输入，可以得到y值。

(2)取56个大豆品种的株高无偏估计值，即株高表型观察值。

(3)计算株高表型预测值和株高表型观察值的相关系数(rMP)。

(4)计算株高预测准确度(rGS)。rGS＝rMP/h，其中h表示步骤一得到的株高的广义遗传力的平方根。

株高预测准确度为0.7602(500次重复试验的平均值)。

按照上述方法，可以得到有效分枝数预测准确度，为0.5347(500次重复试验的平均值)。

按照上述方法，可以得到单株荚数预测准确度，为0.4974(500次重复试验的平均值)。

按照上述方法，可以得到单株粒重预测准确度，为0.1481(500次重复试验的平均值)。

按照上述方法，可以得到百粒重预测准确度，为0.5377(500次重复试验的平均值)。

四、筛选适用于大豆不同农艺性状全基因组选择的最佳标记数量

以株高为例，其他农艺性状参见株高。

1、基于步骤二中得到的5354个SNP标记，以SNP标记总数的5％为间隔，采用随机取样的方法，依次降低SNP标记数量。

2、采用步骤1确定的SNP，依次按照步骤三的2和3的方法进行。

计算各个农艺性状的预测准确度(rGS)，取500次重复试验的平均值。

利用最小显著极差法检测不同SNP标记数量间预测准确度差异的显著性(结果见表4和图1)。在不显著降低全基因组选择预测准确度的条件下，对大豆株高的全基因组选择最适SNP标记数量为2371个，分枝数的最适SNP标记数量为1844个，单株荚数的最适SNP标记数量为3424个，单株粒重最适SNP标记数量为1317个，百粒重的最适SNP标记数量为3688个。

表4不同SNP标记数量间大豆主要农艺性状全基因组选择预测准确度差异显著性比较

注：具有相同字母表示差异不显著。

五、比较不同取样策略对大豆不同农艺性状全基因组选择预测准确度的影响

以株高为例，其他农艺性状参见株高。

1、单倍型取样策略

(1)利用haploview 4.2软件分析步骤二中得到的5354个SNP标记的连锁不平衡关系。数据导入采用linkage format格式，连锁不平衡扫描窗口范围为500kb。操作流程参考haploview使用手册。单倍型区间定义参考Gabriel et al 2005年的95％置信区间方法。在20条染色体上共形成单倍型区间351个(包含2091个SNP，占全部标记数量的39.05％)。构成单倍型的SNP数量变化范围为2-22个，其中由4个SNP构成的单倍型数量为84个，占全部单倍型的23.93％。超过15个SNP组成的单倍型有6个，分布在9、11、19和20号染色体上。

(2)将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”。5354个SNP中，2091个为block-SNP，3263个为blank-SNP。在每个单倍型中随机选择一个SNP标记作为该单倍型的代表，与全部blank-SNP标记一起，构成一个由3614个SNP组成的SNP标记群体。

(3)对于农艺性状表型与基因型的关系建立如下方程式：Y＝μ₁+X×g+ε₁。Y为n1维向量，代表供试材料的某一农艺性状的无偏估计值；μ₁代表组成训练群体的224个大豆品种该农艺性状的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1、0、+1组成，其中±1代表纯和基因型(+1和-1随机)，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₁代表残差。

以株高为例，具体阐述如下：Y＝μ₁+X×g+ε₁；Y为n1维向量，代表供试材料的株高的无偏估计值；μ₁代表组成训练群体的224个大豆品种的株高的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₁代表残差。X×g具体体现为X_ij×g_j,i和j分别为n1和m以下的自然数，即第一个SNP的基因型代码X_i1对应第一个SNP的效应值g₁，依次类推。供试材料为训练群体中的224个大豆品种、步骤(2)中得到了3614个SNP，因此n1＝224，m＝3614。将Y(组成训练群体的224个大豆品种的株高的无偏估计值)、μ₁(组成训练群体的224个大豆品种的株高的无偏估计值的平均值)、X(224个大豆品种，每个大豆品种3614个SNP，X为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)输入，可以得到对于株高表型来说各个SNP的g值。

按照上述方法，可以得到对于百粒重表型来说各个SNP的g值。

(4)验证群体中的56个大豆品种分别进行如下操作(以株高为例)：

将各个大豆品种3614个SNP的基因型数据转化为SNP基因型代码和步骤(3)得到的对于株高表型来说各个SNP的g值输入如下公式，得到y值，即株高表型预测值：y＝μ₂+x×g+ε₂”。μ₂代表组成验证群体的56个大豆品种的株高的无偏估计值的平均值；x为n2×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₂代表残差。x×g具体体现为x_ij×g_j,i和j分别为n2和m以下的自然数，即第一个SNP的基因型代码x_i1对应第一个SNP的效应值g₁，依次类推。供试材料为验证群体中的56个大豆品种、步骤1中得到了3614个SNP，因此n2＝56，m＝3614。将μ₂(组成验证群体的56个大豆品种的株高的无偏估计值的平均值)、x(56个大豆品种，每个大豆品种3614个SNP，x为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)和步骤2得到的对于株高表型来说各个SNP的g值输入，可以得到y值。

(5)验证群体中的56个大豆品种的株高无偏估计值，即株高表型观察值。

(6)计算株高表型预测值和株高表型观察值的相关系数(rMP)。

(7)计算株高预测准确度(rGS)。rGS＝rMP/h，其中h表示步骤一得到的株高的广义遗传力的平方根。株高预测准确度为0.7698(500次重复试验的平均值)。

按照上述方法，可以得到有效分枝数预测准确度，为0.5354(500次重复试验的平均值)。

按照上述方法，可以得到单株荚数预测准确度，为0.5091(500次重复试验的平均值)。

按照上述方法，可以得到单株粒重预测准确度，为0.1503(500次重复试验的平均值)。

按照上述方法，可以得到百粒重预测准确度，为0.5715(500次重复试验的平均值)。

2、随机取样策略

(1)在步骤二得到的5354个SNP的基础上，以标记数量的10％为间隔，采用随机取样的方法，依次降低用于大豆全基因组选择的标记数量。

(2)采用步骤(1)确定的SNP，依次按照步骤三的2和3的方法进行。

3、均匀取样策略

(1)在步骤二得到的5354个SNP的基础上，以相邻的2-10个标记为一个取样单位，在每个取样单位中随机选择一个SNP标记构成新的标记群体。

步骤1、步骤2和步骤3的结果比较见图2。比较标记数量在260-3700范围内，不同取样策略下大豆主要农艺性状的全基因组预测准确度，确定了基于单倍型的取样策略能提高大豆主要农艺性状全基因组选择预测准确度。

实施例2、在北方春大豆品种中验证基于单倍型分析的取样方法对大豆全基因组选择预测准确度的改善作用

验证群体由来自于黑龙江、吉林、辽宁、内蒙古、山西、河北和北京的240个北方春大豆品种组成(240个大豆品种为表1和表2中的大豆品种中除了表5以外的所有大豆品种)。进行500次重复试验，每次重复试验中，240个大豆品种中192个大豆品种随机划分入训练群体，48个大豆品种随机划分入验证群体。

表5

中黄24

鲁豆8号

中黄3号

冀豆12

化诱542

菏豆13

豫豆20

晋大70

十胜长叶

铁秆1号

中黄13

五星1号

晋豆29

高丰1号

郑90007

中黄28

合引一号

文丰1号

中黄19

五星2号

鲁豆10

84-51

徐豆8号

科丰14

合引2号

予豆一号

中黄20

邯豆3号

鲁豆11

豫豆15

徐豆11

中品03-5368

豫豆12

早熟17

中品662

邯豆5号

齐茶豆2号

豫豆19

南农217

中品95-5383

2008-2012年间，在黑龙江、吉林、内蒙古、河北、河南、山东、安徽、湖北、江西和广西鉴定了240个大豆品种的主要农艺性状。田间试验设计采用随机区组，三次重复，4行区，5米行长。种植密度，田间管理方式采用试验地点当地常规大豆种植管理方式。收获时每小区随机选择中间长势均匀的10个单株考种，考察的农艺性状包括株高、有效分枝数(简称分枝数)、单株荚数、单株粒重和百粒重，计算平均值为该小区记录结果。农艺性状调查标准参照邱丽娟等编著的《大豆种质资源描述规范和数据标准(2006)》。

将大豆品种作为随机效应，利用最佳线性无偏预测(BLUP)分别对每个农艺性状(株高、有效分枝数、单株荚数、单株粒重和百粒重)进行估计，获得每个大豆品种的每个农艺性状的无偏估计值。最佳线性无偏预测值的计算参考Handerson等1975年方法：Henderson C R.Best linear unbiased estimation and prediction under aselection model[J].Biometrics,1975,31(2):423-447。

H²＝V(G)/V(P)；

H²表示广义遗传力，V(G)表示遗传方差，V(P)表示表型方差。

二、采用单倍型取样原则进行全基因选择

1、进行全基因组扫描(方法同实施例1的步骤二)，获得实施例1的步骤二得到的5354个SNP的基因型数据。

2、单倍型取样策略

(1)利用haploview 4.2软件分析5354个SNP标记间连锁不平衡关系。数据导入采用linkage format格式，连锁不平衡扫描窗口范围为500kb。操作流程参考haploview使用手册。单倍型区间定义参考Gabriel et al 2005年的95％置信区间方法。在20条染色体上共形成单倍型区间328个。

(2)将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”。5354个SNP中，1987个为block-SNP，3367个为blank-SNP。在每个单倍型中随机选择一个SNP标记作为该单倍型的代表，与全部blank-SNP标记一起，构成一个由3695个SNP组成的SNP标记群体。

三、对于农艺性状表型与基因型的关系建立如下方程式：Y＝μ₁+X×g+ε₁。

Y为n1维向量，代表训练群体中的每个大豆品种的株高的无偏估计值；μ₁代表组成训练群体的192个大豆品种的株高的无偏估计值的平均值；X为n1×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₁代表残差。X×g具体体现为X_ij×g_j,i和j分别为n1和m以下的自然数，即第一个SNP的基因型代码X_i1对应第一个SNP的效应值g₁，依次类推。供试材料为训练群体中的192个大豆品种、步骤(2)中得到了3695个SNP，因此n1＝192，m＝3695。将Y(组成训练群体的192个大豆品种的株高的无偏估计值)、μ₁(组成训练群体的192个大豆品种的株高的无偏估计值的平均值)、X(192个大豆品种，每个大豆品种3695个SNP，X为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)输入，可以得到对于株高表型来说各个SNP的g值。

四、验证群体中的48个大豆品种分别进行如下操作：

将各个大豆品种3695个SNP的基因型数据转化为SNP基因型代码和步骤三得到的对于株高表型来说各个SNP的g值输入如下公式，得到y值，即株高表型预测值：y＝μ₂+xg+ε₂”。μ₂代表组成验证群体的48个大豆品种的株高的无偏估计值的平均值；x为n2×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型(假如某个SNP为A/G多态，纯合基因型AA或GG的X值为±1，+1和-1随机，基因型AG的X值为0)；g为m维向量，表示SNP的效应值；ε₂代表残差。x×g具体体现为x_ij×g_j,i和j分别为n2和m以下的自然数，即第一个SNP的基因型代码x_i1对应第一个SNP的效应值g₁，依次类推。供试材料为验证群体中的48个大豆品种、步骤二中得到了3695个SNP，因此n2＝48，m＝3695。将μ₂(组成验证群体的48个大豆品种的株高的无偏估计值的平均值)、x(48个大豆品种，每个大豆品种3695个SNP，x为SNP基因型代码，基因型代码即“+1”、“-1”或“0”)和步骤三得到的对于株高表型来说各个SNP的g值输入，可以得到y值。

五、取验证群体中的48个大豆品种的株高无偏估计值，即株高表型观察值。

六、计算株高表型预测值和株高表型观察值的相关系数(rMP)。

七、计算株高预测准确度(rGS)。rGS＝rMP/h，其中h表示步骤一得到的株高的广义遗传力的平方根。株高预测准确度为0.7928(500次重复试验的平均值)。

按照上述方法，可以得到有效分枝数预测准确度，为0.5348(500次重复试验的平均值)。

按照上述方法，可以得到单株荚数预测准确度，为0.5375(500次重复试验的平均值)。

按照上述方法，可以得到单株粒重预测准确度，为0.1769(500次重复试验的平均值)。

按照上述方法，可以得到百粒重预测准确度，为0.5282(500次重复试验的平均值)。

八、对照试验(随机取样策略)

以株高为例，具体步骤如下：在步骤二的(1)得到的5354个SNP的基础上，以标记数量的10％为间隔，采用随机取样的方法，依次降低用于大豆全基因组选择的标记数量。具体方法参见步骤三至七。重复次数设定为500次。

步骤七和步骤八的结果比较见图3。结果表明，基于单倍型分析的取样策略能显著提高大豆株高，单株荚数，单株粒重和百粒重的全基因组选择预测准确度，提高程度分别为1.58％，2.01％，34.95％和9.20％。以上结果证明本项发明提出的基于单倍型分析的标记筛选方法能有效地提高大豆全基因组选择预测准确度。

Claims

1.一种建立预测大豆的农艺性状的模型的方法，包括如下步骤：用单倍型取样原则代替全基因组SNP取样原则，并根据单倍型取样原则得到的SNP标记群体建立预测大豆的农艺性状的模型。

2.如权利要求1所述的方法，其特征在于：所述农艺性状为株高、有效分枝数、单株荚数、单株粒重或百粒重。

3.如权利要求1或2所述的方法，其特征在于：所述“单倍型取样原则”为：分析所有SNP标记间的连锁不平衡关系，将形成单倍型区间的SNP定义为“block-SNP”，将没有处于任何一个单倍型区间的SNP定义为“blank-SNP”，在每个单倍型区间中随机选择一个SNP标记作为该单倍型区间的代表，与全部blank-SNP标记一起，构成一个由m个SNP标记组成的SNP标记群体。

4.如权利要求1或2所述的方法，其特征在于：所述“单倍型取样原则”的实现方式依次包括如下步骤：

①对所述训练群体中的各个大豆进行全基因组扫描，获得所有SNP标记的基因型数据；所述训练群体由n1个以上的大豆组成；n1为50以上的自然数；

5.权利要求1至4中任一所述方法在预测大豆的农艺性状中的应用。

6.一种基于对训练群体建立模型从待测群体中筛选具有目标农艺性状的大豆的方法，包括如下步骤：

(4)基于步骤(3)得到的g值，通过随机回归最佳线性无偏预测模型，得到验证群体中的各个大豆的所述农艺性状的预测值，从而从验证群体中筛选所述农艺性状满足预期标准的大豆；所述验证群体由n2个以上的大豆组成；n2为5以上的自然数。

7.如权利要求6所述的方法，其特征在于：所述农艺性状为株高、有效分枝数、单株荚数、单株粒重或百粒重。

8.一种基于对训练群体建立模型从待测群体中筛选具有目标农艺性状的大豆的方法，包括如下步骤：

(6)建立如下方程式乙：y＝μ₂+x×g+ε₂”；μ₂代表组成验证群体的各个大豆的所述农艺性状的无偏估计值的平均值；x为n2×m维矩阵，代表SNP基因型代码，由-1，0，+1组成，其中±1代表纯和基因型，0代表杂合基因型；g为m维向量，表示SNP的效应值；ε₂代表残差；将步骤(4)中的相应数据和步骤(5)得到的SNP的基因型数据转化为SNP基因型代码输入上述方程式乙，得到y值，y值即验证群体中的各个大豆的所述农艺性状的预测值；

9.如权利要求8所述的方法，其特征在于：所述农艺性状为株高、有效分枝数、单株荚数、单株粒重或百粒重。