CN114863991A

CN114863991A - 基于二步预测模型建立的提高全基因组预测精度方法

Info

Publication number: CN114863991A
Application number: CN202210703391.8A
Authority: CN
Inventors: 陈珊; 阮燕晔; 张敖; 张学才; 孙权; 崔震海; 樊金娟; 朱延姝; 张艺萱
Original assignee: Shenyang Agricultural University
Current assignee: Shenyang Agricultural University
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-08-05
Anticipated expiration: 2042-06-21

Abstract

本发明提供一种基于二步预测模型建立的提高全基因组预测精度方法，包括以下步骤：S1、自交系基因组信息的处理；S2、难预测群体的筛选；S3、对基因型文件进行群体结构、主成分分析和遗传距离的计算；S4、建模群体和预测群体的划分；S5、初步GS预测；S6、筛选得到与目标性状关联的SNPs；S7、第二步GS预测。本发明根据育种所用的遗传材料群体遗传构成多样性的特点和GWAS对SNP标记关联度的评价功能，建立了一种基于遗传材料群体遗传构成、与性状关联SNP标记和二步预测模型建立的提高全基因组预测精度的新方法。

Description

基于二步预测模型建立的提高全基因组预测精度方法

技术领域

本发明属于分子育种技术领域，具体涉及一种基于二步预测模型建立的提高全基因组预测精度方法。

背景技术

在实际育种过程中，通过提高建模群体的比例提高预测精度，消耗较多的土地、人力和时间，而且，预测精度提高有限。同时，随机抽取材料作为建模群体，很可能遇到将预测精度很低的材料作为建模的情况，导致预测的结果较差，失去应用价值。

目前，已经开发出一些遗传算法如CDmean和PEVmean等，但在实际应用时效果并不明显，对预测精度的提高有限，而且计算时间较长，计算的效率较低；而且PEVmean不考虑群体的遗传变异，会导致近亲缘关系取样。

另外，选取和目标性状关联的SNPs是通过对群体所有材料的表型和基因型进行分析，获得标记与表型性状的关联程度(P值)，进而选取不同数量的性状关联标记进行研究。但在实际生产应用中，直接利用所有材料进行关联或连锁分析及GS分析，虽然结果上取得了较好的效果，但并不能达到节省时间、人力物力和提高效率的目的。但只利用建模群体中与目标表型显著关联的标记对预测精度的改善效果较小。

发明内容

本发明根据育种所用的遗传材料群体遗传构成多样性的特点和GWAS对SNP标记关联度的评价功能，建立了一种基于遗传材料群体遗传构成、与性状关联SNP标记和二步预测模型建立的提高全基因组预测精度的新方法。

本发明要解决以下几个问题：

1、难预测遗传材料的剔除：提取难以预测材料的基因型特征，并根据这些特征先将群体划分为能预测和难预测群体，难预测群体需直接种植观察表型，通过传统方法进行育种；

2、建模群体的抽取：通过群体结构、主成分分析和遗传距离计算将能预测群体划分为合适的建模群体和预测群体，达到较高并稳定的预测精度；

3、全基因组SNP标记与性状关联度评价：利用固定效应和随机效应交替运用模型对群体基因型和表型进行关联分析计算标记效应，根据P值筛选与目标性状关联的SNP标记；

4、基于建模群体基因型和表现型数据的预测模型(初步预测模型)建立：利用建模群体的观测表型值和基因型数据建立预测模型，通过预测群体的基因型计算得到预测群体的预测表型值；

5、基于全部群体基因型和表现型(包括观测表型值和预测表型值)数据的预测模型(第二步预测模型)建立：合并建模群体的观测表型值和预测群体的预测表型值得到包含群体所有材料的一个与整个群体大小一致的“半真实半模拟群体”，结合关联分析，确定和“半真实半模拟群体”群体所有材料目标性状关联的SNP标记，再利用有关联的SNP完成全基因组预测，去掉非关联标记对预测的不良影响，提高预测精度。

具体技术方案为：

S1、自交系基因组信息的处理方法

一些测序方法如GBS会产生大量缺失值，在后续分析中会影响分析结果，应尽量避免有缺失值的等位碱基座(等位基因座)，应保持缺失值等位碱基座不高于20％，甚至没有缺失值。

由于基因型的目的主要用于全基因组选择育种策略，没有多态性的等位碱基座(等位基因座)在应用全基因组选择做预测时没有任何作用，因此需要剔除，避免程序出错、减少程序运算时间。大部分作物属于二倍体，等位基因分别来自两个亲本，同一个碱基(基因)座极少数出现3种不同碱基的情况，一是由于自然界的突变随机发生，在同一个碱基(基因)座上多次出现的概率很低；二是这种突变多数会在被DNA修复机制矫正，突变后未必能留下稳定后代。另外，由于测序的结果无法保证100％正确，有些碱基是由于测序错误造成，因此，通常等位基因频率低于0.05的碱基被视作缺失值，需要被筛除，以避免I类型(假阳性)错误。

当自交系的基因型信息中包含少量缺失值时，会影响GS预测的结果。因此可以利用beagle软件根据群体中基因型出现的概率进行基因型补缺失，得到最终使用的基因型文件。

S2、难预测群体的筛选

根据基因型文件的SNPs标记获取难预测材料特征建立特征库，根据特征库，将整个群体中难预测的材料分离出来，难预测群体通过GS预测得到的预测精度波动很大，这部分材料不建议做预测，需要通过种植才能进行材料的选择。

S3、对基因型文件进行群体结构、主成分分析和遗传距离的计算

群体结构分析使用STRUCTURE软件(Evanno et al,2009)，将群体自交系按照K值划分亚群；

主成分分析(principal component analysis,PCA)使用R软件中stats包中的prcomp()函数进行PCA的计算，和使用base包中的plot()函数，绘制PCA图；

MRD(modified Rogers distance)遗传距离使用由CIMMYT开发的Bio-R(Biodiversity Analysis with R)软件(https://hdl.handle net/11529/10820)进行计算，公式如下：

其中，p_lax是位于位点l，基因型x的等位基因a的估计频率；l是位点数，n_l是位点l处的等位基因数。

S4、建模群体和预测群体的划分

根据群体结构或主成分分析或MRD遗传距离划分出建模群体和预测群体，如根据MRD遗传距离，遗传距离较近的两个材料，一个可被分为建模群体，另一个则为预测群体。

S5、初步GS预测

利用挑选出来的建模群体的观测表型值和基因型数据构建GS数学模型，将预测群体的基因型代入预测模型，得到预测群体的预测GEBV和预测表型值。

S6、筛选得到与目标性状关联的SNPs

合并建模群体的观测表型值和预测群体的预测表型值，组成一个包含所有群体材料的一个与整个群体大小一致的“半真实半模拟群体”。

利用固定效应和随机效应交替运用模型计算“半真实半模拟群体”与性状紧密关联的SNP效应值(P)，根据P值可以选取不同数量的性状关联标记进行研究。此方法可以大幅减少标记数量，降低无关标记对预测的影响，提高预测精度。

S7、第二步GS预测

利用与“半真实半模拟群体”的目标性状关联的SNPs进行第二步GS的预测。将筛选得到的与目标性状关联的SNPs作为基因型，和第(4)步划分的建模群体的观测表型值进行GS模型的构建，根据划分的预测群体基因型，计算得到第二步GS预测的GEBVs，根据GEBVs即可以筛选优良的自交系。

附图说明

图1是本发明的流程示意图。

具体实施方式

结合附图说明本发明的具体技术方案。

本实施例以379份玉米自交系关联群体为研究材料，以干旱条件下测定的出苗率为表型值进行分析。按照图1所示的流程：

1、自交系基因组信息的处理方法

DArT-seq法对玉米关联群体所有自交系进行的基因分型在SAGA测序实验室进行(https://seedsofdiscovery.org/about/genotyping-platform/)，该实验室由DArT公司和CIMMYT联合建立。利用PstI(CTGCAG)和HpaII(CCGG)两种酶消化DNA样本，以降低基因组的复杂性。对于每个96孔板，复制16％的样品以评估再现性(Pereira et al.,2020)。酶切后，将不同样品的DNA与不同碱基组合的条形码连接并测序，构建DNA简化测序文库。通过平板收集来自每个样本的等摩尔量扩增产物，并通过c-Bot(Illumina)桥式PCR进行扩增，然后在Illumina Hiseq 2500(www.Illumina.com)上进行片段测序。混合样品的DNA简化测序文库利用短片段测序技术(150bp)在单通道上进行测序(Kilian et al.,2012)(https://www.diversityarrays.com/)。DArT的SNP开发不同于简化基因组测序，其不依赖于参考基因组信息，而主要依赖于DArT公司测序的样本库数据。所有的reads都是通过基于宏基因组代表性玉米标签的序列分析进行比对的。DArT-seq已广泛应用于遗传学和分子标记辅助选择育种领域。最初，DArT-seq平台检测到39,659个SNPs，其中39,112个SNPs位于玉米1-10号染色体，547个SNPs位点不能锚定在任何一条玉米染色体上。

在DArT数据集中，利用TASSEL 5进行质量控制，筛选去除次要等位基因频率(minor allele frequency,MAF)<0.05且缺失率>20％的标记。缺失率高于20％的玉米材料被去除。因此，DArT剩余379玉米品系和7837个SNPs位点，最后利用beagle软件进行补缺失，得到最终用于全基因组选择研究的基因型数据。

2、难预测群体的筛选

根据基因型文件的SNPs标记获取难预测材料特征建立特征库，根据本项目组建立的特征库，将整个群体中难预测的材料分离出来，难预测群体通过GS预测得到的预测精度波动很大，这部分材料不建议做预测，需要通过种植才能进行材料的选择。

3、对基因型文件进行群体结构、主成分分析和遗传距离的计算

利用可预测群体的基因型文件进行遗传距离、群体结构和主成分分析的计算。CIMMYT开发的Bio-R(Biodiversity Analysis with R)软件(https://hdl.handle net/11529/10820)用于计算可预测群体之间的遗传距离。首先要将基因型文件数值化，其次根据数值化基因型格式设置Bio-R所需的参数，进行分析，得到RogersDistances文件。

群体结构分析使用STRUCTURE软件，Length of Burnin Period设置为10000，Number of MCMC Reps after Burnin设置为10000，K设置为1至10，Number of Iterations设置为5，进行分析。Structure的运算结果Results.zip提交到在线工具StructureHarvester以判断群体的Clusters数(即最可能的K值)。对于推断的最佳K值，利用CLUMPP进行后续的重复抽样分析。本关联群体根据K值确定为6，即该群体可分为6个亚群。

利用R软件(v 4.1.3)中stats包的prcomp()函数和base包中的plot()函数对玉米自交系进行主成分分析(principal component analysis,PCA)和可视化，根据前两个主成分(PC1和PC2)进行亚群的划分。本群体可划分为3个亚群。

4、建模群体和预测群体的划分

从RogersDistances文件中获取遗传距离最近的且成对存在的玉米自交系，成对存在的玉米自交系，一个作为建模群体，一个作为预测群体用于全基因组选择研究。基于群体结构和主成分分析划分的亚群，分别从不同亚群中抽取一部分群体合并作为建模群体用于分析。

5、初步GS预测

将建模群体作为pop1，预测群体为pop2，利用RR-BLUP模型进行GS分析，pop1预测pop2，得到最终的预测精度，以及pop2的预测表型值。

6、筛选得到与目标性状关联的SNPs

合并pop1的观测表型值和pop2的预测表型值以及pop和pop2的基因型进行关联分析。根据固定效应和随机效应交替运用模型计算该关联群体基因型中与出苗率性状关联程度的P值，根据不同的P值筛选得到不同关联程度的标记。本实施例是根据P<0.001、P<0.01、P<0.1和P<0.5设置关联梯度，并提取关联SNPs。

7、第二步GS预测

将关联的SNPs提取后进行数值化，根据步骤5的流程利用关联标记进行预测，得到预测精度及基因组估计育种值(GEBVs)。

表1建模群体的选择及与目标性状关联标记得到的预测精度

在随机选择建模群体时(重复100次)，预测精度范围为11.53％-38.72％，平均预测精度为24.98％，预测精度范围跨度大，在实际生产应用中，随机抽取材料作为建模群体，很可能遇到将预测精度很低的材料作为建模的情况，导致预测的结果较差，失去应用价值。在利用建模群体目标性状的关联标记进行GS分析时，在P<0.1的条件下，预测精度为26.93％，仅提高了1.95％。在根据遗传距离选择建模群体后，达到了较稳定的预测精度，为32.70％，运行步骤6后进行第二步GS预测，在P<0.1时，预测精度达到35.86％，和随机选择建模群体的平均预测精度24.98％相比，提高了10.88％。

Claims

1.基于二步预测模型建立的提高全基因组预测精度方法，其特征在于，包括以下步骤：

S1、自交系基因组信息的处理

S2、难预测群体的筛选

根据基因型文件的SNPs标记获取难预测材料特征建立特征库，根据特征库，将整个群体中难预测的材料分离出来，这部分材料不做预测；

S4、建模群体和预测群体的划分

根据群体结构或主成分分析或MRD遗传距离划分出建模群体和预测群体；

S5、初步GS预测

利用挑选出来的建模群体的观测表型值和基因型数据构建GS数学模型，将预测群体的基因型代入预测模型，得到预测群体的预测GEBV和预测表型值；

S6、筛选得到与目标性状关联的SNPs

合并建模群体的观测表型值和预测群体的预测表型值，组成一个包含所有群体材料的一个与整个群体大小一致的“半真实半模拟群体”；

利用固定效应和随机效应交替运用模型计算“半真实半模拟群体”与性状紧密关联的SNP效应值P，根据P值选取不同数量的性状关联标记进行研究；

S7、第二步GS预测

利用与“半真实半模拟群体”的目标性状关联的SNPs进行第二步GS的预测。

2.根据权利要求1所述的基于二步预测模型建立的提高全基因组预测精度方法，其特征在于，S1中，避免有缺失值的等位碱基座，保持缺失值等位碱基座不高于20％；

没有多态性的等位碱基座要剔除，等位基因频率低于0.05的碱基被视作缺失值，要被筛除；

当自交系的基因型信息中包含少量缺失值时，利用beagle软件根据群体中基因型出现的概率进行基因型补缺失，得到最终使用的基因型文件。

3.根据权利要求1所述的基于二步预测模型建立的提高全基因组预测精度方法，其特征在于，S3中，群体结构分析使用STRUCTURE软件，将群体自交系按照K值划分亚群；

主成分分析PCA使用R软件中stats包中的prcomp()函数进行PCA的计算，和使用base包中的plot()函数，绘制PCA图；

MRD遗传距离使用由CIMMYT开发的Bio-R软件进行计算，公式如下：

4.根据权利要求1所述的基于二步预测模型建立的提高全基因组预测精度方法，其特征在于，S7中，具体方法为：将筛选得到的与目标性状关联的SNPs作为基因型，和S4步划分的建模群体的观测表型值进行GS模型的构建，根据划分的预测群体基因型，计算得到第二步GS预测的GEBVs，根据GEBVs筛选优良的自交系。