CN111627495B

CN111627495B - 一种种群的种用价值的判断方法

Info

Publication number: CN111627495B
Application number: CN202010484167.5A
Authority: CN
Inventors: 顾林林; 姜丹; 方铭; 王志勇
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-03-14
Anticipated expiration: 2040-06-01
Also published as: CN111627495A

Abstract

本发明公开了一种种群的种用价值的判断方法。该方法是将几种基础预测模型组合成一个预测模型的元算法，这种方法相较于单个预测模型通常能够获得更好的预测结果。具体步骤为：对单个群体的所有个体进行生产性能的表型测定和snp分型；经过过滤、填充等技术获得完整的基因型信息；通过多个基础预测模型并行对训练群体进行迭代训练；将多个基础模型获得各个snp位点的期望效应值累加得到每个基础预测模型的基因组估计育种值GEBV；通过最佳的集成算法ELGS将基础预测模型进行整合，最后计算基因组估计育种值与表型值或真实育种值的相关系数来获得估计准确度。

Description

一种种群的种用价值的判断方法

技术领域

本发明涉及基因组育种领域，尤其涉及一种种群的种用价值的判断方法。

背景技术

基因组选择，最初由Meuwissen等人提出。用于动物育种，被认为是一种有前途的育种范例，通过使用全基因组标记更好地预测多基因性状的植物或动物表型。与基于系谱的预测方法和基于少量标记的标记辅助选择预测方法不同，基因组选择可以对未知表型的的个体进行育种值预测，而这种性质使得它可以被应用于早期选择，可以在极大程度上减少育种周期、加快选择进展。目前该方法已经成为奶牛育种的常规方法，并且也在肉牛、马、羊、猪、鸡、老鼠、果蝇，植物上的玉米、水稻、小麦、大豆、苹果和松树中大量应用，甚至在人自身上也利用此技术预测疾病风险研究。基因组选择在水产领域的开展相对较晚，但发展速度很快，目前，基因组选择技术已经被用于扇贝(Patinopecten yessoensis)、大西洋鲑鱼(Salmo salar)、银鲑鱼(Oncorhynchus kisutch)、金头鲷(Sparus aurata)和南美白对虾(Litopenaeus vannamei)等物种的选育中。可以预计，此技术在未来将会在更多物种中获得更广泛的应用。

目前已经为基因组选择开发了各种统计模型，包括基于BLUP算法(最佳线性无偏预测)、利用基因组信息的BLUP算法(GBLUP)、基于贝叶斯的算法，如Bayes A，Bayes B，BayesCπ和Bayes LASSO等。然而，传统的统计模型预测精度变化不大；此外，统计模型通常做出强有力的假设并执行线性回归分析。例如：在GBLUP方法中，所有snp效应方差的先验分布是相等的；在BayesA中，所有snp都有影响，snp的方差服从逆卡方分布；在BayesB和BayesCπ中，只有一小部分snp具有非零效应。传统的统计模型在预测同一种性状中具有各自的优势，但预测效果参差不齐。迄今为止，尚未出现一种“超级算法”可以一直优于其它算法。

在CN107590364A中公开了一种名为“一种新的估计基因组育种值的快速贝叶斯方法”的发明专利，该专利利用贝叶斯模型计算参考群体的snp位点的期望效应值，利用参考群体的snp位点的期望效应值计算得到测试群体的估计基因组育种值GEBV，并通过计算基因组育种值与表型值或真实育种值的相关系数来获得估计准确度。其方法的不足在于：1、采用单个基础预测模型使预测精度不高；2、在BayesA模型中，所有snp都有影响，snp的方差服从逆卡方分布；在BayesB模型和BayesCπ模型中，只有一小部分snp具有非零效应，判定方法的稳定性低、灵活性差；3、单个基础预测模型需要做出强有力的假设并执行线性回归分析，使得预测效果参差不齐。

发明内容

本发明的目的就是提供一种种群的种用价值的判断方法。

一种种群的种用价值的判断方法，其特征在于，具体步骤如下：

1)样本采样：对待判定的单个种群的多个个体进行采样，测得每个个体的表型值和基因组snp位点；

2)样本筛选：对步骤1)中测得个体的基因组snp位点进行合格筛选，对不合格的位点进行淘汰，对剩余的snp位点进行补齐，得到位点处理后的个体；

3)选择基础预测模型，计算该基础模型对应的基因组估计育种值：对步骤2)中位点处理后的个体进行随机分类，分为训练群体和测试群体，将训练群体和测试群体进行迭代交叉验证，利用训练群体的个体表型值与个体snp基因型通过选定的基础预测模型计算训练群体中个体的期望效应值，通过训练群体中个体的期望效应值计算测试群体中个体的基因组估计育种值GEBV；采用个体的基因组估计育种值GEBV，结合当前最优参数的DEPSO算法计算基础预测模型种群最优解；

4)更换预设的基础预测模型，采用当前基础预测模型计算出对应的基因组估计育种值GEBV；再结合当前最优参数的DEPSO算法计算的种群最优解，利用集成算法ELGS整合多个基础预测模型的种群最优解，得到种群基因组估计育种值；

5)计算种群基因育种值估计准确度：计算种群基因组育种值与采样得到的种群平均表型值或种群真实育种值的相关系数，获得种群育种值估计准确度；

6)优化集成模型：通过步骤5)中得到的种群育种值估计准确度，对每个基础模型的DEPSO算法参数不断迭代更新，若育种值估计准确度的收敛值大于预设值，侧转向步骤3)，若育种值估计准确度的收敛值小于预设值，则输出当前种群基因组育种值。

进一步，步骤1)中测得每个个体的表型测定和基因组snp位点的步骤如下：

1-1)采用GBS技术对每个个体进行基因组测序，测得基因组snp位点；

1-2)对每个个体进行表型测定。

进一步，步骤2)中对步骤1)中测得个体的基因组snp位点进行筛选，筛选出个体中满足要求的snp位点，并将筛选出的snp位点中缺失的snp位点进行补齐；补齐后的个体和满足要求不需要补齐的个体统称为合格个体，其步骤如下：

2-1)对步骤1)中所述位点合格的条件为，MAF>0.05，符合哈代温伯格平衡检验P-value>0.001，位点缺失率低于20％；

2-2)将步骤2-1)中筛选出的有缺失的snp位点通过imputation的方法进行补齐，得到位点处理后的个体。

进一步，步骤3)中选择基础预测模型，计算该基础模型对应的基因育种值的具体步骤如下：

3-1)将步骤2)中得到的处理后的个体随机分为均等的10组样本，轮流将其中1组样本作为测试群体，其余9组样本作为训练群体，执行交叉验证；

3-2)使用步骤3-1)中训练群体个体的表型值与snp位点，通过基础预测模型计算训练群体的个体的snp位点的期望效应值；

3-3)将训练群体的个体的snp位点的期望效应值代入测试群体来计算测试群体个体的基因组估计育种值GEBV，公式为:

其中：B为估计群个体的基因型矩阵，

为snp位点的期望效应值向量；

3-4)把各个基础预测模型的输出基因组估计育种值GEBV作为输入，利用差分粒子群算法DEPSO来训练集成模型中的权重W_i，利用算法之间的信息共享机制，不断更新迭代全局最优解W_i，具体更新迭代全局最优解公式：

其中：G_best为每次迭代更新中基于集成算法的全局最优解，

为每次迭代更新中基于差分进化算法的全局最优解，

为每次迭代更新中基于粒子群优化算法的全局最优解，即种群最优解。

进一步，步骤4)中更换预设的基础预测模型，计算每个基础预测模型对应的种群最优解，利用集成算法ELGS整合多个基础预测模型种群最优解，得到种群基因组育种值的具体步骤如下：

4-1)更换预设的基础预测模型，计算多个预设的基础预测模型对应的种群最优解；

4-2)采用集成算法ELGS中的加权平均法策略来整合多个预设的基础预测模型，以得到最终的输出：种群基因组估计育种值，具体公式如下：

其中：predict_ELGS为集成算法ELGS最终的输出：种群基因组育种值，W_i为第i个基础预测模型的权重，predict_i为第i个基础预测模型的预测输出。

进一步，步骤5中所述获得种群育种值估计准确度的具体方法为：

本发明中由于固定效应的存在，因此种群育种值估计准确度表示为种群基因组育种值与减去固定效应的表型值间的相关系数，种群育种值估计准确度为：

其中，PGEBV为种群基因组估计育种值，y为表型值，X为固定效应设计矩阵，

为固定效应向量。

进一步：步骤6)中优化集成模型的具体方法如下：

6-1)在步骤3-4)中随机值初始化DEPSO算法的缩放因子F，交叉概率P_Cr，惯性权重w以及加速因子c₁和c₂；通过后续计算得到育种值估计准确度；

6-2)通过计算得到育种值估计准确度不断迭代更新算法DEPSO的参数，直至育种值估计准确度收敛不变；以惯性权重w的迭代更新为例，w_i表示更新前的惯性权重，w_i+1表示更新后的惯性权重值，f表示育种值估计准确度函数值，α表示学习率(将学习率α设置为0.01)，那么就有：

惯性权重w利用公式(4)进行不断调整直至育种值估计准确度收敛不变；即得到惯性权重w的最佳值。

6-3)参照步骤4-2)对DEPSO算法中缩放因子F，交叉概率P_Cr，惯性权重w以及加速因子c₁和c₂参数，不断迭代更新，直至育种值估计准确度收敛不变，得到参数的最佳值。由于采用了上述技术方案，本发明具有如下的优点：1、本发明采用DEPSO算法求最优解，准确度高；2、利用集成算法对多个基础预测模型进行整合的方法，可以集成任意多个模型，稳定性高；3、并通过计算得到的种群基因组育种值估计准确度修正算法参数，能明显改善预测精度，提高估计准确度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下。

图1统计模型的相关性与集成模型预测能力的关系图。

图2为不同统计模型与集成模型的效果比对图。

图3技术路线图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例1：

1)将30尾雄鱼和30尾雌鱼饲养在同一池中，采用人工催产技术，让所有亲鱼几乎同一时间排出精子或卵子，因此后代拥有相同的日龄。在后代长至2年龄时，随机选取500尾后代(包括237尾雄鱼与263尾雌鱼)作为本研究的试验材料；

1-2)对性状体长和去脏重的表型数据进行测定。

2)对步骤1)中测得个体的基因组snp位点进行筛选，筛选出个体中满足要求的snp位点，并将筛选出的snp位点中缺失的snp位点进行补齐；其步骤如下：

2-1)筛选合格的snp位点，通过筛选MAF>0.05，哈代-温伯格平衡检验P-value>0.001，位点缺失率低于20％的snp标记，一共获得基因组中124419个合格的snp位点；

2-2)筛选出的满足要求的个体中，有snp位点缺失的通软件Beagle 3.3.2版本的imputation程序对snp位点补齐，补齐后的个体和满足要求不需要补齐的个体统称为合格个体。

3)选择基础预测模型，计算该基础模型对应的基因组估计育种值，具体步骤如下：

3-1)将所有的500个个体随机分成10份，每份50个体，轮流将其中1份作为测试群体，其余9份作为训练群体，执行交叉验证(cross-validation)；

3-2)在每次交叉验证中，使用步骤3-1)中训练群体个体的表型值与snp位点，通过基础预测模型计算训练群体的个体snp位点的期望效应值；

3-3)将训练群体的每个snp位点的期望效应值代入测试群体来计算测试群体的基因组估计育种值GEBV，公式为:

其中：B为估计群个体的基因型矩阵，

为snp位点的期望效应值向量；

3-4)把各个基础预测模型的输出基因组估计育种值GEBV作为输入，利用差分粒子群算法DEPSO来训练集成模型中的权重W_i，利用算法之间的信息共享机制，不断更新迭代全局最优解(基础预测模型的权重)W_i，具体更新迭代全局最优解公式：

其中：G_best为每次迭代更新中基于集成算法的全局最优解，

为每次迭代更新中基于差分进化算法的全局最优解，

为每次迭代更新中基于粒子群优化算法的全局最优解；

差分进化算法是一种连续空间全局优化的启发式算法。包括变异、交叉和选择。第一步从包含候选解的群体初始化开始，候选解具有M个，维数为D。根据公式(6)生成初始化群体。其中：i∈[1,M]和j∈[1,D]。

x_i,j＝x_min+rand(0,1)×(x_max-x_min) (6)

在变异操作中，从群体中随机抽取3个不同个体，按式(7)进行突变。其中F是缩放因子，用于控制差分向量的影响。

v_i＝x_p+F×(x_q-x_k) (7)

在交叉操作中，新种群u_i由变异后的种群v_i和目标种群x_i共同产生，按式(8)进行变异，其中P_Cr为交叉概率。

选择操作采用贪婪选择策略。交叉后的种群u_i与目标种群x_i共同产生新一代的种群，按式(9)进行选择。其中函数f是适应度函数。

通过以上步骤不断迭代更新目标群体，直至得到最优解

粒子群优化算法是一种进化计算技术。粒子群优化算法是在研究鸟群行为的基础上发展起来的。粒子群优化算法的基本思想是通过群体中个体之间的协作和信息共享来寻找最优解。

具体流程如下：

粒子群优化算法初始化一组随机粒子。根据公式生成初始化粒子，根据公式(10)和(11)生成初始化粒子的位置和速度。

x_i,j＝x_min+rand(0,1)×(x_max-x_min) (10)

r_i,j＝r_min+rand(0,1)×(r_max-r_min) (11)

然后通过迭代求出最优解。在每次迭代中，粒子通过跟踪两个“极值”

来更新自身。在找到最佳值后，粒子通过公式(12)和(13)更新其位置和速度。

v_i＝x_i+r_i (12)

其中函数f是适应度函数，

是目前的个体极值，

是目前的全局极值。参数w是惯性权重，c₁和c₂是加速因子。

更新规则是对每个粒子，将其适应值与该粒子经过的最好位置

作比较，如果更优，则将其作为当前的最好位置

更新规则是对每个粒子，将其适应值与群体中粒子经过的最好位置

作比较，如果更优，则将其作为当前群体中粒子的最好位置

3-5)更换预设的基础预测模型，计算每个基础预测模型对应的种群最优解，利用集成算法ELGS整合多个基础预测模型种群最优解，得到种群基因组育种值；具体公式如下：

4)获得种群育种值估计准确度的具体方法为：

为固定效应向量。

5)通过步骤4)中得到的育种值估计准确度，对算法DEPSO的参数不断迭代更新，直至育种值估计准确度收敛不变，得到参数的最佳值。其步骤如下：

5-1)在步骤3-4)中随机值初始化DEPSO算法的缩放因子F，交叉概率P_Cr，惯性权重w以及加速因子c₁和c₂；通过后续计算得到育种值估计准确度；

5-2)通过计算得到育种值估计准确度不断迭代更新算法DEPSO的参数，直至育种值估计准确度收敛不变；以惯性权重w的迭代更新为例，w_i表示更新前的惯性权重，w_i+1表示更新后的惯性权重值，f表示育种值估计准确度函数值，α表示学习率(将学习率α设置为0.01)，那么就有：

5-3)参照步骤4-2)对DEPSO算法中缩放因子F，交叉概率P_Cr，惯性权重w以及加速因子c₁和c₂参数，不断迭代更新，直至育种值估计准确度收敛不变，得到参数的最佳值。

本发明中所涉及的算法中各个参数通过迭代更新，经过反复试验，不断优化，具体得出如下表1所示试验结果：

表1集成模型中参数的设定

其中M是种群的个体数，F是差分进化算法中的缩放因子，P_Cr是差分进化算法中的交叉概率，w是粒子群优化算法中的惯性权重，c₁和c₂是粒子群优化算法中的加速因子。

本发明中权重优化算法DEPSO的群体的维度D是基础预测模型的个数，可以根据实际情况进行调节，灵活性很强。

示例中重复100次交叉验证，并对模型的不同组合进行绘图，如图1所示：

集成算法中基于基础预测模型的不同组合，其基础预测模型之间的相关性越低，整合的效果就越好。此集成策略对于依赖性不强的模型组合很有益，这也为之后的基于传统统计学模型的基因组选择提供了借鉴。

实施例2：

试验数据1为使用R软件中BGLR包提供的小麦数据集，其中包含599个小麦品系。小麦数据集包括四种环境下的小麦产量，数据集有四个对象：wheat.Y、wheat.A、wheat.X和wheat.set。wheat.Y为小麦品系两年平均产量；wheat.A为同一家系的分子关系矩阵；wheat.X为DArT标记基因型，数据来源于纯种。对于DArT标记，一个等位基因由1或0编码，分别表示其存在或不存在。小麦集合表示10个彼此不相交的观察集合。

将所有的599个个体随机分成10份。在每次试验中，将其中1份作为测试群体，其余9份作为训练群体，执行交叉验证(cross-validation)。通过多个基础预测模型并行对训练群体进行迭代训练；然后对单个基础预测模型处理中，将所得snp位点的期望效应值代入测试群，通过将各个snp位点的期望效应值累加得到测试群体的估计基因组估计育种值GEBV，公式为

其中B为估计群个体的基因型矩阵，

为snp位点的期望效应值向量；对各个基础预测模型的输出作为输入来训练集成模型，以得到一个最终的输出作为集成模型的估计基因组育种值，最后计算基因组育种值与表型值或真实育种值的相关系数来获得估计准确度。

图1所示为集成模型和各个基础预测模型的效果比对图，在此示例中所采用的基础预测模型为GBLUP、BayesA、BayesB和BayesCπ，亦可使用多个基础模型预测，数量不受限制。

育种值估计准确度评价标准为测试群体中个体的预测值与表型值之间的相关系数，即。所得的相关系数值越高，即准确性越高，说明方法的预测能力越好。

示例中重复100次交叉验证，所得的相关系数如图2所示：

集成算法明显优于传统的统计模型方法GBLUP、BayesA、BayesB和BayesCπ。

集成计算方法的计算时间：集成算法的耗时主要是在权重优化上面，但是基于差分进化算法和粒子群优化算法收敛速度快的特点，使得集成算法速度上有明显的优势，平均在20s左右。

本发明的集成算法灵活性好，可以集成任意多个模型，且预测效果相对稳定，能明显改善预测精度。

因此，本发明的集成算法具有计算速度快，稳定性高，灵活性好，同时能够提高估计准确度的优点。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种种群的种用价值的判断方法，其特征在于，具体步骤如下：

3)选择基础预测模型，计算该基础预测模型对应的基因估计育种值：对步骤2)中位点处理后的个体进行随机分类，分为训练群体和测试群体，将训练群体和测试群体进行迭代交叉验证，利用训练群体的个体表型值与个体snp基因型通过选定的基础预测模型计算训练群体中个体的期望效应值，通过训练群体中个体的期望效应值计算测试群体中个体的基因组估计育种值GEBV；采用个体的基因组估计育种值GEBV，结合当前最优参数的DEPSO算法计算基础预测模型种群最优解；

4)更换预设的基础预测模型，采用当前基础预测模型计算出对应的基因组估计育种值GEBV；再结合当前最优参数的DEPSO算法计算的种群最优解，利用集成算法ELGS整合多个基础预测模型的种群最优解，得到种群基因组育种值；

5)计算种群基因组估计育种值的准确度：计算种群基因组估计育种值与采样得到的种群平均表型值或种群真实育种值的相关系数，获得种群育种值估计准确度；

6)优化集成模型：通过步骤5)中得到的种群育种值估计准确度，对每个基础预测模型的DEPSO算法参数不断迭代更新，若育种值估计准确度的收敛值大于预设值，则转向步骤3)，若育种值估计准确度的收敛值小于预设值，则输出当前种群基因组育种值；

步骤3)中选择基础预测模型，计算该基础预测模型对应的基因组估计育种值的具体步骤如下：

其中：B为估计群个体的基因型矩阵，

为snp位点的期望效应值向量；

其中：G_best为每次迭代更新中基于集成算法的全局最优解，

为每次迭代更新中基于差分进化算法的全局最优解，

2.如权利要求1所述的种群的种用价值的判断方法，其特征在于，步骤1)中测得每个个体的表型测定和基因组snp位点的步骤如下：

1-2)对每个个体进行表型测定。

3.如权利要求2所述的种群的种用价值的判断方法，其特征在于，步骤2)中对步骤1)中测得个体的基因组snp位点进行筛选，筛选出个体中满足要求的snp位点，并将筛选出的snp位点中缺失的snp位点进行补齐；补齐后的个体和满足要求不需要补齐的个体统称为合格个体，其步骤如下：

4.如权利要求1所述的种群的种用价值的判断方法，其特征在于，步骤4)中更换预设的基础预测模型，计算每个基础预测模型对应的种群最优解，利用集成算法ELGS整合多个基础预测模型种群最优解，得到种群基因组育种值的具体步骤如下：

4-2)采用集成算法ELGS中的加权平均法策略来整合多个预设的基础预测模型，以得到最终的输出：种群基因组育种值，具体公式如下：

5.如权利要求1所述的种群的种用价值的判断方法，其特征在于，步骤5中所述获得种群育种值估计准确度的具体方法为：

种群育种值估计准确度表示为种群基因组估计育种值与减去固定效应的表型值间的相关系数，种群育种值估计准确度为：

为固定效应向量。

6.如权利要求1所述的种群的种用价值的判断方法，其特征在于，步骤6)中优化集成模型的具体方法如下：

6-2)通过计算得到育种值估计准确度不断迭代更新算法DEPSO的参数，直至育种值估计准确度收敛不变；以惯性权重w的迭代更新为例，w_i表示更新前的惯性权重，w_i+1表示更新后的惯性权重值，f表示育种值估计准确度函数值，α表示学习率，将学习率α设置为0.01，那么就有：

惯性权重w利用公式(5)进行不断调整直至育种值估计准确度收敛不变；即得到惯性权重w的最佳值；

6-3)参照步骤4-2)对DEPSO算法中缩放因子F，交叉概率P_Cr，惯性权重w以及加速因子c₁和c₂参数，不断迭代更新，直至育种值估计准确度收敛不变，得到参数的最佳值。