CN109727641B - 一种全基因组预测方法及装置 - Google Patents

一种全基因组预测方法及装置 Download PDF

Info

Publication number
CN109727641B
CN109727641B CN201910060402.3A CN201910060402A CN109727641B CN 109727641 B CN109727641 B CN 109727641B CN 201910060402 A CN201910060402 A CN 201910060402A CN 109727641 B CN109727641 B CN 109727641B
Authority
CN
China
Prior art keywords
prediction
model
hybrids
hybrid
phenotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910060402.3A
Other languages
English (en)
Other versions
CN109727641A (zh
Inventor
邹继军
钟敬
傅军
林海艳
杨世超
杜海萧
赵国光
伊凡·舒斯特尔
王冰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.
CITIC cloud Network Co.,Ltd.
Longping Agricultural Development Co.,Ltd.
YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.
Original Assignee
Changsha Biobin Data Science Co ltd
Yuan Longping High Tech Agriculture Co ltd
Longping Agricultural Development Co ltd
CITIC Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Biobin Data Science Co ltd, Yuan Longping High Tech Agriculture Co ltd, Longping Agricultural Development Co ltd, CITIC Technology Development Co Ltd filed Critical Changsha Biobin Data Science Co ltd
Priority to CN201910060402.3A priority Critical patent/CN109727641B/zh
Publication of CN109727641A publication Critical patent/CN109727641A/zh
Application granted granted Critical
Publication of CN109727641B publication Critical patent/CN109727641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例提供一种全基因组预测方法和装置,所述方法包括获取待预测的杂交种的基因型数据;根据预先建立的联合预测模型中的多个预测模型和杂交种的基因型数据对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。利用本发明提供的预测方法可根据杂交种各分子标记上的基因型的效应,通过建立的多个模型对表型数据进行联合预测,推荐具有稳定高产潜力的杂交组合。

Description

一种全基因组预测方法及装置
技术领域
本发明实施例涉及育种技术领域,尤其涉及一种全基因组预测方法及装置。
背景技术
作物育种的主要目标是培育出比市场上现有品种具有更好表现的新品种。利用杂种优势的杂交育种可以培育出表现比亲本更加优良的杂交品种。如杂交水稻、杂交玉米等的推广应用增加粮食产量,为全球粮食安全的保障做出了贡献。
在杂交育种的过程中,需要通过杂交获得大量的杂交种,并在田间进行多轮多级筛选,然后进行多年多点的测试,最终获得尽可能符合人类预期的新品种。随机亲本的杂交后代的农艺性状表现具有一定程度的未知性和不确定性,因此杂交育种是一个结果充满未知,需要不断尝试的过程,运气也是一定程度上影响成功与否的一个因素。育种家们在以往的工作中已经收集、开发或积累了许多可用于杂交育种的自交系亲本。同时,双单倍体(DH)等新的生物技术为育种家开发新的育种亲本提供了便利。相较于以往收集并保存种质资源的做法,利用DH技术可在短时间内获得大量可用于二次杂交育种的纯合亲本。可以产生的组合数是一个关于亲本材料数的非线性增长函数,可用以下公式表示:
H=f(P)=P(P-1)/2
其中,H表示可能的杂交组合数,P表示亲本材料数。可以看出随着亲本数P的增加,可以进行杂交产生杂种的组合数H将会大幅增加,意味着可以产生更多的杂交种,进行田间筛选。然而,在育种实践过程中,无论在技术上还是在资源上,都不能允许对所有可能的杂交组合进行配组产生杂交种,并进行表型鉴定和筛选。育种家们可以根据其经验进行预判,选择一些可能具有高产潜力的组合进行育种实践。然而育种家的预判依赖于长期实践的经历积累,不同的育种家有不同的经历和不同的侧重点,其预判时所触及到的遗传因素可能不全面,可能会漏掉一些具有潜力的组合。因此,如何触及更全面的遗传因素,快速有效地对更多杂交组合后代可能的表型进行考量,成为亟需解决的问题。
玉米是世界上最重要的农作物之一,约有三分之一人口以玉米为主粮,其中亚洲人食物组成中玉米占50%以上,非洲占25%,拉丁美洲占40%。除开用作粮食以外,玉米主要被当作饲料加以使用。全球的玉米大约有65%~70%都用作饲料,发达国家高达80%,是畜牧业赖以发展的重要基础。另外,玉米籽粒是重要的工业加工原料,可加工生产两、三百种产品。提高产量可以更好地满足将玉米当作饲料、工业原料进行使用的需求。因此,对产量的追求是玉米育种的重要目标。
全基因组选择,或基因组选择,是近来根据全基因组的分子标记推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型数据和表型数据进行考察,建立模型评估每个标记对表型数据的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合。
在实际应用中,存在多种可用于构建全基因组预测的模型的方法,例如RRBLUP、随机森林、自动机器学习等。在本发明的实施例中,利用对巴西四个不同区域的玉米杂交种的产量数据和推测的基因数据,分别进行建模,并对各个模型的比较,发现四个模型在四个指标上的表现有明显的差异,图1a和图1b分别为产量和水份的比较结果示意图,通过图1a和图1b所示的各指标的均值可粗略判断:
各模型对产量进行预测的表现评价为:
随机森林≈RRBlup.dominant>RRBLUP>自动机器学习;
各模型对水份进行预测的表现评价为:
RRBLUP>随机森林>RRBlup.dominant>自动机器学习;
其中:
RRBLUP:仅考虑加性线性回归模型的RRBLUP模型;
RRBlup.dominant:考虑显性效应的RRBLUP模型;
因此,难以选择出一个适应所有区域或各类表型预测的最佳模型。另外,图1a和图1b中离群点的存在表明单一模型在产量预测时结果不够稳定,在实际应用中存在一定的风险。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种全基因组预测方法及装置。
第一方面,本发明实施例提供一种全基因组预测方法,包括:
获取待预测的杂交种的基因型数据;
根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。
第二方面,本发明实施例提供一种全基因组预测装置,包括:
获取模块,用于获取待预测的杂交种的基因型数据;
预测模块,用于根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
确定模块,用于结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。
本发明实施例提供的全基因组预测方法及装置,通过建立多个预测模型对杂交种的表型数据进行预测,然后根据田间试验规模,根据各个模型的表型数据预测结果,确定多个模型表型数据均最优的杂交组合,为育种实践推荐具有潜力的候选杂交组合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为现有技术中利用单一模型的产量预测对比图;
图1b为现有技术中利用单一模型的水份预测对比图;
图2为本发明实施例提供的全基因组预测方法的流程示意图;
图3为本发明实施例提供的多模型联合预测的示意图;
图4为本发明实施例提供的通过对杂交种表型数据预测值和观测值进行比较,以对各模型在玉米表型数据预测中的表现进行评估的示意图;
图5为本发明实施例提供的联合预测模型和单一模型的效果对比示意图;
图6为本发明实施例提供的联合预测模型和单一模型的数据对比图;
图7为本发明实施例提供的全基因组预测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2为本发明实施例提供的全基因组预测方法的流程示意图,如图2所示,所述方法包括:
S101、获取待预测的杂交种的基因型数据;
S102、根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
S103、结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。
在过去的育种工作中,开发了许多预测杂交种表现的方法。一种常用的方法是根据配组亲本间的系谱估计亲缘关系的远近,从而推荐杂交组合。
全基因组选择,或基因组选择,是近来综合考虑全基因组的分子标记推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型和表型进行考察,建立模型评估每个标记对表型的效应,然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测。不同的全基因组预测方法有各自的侧重点,难以找到一种针对不同区域/群体/性状等各方面均为最优方法,而且单一方法在预测时结果不够稳定,可能出现预测准确度在不同的场景中表现不一样的情况,对育种实践产生较大的影响。
本发明实施例提供一种联合多种预测模型对玉米表型数据进行全基因组选择的方法,通过多种全基因组预测方法分别建立模型,并对待预测杂交种的表型数据进行预测,再挑选出多种方法均预测表型数据较高的杂交组合,为育种实践推荐具有稳定高产潜力的候选杂交组合。
本发明实施例提供的全基因组预测方法,通过建立多个预测模型对杂交种的表型数据进行预测,然后根据田间试验规模,根据各个模型的表型数据预测结果,确定多个模型表型数据均最优的杂交组合,为育种实践推荐具有稳定高产潜力的候选杂交组合。
可选地,所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。
可选地,所述联合预测模型中的多个预测模型至少包括RRBLUP模型、随机森林模型和自动机器学习建立的模型。
其中,联合预测模型包括上述提到的模型,但不限于RRBLUP模型、随机森林模型和自动机器学习模型。
图3为本发明实施例提供的联合预测模型的结构示意图,如图3所示,为了定位出高产概率最高的杂交组合,对多个模型分别进行预测,并挑选出各自的高产组合,然后将多个模型的高产组合取交集,得到联合预测模型得到的预测结果。
本发明实施例提供了4个模型的联合预测模型(Mix.4Models),至少包括RRBLUP模型、RRBLUPdominant模型、随机森林模型和自动机器学习模型。
可选地,所述随机森林模型具体为:
Figure GDA0002708765370000051
其中:x表示第x个杂交组合,Ψb表示第b次抽取标记位点子集进行预测,T(x,Ψb)表示用Ψb对第x个杂交组合表型进行预测的结果,
Figure GDA0002708765370000061
表示对第x个杂交组合表型进行预测的输出结果。
可选地,所述自动机器学习模型采用利用自动机器学习AutoML框架下的工具H2O,执行自动机器学习流程,自动选择最优的方法和参数,构建对表型数据进行预测的全基因组选择模型。
具体地,所示自动机器学习模型为AutoML Oneclick.ai。
可选地,所述RRBLUP模型具体为:
Y=Xb+Wm+e;
其中:
Y是训练群体中各杂种的表型向量;
X是长度等于训练群体中各杂种数目,元素值均为1的向量;
b是计算出的固定效应,即训练群体中各杂种的表型平均值;
W是对基因型进行编码得到的关联矩阵;
m是根据模型估算出的分子标记效应向量;e是残余误差。
其中,所述RRBLUP模型中b和m关系为:
Figure GDA0002708765370000062
其中:
X长度等于训练群体中各杂种数目,元素值均为1的向量;
X'是将X转置后的得到的向量;
W是对基因型进行编码得到的关联矩阵;
W'是将W转置后的得到的向量;
I为单位矩阵;
ha2是目标性状的狭义遗传力,即加性遗传效应所能解释的表型方差的比例;在本发明所述实施例中,是通过方差分析计算得到的广义遗传力,位点被当作是完全随机区组实验中的小区(或重复),用PMS表示总表型方差,用TMS表示测试点方差,广义遗传力可用以下公式进行计算:
h2=[(PMS-TMS)/r]/PMS
n为模型中考虑的遗传位点数;
pi为第i个遗传位点上一种基因型的频率;
qj为第j个遗传位点上另一种基因型的频率。
分子标记各基因型组合所代表的基因组对表型的遗传贡献值可用以下公式进行计算:
Figure GDA0002708765370000071
其中,wij表示第j个个体中第i个分子标记根据基因型编码后在相关矩阵中的值,
Figure GDA0002708765370000072
表示第i个分子标记的效应值。
可选地,所述结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合,具体步骤为:
利用所述预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述待预测的杂交种的表型数据进行预测,得到多个预测模型的表型数据预测结果;
根据田间试验规模,选择各个预测模型的表型数据预测结果中较优的杂交组合;
将各个模型的较优的杂交组合取交集,得到经过联合预测模型预测的最优杂交组合。
可选地,所述方法还包括:对所述联合预测模型及联合预测模型中的多个预测模型进行评估,具体为对所述模型预测结果和真实结果的相关系数的平方、召回率、准确率和提升度进行评估。
在上述实施例的基础上,在执行预测方法之前,还需要对联合预测模型中的各个单一模型以及联合预测模型的表现进行评估。进而利用模型,根据训练群体和测试群体中杂交种的基因型数据,对杂交种的表型进行预测,然后将观察到的结果与真实观测值进行比较。训练群体中杂交种预测值和观测值的比较结果,可以评价模型的预测能力。在比较结果中,通过以下一个或多个指标对模型的表现进行了评估:
1)相关系数的平方(R2);
2)召回率(Recall Rate);
3)准确率(Precision);
4)提升度(Improvement)。
通过图4中的示例来解释这些对模型评估的指标。一个点代表一个杂交种,横坐标为预测值,纵坐标为观测值。垂直线代表基因组选择的阈值,垂直线右侧的数据点为50%,是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例。水平线代表田间表型筛选的阈值,水平线以上的数据点为10%,是育种家在田间筛选出来杂交种占田间种植的杂交种的比例。两条直线将图中区域分成四个部分:
右上角的第一象限区域中的杂交种表示在基因组选择和表型选择中均被保留的杂交种;
左上角的第二象限区域中的杂交种表示在基因组选择没有被保留,但在表型选择中被保留的杂交种;
左下角的第三象限区域中的杂交种表示在基因组选择和表型选择中均没有被保留的杂交种;
右下角的第四象限区域中的杂交种表示在基因组选择中被保留,但在表型选择中没有被保留的杂交种。
具体地,3.1)R2:预测值与观测值相关系数的平方,计算方式如下
Figure GDA0002708765370000081
其中,y为观测值,
Figure GDA0002708765370000082
为预测值。
3.2)召回率:位于第一象限的杂交种占第一二象限杂交种的百分比,计算方式如下:
Figure GDA0002708765370000083
其中,Q1为位于第一象限的杂交种的数目,Q2为第二象限的杂交种的数目。
3.3)准确率:位于第一象限的杂交种占第一四象限杂交种的百分比,计算方式如下:
Figure GDA0002708765370000084
其中,Q1为位于第一象限的杂交种的数目,Q4为第四象限的杂交种的数目。
3.4)提升度:这是与没有用到预测模型时的一个相对指标。在没有模型的情况下,育种家会随机(或根据自己的经验)选择一些组合,对亲本进行杂交。获得杂交种在田间种植,根据表型进行筛选。假设育种家的资源可以鉴定50K杂交组合,最终保留10%的话,可以得到5K杂交组合。在有模型的情况下,当基因组选择的阈值为50%(垂直线右边的比例)时,在同样可用于田间考察资源时,为了获的50K个推荐的杂交组合,可对100K个杂交组合的表型进行预测。相当于在计算机里面对100K个杂交组合进行了初级筛选,对应于没有模型进行表型筛选保留10%的比例,相当于10K杂交组合。假设召回率(第一象限杂交种占第一、二象限杂交种的百分比)为70%,相当于在基因组选择和表型选择中均被保留的杂交种为7K。相比于没有模型同样种植50K杂交种,选择保留10%(5K)杂交种的情况下,可以多获得2K的杂交种,由此得到的提升度(所选杂交组合的增量比例)的计算方式如下:
Figure GDA0002708765370000091
其中,M为运用预测模型最终筛选出来的杂交组合,B为没有运用预测模型的情况下最终选择出来的组合。在上述所列举的示例种,提升度为:(7K-5K)/5K=40%。
本发明实施例提供的全基因组预测方法,首先对一些杂交种的基因型和表型进行考察,建立联合预测模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合,提高了预测的准确性。
图5和图6为本发明实施例提供的一具体实施例的具体说明:对巴西四个区域玉米初级试验数据进行分析:
1)四个模型预测值临界点取最高的50%,观察值最高的10%;联合预测模型取四个模型的交集:
在15个验证集上,分别对Mix.4Models模型的预测效果与单一模型进行对比,考察Precision指标。
表型数据分析:在15个验证集中,有11个验证集的Precision指标得到了明显提升。单一模型平均Precision为12.5%,Mix.4Models上升到17.9%,上升效果明显。
水份分析:在15个验证集中,有11个验证集的Precision指标得到了明显提升。单一模型平均Precision为16.1%,Mix.4Models上升到22.7%,上升效果明显。
利用本发明实施例提供的技术方案,利用联合预测模型进行预测,比单一模型预测,可提高预测的准确度。
图7为本发明实施例提供的全基因组预测装置的结构示意图,如图7所示,所述装置包括:获取模块10、预测模块20和确定模块30,其中:
获取模块10用于获取待预测的杂交种的基因型数据;
预测模块20用于根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
确定模块30用于结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合。
可选地,所述联合预测模型中的多个预测模型至少包括RRBLUP模型、随机森林模型和自动机器学习建立的模型。
本发明实施例提供的全基因组预测装置,首先对一些杂交种的基因型和表型进行考察,建立多个预测模型评估每个标记对表型的效应,然后根据亲本基因型推算杂交种基因型,分别利用各个模型、综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有稳定高产潜力的杂交组合,再挑选出多种方法均预测表型数据较高的杂交组合,提高了预测的准确度,能更有效地为育种实践推荐具有稳定高产潜力的候选杂交组合。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要确定其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种全基因组预测方法,其特征在于,包括:
获取待预测的杂交种的基因型数据;
根据预先建立的联合预测模型中的多个预测模型和杂交种的基因型数据对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合;
所述联合预测模型中的多个预测模型至少包括RRBLUP模型、随机森林模型和自动机器学习建立的模型;
所述自动机器学习模型利用自动机器学习AutoML框架下的工具H2O,执行自动机器学习流程中的贝叶斯超参数优化和深度神经网络搜索算法,构建对表型数据进行预测的全基因组选择模型;
所述结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合,具体步骤为:
利用所述预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述待预测杂交种的表型数据进行预测,得到多个预测模型的表型数据预测结果;
根据田间试验规模,选择各个预测模型的表型数据预测结果中较优的杂交组合;
将各个模型的较优的杂交组合取交集,得到经过联合预测模型预测的最优杂交组合;
所述方法还包括:
对所述联合预测模型及联合预测模型中的多个预测模型进行评估,具体为对所述模型预测结果和真实结果的相关系数的平方、召回率、准确率和提升度进行评估;
建立图形对杂交种表型数据预测值和观测值进行比较,以对联合预测模型及联合预测模型中的多个预测模型在表型数据预测中的表现进行评估,其中,所述图形中,横坐标为预测值,纵坐标为观测值,一个点代表一个杂交种,垂直线代表基因组选择的阈值,是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例,水平线代表田间表型筛选的阈值,是育种家在田间筛选出来杂交种占田间种植的杂交种的比例,所述垂直线和所述水平线将所述图形的区域分成四个部分,右上角的第一象限区域中的杂交种表示在基因组选择和表型选择中均被保留的杂交种,左上角的第二象限区域中的杂交种表示在基因组选择没有被保留,但在表型选择中被保留的杂交种;左下角的第三象限区域中的杂交种表示在基因组选择和表型选择中均没有被保留的杂交种;右下角的第四象限区域中的杂交种表示在基因组选择中被保留,但在表型选择中没有被保留的杂交种;
进一步地,所述模型预测结果和真实结果的相关系数的平方的计算方式如下:
Figure FDA0002708765360000021
其中,y为观测值,
Figure FDA0002708765360000022
为预测值;
召回率的计算方式如下:
Figure FDA0002708765360000023
其中,Q1为位于第一象限的杂交种的数目,Q2为第二象限的杂交种的数目;
准确率的计算方式如下:
Figure FDA0002708765360000024
其中,Q1为位于第一象限的杂交种的数目,Q4为第四象限的杂交种的数目;
提升度的计算方式如下:
Figure FDA0002708765360000031
其中,M为运用预测模型最终筛选出来的杂交组合,B为没有运用预测模型的情况下最终选择出来的组合;
其中,基因组选择是指根据模型的预测结果对杂交种进行选择;表型选择是指根据杂交种在田间的表型数据对杂交种进行选择。
2.根据权利要求1所述的方法,其特征在于,所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。
3.根据权利要求1所述的方法,其特征在于,所述随机森林模型具体为:
Figure FDA0002708765360000032
其中:x表示第x个杂交组合,Ψb表示第b次抽取标记位点子集进行预测,T(x,Ψb)表示用Ψb对第x个杂交组合表型进行预测的结果,
Figure FDA0002708765360000033
表示对第x个杂交组合表型进行预测的输出结果。
4.根据权利要求1所述的方法,其特征在于,所述RRBLUP模型具体为:
Y=Xb+Wm+e;
其中:
Y是训练群体中各杂种的表型向量;
X是长度等于训练群体中各杂种数目,元素值均为1的向量;
W是对基因型进行编码得到的关联矩阵;
m是根据模型估算出的分子标记效应向量;
b是计算出的固定效应,即训练群体中各杂种的表型平均值;
e是残余误差。
5.一种全基因组预测装置,其特征在于,包括:
获取模块,用于获取待预测的杂交种的基因型数据;
预测模块,用于根据预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述杂交种的表型数据分别进行预测,得到各个预测模型的表型数据预测结果;
确定模块,用于结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合;
所述联合预测模型中的多个预测模型至少包括RRBLUP模型、随机森林模型和自动机器学习建立的模型;
所述自动机器学习模型利用自动机器学习AutoML框架下的工具H2O,执行自动机器学习流程中的贝叶斯超参数优化和深度神经网络搜索算法,构建对表型数据进行预测的全基因组选择模型;
所述结合育种资源和规模,根据所述各个预测模型的表型数据预测结果,确定多个预测模型表型数据预测结果均最优的杂交组合,具体步骤为:
利用所述预先建立的联合预测模型中的多个预测模型和待预测杂交种的基因型数据,对所述待预测杂交种的表型数据进行预测,得到多个预测模型的表型数据预测结果;
根据田间试验规模,选择各个预测模型的表型数据预测结果中较优的杂交组合;
将各个模型的较优的杂交组合取交集,得到经过联合预测模型预测的最优杂交组合;
所述方法还包括:
对所述联合预测模型及联合预测模型中的多个预测模型进行评估,具体为对所述模型预测结果和真实结果的相关系数的平方、召回率、准确率和提升度进行评估;
建立图形对杂交种表型数据预测值和观测值进行比较,以对联合预测模型及联合预测模型中的多个预测模型在表型数据预测中的表现进行评估,其中,所述图形中,横坐标为预测值,纵坐标为观测值,一个点代表一个杂交种,垂直线代表基因组选择的阈值,是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例,水平线代表田间表型筛选的阈值,是育种家在田间筛选出来杂交种占田间种植的杂交种的比例,所述垂直线和所述水平线将图中区域分成四个部分,右上角的第一象限区域中的杂交种表示在基因组选择和表型选择中均被保留的杂交种,左上角的第二象限区域中的杂交种表示在基因组选择没有被保留,但在表型选择中被保留的杂交种;左下角的第三象限区域中的杂交种表示在基因组选择和表型选择中均没有被保留的杂交种;右下角的第四象限区域中的杂交种表示在基因组选择中被保留,但在表型选择中没有被保留的杂交种;
进一步地,所述模型预测结果和真实结果的相关系数的平方的计算方式如下:
Figure FDA0002708765360000051
其中,y为观测值,
Figure FDA0002708765360000052
为预测值;
召回率的计算方式如下:
Figure FDA0002708765360000053
其中,Q1为位于第一象限的杂交种的数目,Q2为第二象限的杂交种的数目;
准确率的计算方式如下:
Figure FDA0002708765360000054
其中,Q1为位于第一象限的杂交种的数目,Q4为第四象限的杂交种的数目;
提升度的计算方式如下:
Figure FDA0002708765360000055
其中,M为运用预测模型最终筛选出来的杂交组合,B为没有运用预测模型的情况下最终选择出来的组合;
其中,基因组选择是指根据模型的预测结果对杂交种进行选择;表型选择是指根据杂交种在田间的表型数据对杂交种进行选择。
CN201910060402.3A 2019-01-22 2019-01-22 一种全基因组预测方法及装置 Active CN109727641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910060402.3A CN109727641B (zh) 2019-01-22 2019-01-22 一种全基因组预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910060402.3A CN109727641B (zh) 2019-01-22 2019-01-22 一种全基因组预测方法及装置

Publications (2)

Publication Number Publication Date
CN109727641A CN109727641A (zh) 2019-05-07
CN109727641B true CN109727641B (zh) 2021-03-23

Family

ID=66299843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910060402.3A Active CN109727641B (zh) 2019-01-22 2019-01-22 一种全基因组预测方法及装置

Country Status (1)

Country Link
CN (1) CN109727641B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111223520B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草尼古丁含量的全基因组选择模型及其应用
CN110782943B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草株高的全基因组选择模型及其应用
CN110853710B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草淀粉含量的全基因组选择模型及其应用
CN111210868B (zh) * 2020-02-17 2024-02-06 沈阳农业大学 玉米关联群体中气生根全基因组选择潜力分析方法
CN116959585B (zh) * 2023-09-21 2023-12-12 中国农业科学院作物科学研究所 基于深度学习的全基因组预测方法
CN117238363B (zh) * 2023-10-25 2024-04-16 青岛极智医学检验实验室有限公司 一种表型预测方法、预测系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107419000A (zh) * 2016-05-24 2017-12-01 中国农业科学院作物科学研究所 一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用
CN109101786A (zh) * 2018-08-29 2018-12-28 广东省农业科学院动物科学研究所 一种整合显性效应的基因组育种值估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN107278877B (zh) * 2017-07-25 2019-10-22 山东省农业科学院玉米研究所 一种玉米出籽率的全基因组选择育种方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107419000A (zh) * 2016-05-24 2017-12-01 中国农业科学院作物科学研究所 一种基于单倍型取样预测大豆农艺性状表型的全基因选择方法及其应用
CN109101786A (zh) * 2018-08-29 2018-12-28 广东省农业科学院动物科学研究所 一种整合显性效应的基因组育种值估计方法

Also Published As

Publication number Publication date
CN109727641A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109727641B (zh) 一种全基因组预测方法及装置
CN109727640B (zh) 基于自动机器学习技术的全基因组预测方法及装置
EP3326093B1 (en) Improved computer implemented method for predicting true agronomical value of a plant
US8321147B2 (en) Statistical approach for optimal use of genetic information collected on historical pedigrees, genotyped with dense marker maps, into routine pedigree analysis of active maize breeding populations
AU2011261447B2 (en) Methods and compositions for predicting unobserved phenotypes (PUP)
Carillier-Jacquin et al. Including α s1 casein gene information in genomic evaluations of French dairy goats
CN109741789B (zh) 一种基于rrblup的全基因组预测方法和装置
CN109727642B (zh) 基于随机森林模型的全基因组预测方法及装置
Wilson et al. Understanding the effectiveness of genomic prediction in tetraploid potato
Wolfe et al. Genomic mating in outbred species: predicting cross usefulness with additive and total genetic covariance matrices
Cooper et al. The E (NK) model: Extending the NK model to incorporate gene‐by‐environment interactions and epistasis for diploid genomes
Guillaume et al. Estimation by simulation of the efficiency of the French marker-assisted selection program in dairy cattle (Open Access publication)
Azevedo et al. Using visual scores for genomic prediction of complex traits in breeding programs
Rahim et al. Genomic selection in cereal crops: methods and applications
Li et al. Genomic selection to optimize doubled haploid-based hybrid breeding in maize
CN108470112A (zh) 新配杂交组合表型的预测方法
Yadav et al. Optimising clonal performance in sugarcane: leveraging non-additive effects via mate-allocation strategies
US20100269216A1 (en) Network population mapping
Ye et al. Designing an optimal marker-based pedigree selection strategy for parent building in barley in the presence of repulsion linkage, using computer simulation
WO2024020441A1 (en) Artificial intelligence-guided marker assisted selection
Thorwarth Genomic prediction in crops: advantages and drawbacks
Chan et al. Sexual dimorphism and the effect of wild introgressions on recombination in Manihot esculenta
DAANS et al. PROJECT REPORT: HIDDEN MARKOV MODEL TO ANALYZE GENETICS IN POTATO CULTIVATION
Vourlaki Detecting signals of polygenic variability in domestication and in breeding
Selle Novel statistical variance and dependency models in quantitative genetics: Enabled by recent inference methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210113

Address after: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Applicant after: Longping Agricultural Development Co.,Ltd.

Applicant after: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Applicant after: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Applicant after: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

Address before: 410001 no.638 Heping Road, Furong district, Changsha City, Hunan Province

Applicant before: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Applicant before: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Applicant before: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zou Jijun

Inventor after: Zhong Jing

Inventor after: Fu Jun

Inventor after: Lin Haiyan

Inventor after: Yang Shichao

Inventor after: Du Haixiao

Inventor after: Zhao Guoguang

Inventor after: Ivan Schuster

Inventor after: Wang Bingbing

Inventor before: Zou Jijun

Inventor before: Zhong Jing

Inventor before: Fu Jun

Inventor before: Lin Haiyan

Inventor before: Yang Shichao

Inventor before: Du Haixiao

Inventor before: Zhao Guoguang

Inventor before: Ivan Schuster

Inventor before: Wang Bingbing

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211230

Address after: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Patentee after: Longping Agricultural Development Co.,Ltd.

Patentee after: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Patentee after: CITIC cloud Network Co.,Ltd.

Patentee after: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

Address before: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Patentee before: Longping Agricultural Development Co.,Ltd.

Patentee before: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Patentee before: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Patentee before: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.