CN109741789A - 一种基于rrblup的全基因组预测方法和装置 - Google Patents

一种基于rrblup的全基因组预测方法和装置 Download PDF

Info

Publication number
CN109741789A
CN109741789A CN201910059597.XA CN201910059597A CN109741789A CN 109741789 A CN109741789 A CN 109741789A CN 201910059597 A CN201910059597 A CN 201910059597A CN 109741789 A CN109741789 A CN 109741789A
Authority
CN
China
Prior art keywords
data
rrblup
genotype
cenospecies
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910059597.XA
Other languages
English (en)
Other versions
CN109741789B (zh
Inventor
邹继军
林海艳
钟敬
傅军
杨世超
杨益民
黄喆
杜海萧
李可
伊凡·舒斯特尔
王冰冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.
CITIC cloud Network Co.,Ltd.
Longping Agricultural Development Co.,Ltd.
YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.
Original Assignee
Changsha Baiaoyun Data Technology Co Ltd
YUAN LONGPING HIGH-TECH AGRICULTURE Co Ltd
CITIC Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Baiaoyun Data Technology Co Ltd, YUAN LONGPING HIGH-TECH AGRICULTURE Co Ltd, CITIC Technology Development Co Ltd filed Critical Changsha Baiaoyun Data Technology Co Ltd
Priority to CN201910059597.XA priority Critical patent/CN109741789B/zh
Publication of CN109741789A publication Critical patent/CN109741789A/zh
Application granted granted Critical
Publication of CN109741789B publication Critical patent/CN109741789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例提供一种基于RRBLUP的全基因组预测方法和装置,所述方法包括:获取待预测的杂交种的基因型数据;根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。利用本发明提供的方法可根据亲本基因型推测杂种的基因型,从而对其表型数据进行预测,进而推荐具有高产潜力的杂交组合。

Description

一种基于RRBLUP的全基因组预测方法和装置
技术领域
本发明实施例涉及育种技术领域,尤其涉及一种基于RRBLUP的全基因组预测方法和装置。
背景技术
作物育种的主要目标是培育出比市场上现有品种具有更好表现的新品种。利用杂种优势的杂交育种可以培育出表现比亲本更加优良的杂交品种。如杂交水稻、杂交玉米等的推广应用增加了粮食产量,为全球粮食安全的保障做出了贡献。
在杂交育种的过程中,需要通过杂交获得大量的杂交种,并在田间进行多轮多级筛选,然后进行多年多点的测试,最终获得尽可能符合人们预期的新品种。随机亲本的杂交后代的农艺性状表现具有一定程度的未知性和不确定性,因此杂交育种是一个结果充满未知,需要不断尝试的过程,运气也是一定程度上影响成功与否的一个因素。育种家们在以往的工作中已经收集、开发或积累了许多可用于杂交育种的自交系亲本。同时,双单倍体(DH)等新的生物技术为育种家开发新的育种亲本提供了便利。相较于以往收集并保存种质资源的做法,利用DH技术可在短时间内获得大量可用于二次杂交育种的纯合亲本。可以产生的组合数是一个关于亲本材料数的非线性增长函数,可用以下公式表示:
H=f(P)=P(P-1)/2
其中,H表示可能的杂交组合数,P表示亲本材料数。可以看出随着亲本数P的增加,可以进行杂交产生杂种的组合数H将会大幅增加,意味着可以产生更多的杂交种,进行田间筛选。然而,在育种实践过程中,无论在技术上还是在资源上,都不能允许对所有可能的杂交组合进行配组产生杂交种,并进行表型鉴定和筛选。育种家们可以根据其经验进行预判,选择一些可能具有高产潜力的组合进行育种实践。然而育种家的预判依赖于长期实践的经历积累,不同的育种家有不同的经历和不同的侧重点,其预判时所触及到的遗传因素可能不全面,可能会漏掉一些具有高产潜力的组合。因此,如何触及更全面的遗传因素,快速有效地对更多杂交组合后代可能的表型进行考量,成为亟需解决的问题。
玉米是世界上最重要的农作物之一,约有三分之一人口以玉米为主要食粮,其中亚洲人食物组成中玉米占50%以上,非洲占25%,拉丁美洲占 40%。除开用作食粮以外,玉米主要被当作饲料加以使用。全球的玉米大约有65%~70%都用作饲料,发达国家高达80%,是畜牧业赖以发展的重要基础。另外,玉米籽粒是重要的工业加工原料,可加工生产两、三百种产品。提高产量可以更好地满足将玉米当作饲料、工业原料进行使用的需求。因此,对产量的追求是玉米育种的重要目标。
发明内容
针对现有技术中存在的技术问题,本发明实施例提供一种基于RRBLUP 的全基因组预测方法和装置。
第一方面,本发明实施例提供一种基于RRBLUP的全基因组预测方法,包括:
获取待预测的杂交种的基因型数据;
根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;
结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
第二方面,本发明实施例提供一种基于RRBLUP的全基因组预测装置,包括:
获取模块,用于获取待预测的杂交种的基因型数据;
预测模块,用于根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;
确定模块,用于结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
本发明实施例提供的基于RRBLUP的全基因组预测方法和装置,首先对一些杂交种的基因型数据和表型数据进行考察,建立模型评估每个标记对表型数据的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于RRBLUP的全基因组预测方法的流程示意图;
图2为本发明实施例提供的对基因型数据进行编码时所使用规则的示意图;
图3为本发明实施例提供的对杂交种产量的预测值和真实观测值进行比较和评估的示意图;
图4a-4h为本发明实施例提供的利用巴西冬玉米区各生态区构建的产量和水分预测模型对杂交种产量的预测值和真实观测值进行比较,从而评估模型表现的示意图;
图5为本发明实施例提供的基于RRBLUP的全基因组预测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的基于RRBLUP的全基因组预测方法的流程示意图,如图1所示,所述方法包括:
S101、获取待预测的杂交种的基因型数据;
S102、根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;
S103、结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
在过去的育种工作中,开发了许多预测杂交种表现的方法。一种常用的方法是根据配组亲本间得多态性的分子标记估计亲缘关系的远近,从而推荐杂交组合。
全基因组选择,或基因组选择,是近来综合考虑全基因组分子标记推荐最具潜力的候选配组的一种分子标记辅助选择的方法。基因组选择首先对一些杂交种(训练集)的基因型和表型进行考察,综合评估各标记对表型的影响效应,获得预测模型。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
具体地,本发明实施例以玉米作物为例,根据玉米自交系亲本(或DH 系亲本)纯合基因型推测杂交后代基因型;使用本发明实施例提供的编码方法对基因型数据进行编码,结合玉米产量数据,构建基于RRBLUP的产量预测模型;根据预测模型和推测得到的基因型,对可能的杂交组合后代的产量进行预测;结合育种资源和规模,根据产量预测结果,为育种实践推荐具有高产潜力的候选杂交组合。
同时,也可以对水分采用RRBLUP进行预测。
本发明实施例提供的基于RRBLUP的全基因组预测方法,首先对一些杂交种的基因型和表型进行考察,建立模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
可选地,所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。
在上述实施例的基础上,所述待预测的杂交种的基因型数据需要选择父本群体(M)和母本群体(F),并将父本与母本两两组合,并推算出其杂交种的基因型数据(m*f个组合)。
可选地,所述RRBLUP模型使用场景和步骤为:
获取用于建模的群体中的杂交种的表型数据和基因型数据并进行处理;
具体的,对在巴西冬玉米(Safrinha)生长区的不同适应区(东部地区、西部地区、东南部地区、西南部地区)的杂交种的表型数据进行处理;
通过处理后的数据,利用RRBLUP算法,对分子标记的效应进行估计,从而得到预测模型。
在上述实施例的基础上,在进行执行全基因组预测之前,需要先建立 RRBLUP预测模型,在挑选的用于建模的样本集中,可分为训练集和测试集,即对建模数据通过随机抽样的方式分为训练集和测试集,一般情况下,训练集包含80%样本,测试集包含20%样本,样本比例可结合数据实际情况进行调整。
在对样本集中的数据进行处理后,对RRBLUP算法中的参数进行修订改进,得的适合本发明实施例的RRBLUP预测模型。
本发明实施例提供了一种基于覆盖全基因组分子标记的效应对产量和水分进行预测的方法及模型,该模型快捷、简单,并有效提高了预测准确度。
具体地,在上述实施例的基础上,在RRBLUP中,分子标记的效应没有被处理成分类变量,而是被处理成解释说明性变量。通过这种方式,每个分子标记当作一个回归变量,对所有的分子标记进行编码得到一个相关矩阵。 RRBLUP模型可以通过以下公式来描述:
可选地,所述RRBLUP算法为:
Y=Xb+Wm+e;
其中:
Y是训练群体中各杂种的表型向量;
X是长度等于训练群体中各杂种数目,元素值均为1的向量;
b是计算出的固定效应,即训练群体中各杂种的表型平均值;
W是对基因型进行编码得到的关联矩阵;
m是根据模型估算出的分子标记效应向量;
e是残余误差。
可选地,上述模型中b和m的估计值可通过线性代数预算求解以下方程得到:
其中:
X长度等于训练群体中各杂种数目,元素值均为1的向量;
X'是将X转置后的得到的向量;
W是对基因型进行编码得到的关联矩阵;
W'是将W转置后得到的向量;
I为单位矩阵;
ha2是目标性状的狭义遗传力,即加性遗传效应所能解释的表型方差比例;
在本发明实施例中,是通过方差分析计算得到的广义遗传力,位点被当作是完全随机区组实验中的小区(或重复),用PMS表示总表型方差,用 TMS表示测试点方差,广义遗传力可用以下公式进行计算:
h2=[(PMS-TMS)/r]/PMS;
n为模型中考虑的遗传位点数;
pi为第i个遗传位点上一种基因型的频率;
qj为第j个遗传位点上另一种基因型的频率。
分子标记个基因型组合所代表的基因组对表型的遗传贡献值可用以下公式进行计算:
其中,wij表示第j个个体中第i个分子标记根据基因型编码后在相关举证中的值,表示第i个分子标记的效应值。
可选地,所述对训练群体中的杂交种的表型数据和基因型数据处理具体为:
对所述训练群体中的杂交种的表型数据和基因型数据进行清洗;
对所述清洗后的数据进行编码。
在上述实施例的基础上,对所述样本集中的基因型数据和表型数据进行处理,具体为:
1)数据准备:用于建模的数据需包括杂交种的基因型数据和表型数据:
1.1)基因型数据可以由杂交种父母本的基因型数据推算得出;
1.2)表型数据需要通过田间试验获取到需要预测的表型数据,如产量、水分;
2)数据清洗:对上述数据进行数据清洗,剔除部分无效数据:
2.1)移除单态性的分子标记;
2.2)移除在30%以上的杂交种中都缺失数据的分子标记位点。
2.3)移除在10%以上的分子标记位点中都缺失基因型数据的杂交种。
3)数据编码:对数据中的基因型数据进行编码,使之由字符型数据转化为数值型数据。
可选地,所述对所述清洗后的数据进行编码包括加性线性回归模型编码方式和将非加性效应整合到所述预测模型中的编码方式。
在上述各个实施例的基础上,对数据中的基因型数据进行编码,使之由字符型数据转化为数值型数据,有两种编码方式:
3.1)加性线性回归模型,编码规则如下:如图2所示。
3.2)除了加性线性回归模型,将非加性效应,如显性效应整合到模型中,有可能进一步提高模型的预测准确性。遗传学上的显性效应描述的是同一基因位点上的不同等位基因之间的关系,在这种关系中,一个等位基因的效应会不同程度地掩盖了同一位点上的另一个等位基因的效应。基于RRBLUP模型,本发明实施例对基因编码策略进行了调整,以将显性效应整合到模型中去。
在对基因型进行编码的过程中,针对每个训练集,每个基因标记位点都根据其基因型和表型数据,动态确定基因型编码规则。对于确定的标记位点,根据标记位点的基因型对杂种进行分组,并计算每个分组的产量平均值。对于纯合子基因型,平均值较高组对应的基因型编码为“1”,平均值较低组对应的基因型编码为“-1”。对于杂合子基因型,按以下公式计算其编码值:
其中:
是该位点杂合子基因型对应的产量的平均值;
是该位点纯合子基因型对应的产量的平均值中较高的平均值;
是该位点纯合子基因型对应的产量的平均值中较低的平均值。
不确定的基因型标记为0,忽略其效应。
同样地,以上编码方式也适用于水分等其他表型数据。
可选地,所述方法还包括对所述RRBLUP预测模型进行评估,具体为对所述RRBLUP预测模型的相关系数的平方、召回率、准确率和提升率进行评估。
在上述实施例的基础上,在执行预测方法之前,还需要对RRBLUP预测模型的表现进行评估。进而利用模型,根据训练群体和测试群体中杂交种的基因型数据,对杂交种的表型进行了预测,然后将观察到的结果与真实观测值进行比较,通过以下一个或多个指标对模型的表现进行了评估:
1)相关系数的平方(R2);
2)召回率(Recall Rate);
3)准确率(Precession);
4)提升率(Improvement)。
通过图3中的示例来解释这些对模型评估的指标。一个点代表一个杂交种,横坐标为预测值,纵坐标为观测值。垂直线代表基因组选择的阈值,垂直线右侧的数据点为50%,是根据模型的预测结果推荐给育种家的杂交组合占所有做过预测的杂交组合的比例。水平线代表田间表型筛选的阈值,水平线以上的数据点为10%,是育种家在田间筛选出来杂交种占田间种植的杂交种的比例。两条直线将图中区域分成四个部分:
右上角的第一象限区域中的杂交种表示在基因组选择和表型选择中均被保留的杂交种;
左上角的第二象限区域中的杂交种表示在基因组选择没有被保留,但在表型选择中被保留的杂交种;
左下角的第三象限区域中的杂交种表示在基因组选择和表型选择中均没有被保留的杂交种;
右下角的第四象限区域中的杂交种表示在基因组选择中被保留,但在表型选择中没有被保留的杂交种。
具体地,3.1)R2:预测值与观测值相关系数的平方,计算方式如下
其中,y为观测值,为预测值。
3.2)召回率:位于第一象限的杂交种占第一二象限杂交种的百分比,计算方式如下:
其中,Q1为位于第一象限的杂交种的数目,Q2为第二象限的杂交种的数目。
3.3)准确率:位于第一象限的杂交种占第一四象限杂交种的百分比,计算方式如下:
其中,Q1为位于第一象限的杂交种的数目,Q4为第四象限的杂交种的数目。
3.4)提升度:这是与没有用到预测模型时的一个相对指标。在没有模型的情况下,育种家会随机(或根据自己的经验)选择一些个组合。对亲本进行杂交。获得杂交种在田间种植,根据表型进行筛选。假设育种家的资源可以鉴定50K杂交组合,最终保留10%的话,则可以得到5K杂交组合。在有模型的情况下,当基因组选择的阈值为50%(垂直线右边的比例)时,在同样可用于田间考察资源时,为了获的50K个推荐的杂交组合,可对100K个杂交组合的表型进行预测。相当于在计算机里面对100K个杂交组合进行了初级筛选,对应于没有模型进行表型筛选保留10%的比例,相当于10K杂交组合。假设召回率(第一象限杂交种占第一、二象限杂交种的百分比)为70%,相当于在基因组选择和表型选择中均被保留的杂交种为7K。相比于没有模型同样种植50K杂交种,选择保留10%(5K)杂交种的情况下,可以多获得 2K的杂交种,由此得到的提升度为的计算方式如下:
其中,M为运用预测模型最终筛选出来的杂交组合,B为没有运用预测模型的情况下最终选择出来的组合。在上述所列举的示例种,提升度为:(7K -5K)/5K=40%。
图4a-4h为本发明实施例提供的利用巴西冬玉米区各生态区构建的产量预测模型对杂交种产量和水分的预测值和真实观测值进行比较,从而评估模型表现的示意图,是用冬玉米区中的东部生态区数据集建立的模型,通过表型数据产量和水分验证了本发明实施例的可行性。
本发明实施例提供的全基因组预测方法,首先对一些杂交种的基因型和表型进行考察,建立模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
图5为本发明实施例提供的基于RRBLUP的全基因组预测装置的结构示意图,如图5所示,所述装置包括:获取模块10、预测模块20和确定模块 30,其中:
获取模块10用于获取待预测的杂交种的基因型数据;
预测模块20用于根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型进行预测,得到表型预测结果;
确定模块30用于结合育种资源和规模,根据所述表型预测结果,选择具有高产潜力的候选杂交组合。
本发明实施例提供全基因组预测装置,获取模块10获取待预测的杂交种的基因型数据;预测模块20根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;确定模块30结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
本发明实施例提供的基于RRBLUP的全基因组预测装置,首先对一些杂交种的基因型和表型进行考察,建立模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
可选地,所述RRBLUP预测模型通过如下的步骤得到:
获取用于建模的群体中杂交种的表型数据和基因型数据并进行处理;
通过处理后的数据,利用RRBLUP算法对分子标记的效应进行估计,得到所述RRBLUP预测模型。
在上述实施例的基础上,在进行执行全基因组预测之前,需要先建立 RRBLUP预测模型,在挑选的样本集中,可分为训练集和测试集,即对建模数据通过随机抽样的方式分为训练集和测试集,一般情况下,训练集包含80%样本,测试集包含20%样本,样本比例可结合数据实际情况进行调整。
在对样本集中的数据进行处理后,对RRBLUP算法中的参数进行修订改进,得的适合本发明实施例的RRBLUP预测模型。
本发明实施例提供的基于RRBLUP的全基因组预测装置,首先对一些杂交种的基因型和表型进行考察,建立模型评估每个标记对表型的效应。然后根据亲本基因型推算杂交种基因型,综合杂交种各分子标记上基因型的效应,对表型值进行预测,推荐具有高产潜力的杂交组合。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要确定其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出改进的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于RRBLUP的全基因组预测方法,其特征在于,包括:
获取待预测的杂交种的基因型数据;
根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;
结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
2.根据权利要求1所述的方法,其特征在于,所述杂交种的基因型数据根据自交系亲本或DH系亲本的纯合基因型推测得到。
3.根据权利要求1所述的方法,其特征在于,所述RRBLUP预测模型的建立步骤为:
获取用于建模的群体中杂交种的表型数据和基因型数据并进行处理;
通过处理后的数据,利用RRBLUP算法对分子标记的效应进行估计,得到所述RRBLUP预测模型。
4.根据权利要求3所述的方法,其特征在于,所述RRBLUP算法为:
Y=Xb+Wm+e;
其中:
Y是训练群体中各杂种的表型向量;
X是长度等于训练群体中各杂种数目,元素值均为1的向量;
b是计算出的固定效应,即训练群体中各杂种的表型平均值;
W是对基因型进行编码得到的关联矩阵;
m是根据模型估算出的分子标记效应向量;
e是残余误差。
5.根据权利要求4所述的方法,其特征在于,所述RRBLUP预测模型中b和m的估计值可通过线性代数预算求解以下方程得到:
其中:
X长度等于训练群体中各杂种数目,元素值均为1的向量;
X'是将X转置后的得到的向量;
W是对基因型进行编码得到的关联矩阵;
W'是将W转置后的得到的向量;
I为单位矩阵;
ha 2是目标性状的狭义遗传力,即加性遗传效应所能解释的表型方差的比例;
n为模型中考虑的遗传位点数;
pi为第i个遗传位点上一种基因型的频率;
qj为第j个遗传位点上另一种基因型的频率。
6.根据权利要求3所述的方法,其特征在于,所述对训练群体中的杂交种的表型数据和基因型数据处理具体为:
对所述训练群体中的杂交种的表型数据和基因型数据进行清洗;
对所述清洗后的数据进行编码。
7.根据权利要求6所述的方法,其特征在于,所述对所述清洗后的数据进行编码包括加性线性回归模型编码方式和将非加性效应整合到所述预测模型中的编码方式。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括对所述RRBLUP预测模型进行评估的方法和指标,具体为对所述RRBLUP预测模型的相关系数的平方、召回率、准确率和提升率进行评估。
9.一种基于RRBLUP的全基因组预测装置,其特征在于,包括:
获取模块,用于获取待预测的杂交种的基因型数据;
预测模块,用于根据预先建立的RRBLUP预测模型和所述杂交种的基因型数据,对杂交组合后代的表型数据进行预测,得到表型数据预测结果;
确定模块,用于结合育种资源和规模,根据所述表型数据预测结果,选择具有高产潜力的候选杂交组合。
10.根据权利要求9所述的装置,其特征在于,所述RRBLUP预测模型的建立步骤为:
获取用于建模的群体中杂交种的表型数据和基因型数据并进行处理;
通过处理后的数据,利用RRBLUP算法对分子标记的效应进行估计,得到所述RRBLUP预测模型。
CN201910059597.XA 2019-01-22 2019-01-22 一种基于rrblup的全基因组预测方法和装置 Active CN109741789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910059597.XA CN109741789B (zh) 2019-01-22 2019-01-22 一种基于rrblup的全基因组预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910059597.XA CN109741789B (zh) 2019-01-22 2019-01-22 一种基于rrblup的全基因组预测方法和装置

Publications (2)

Publication Number Publication Date
CN109741789A true CN109741789A (zh) 2019-05-10
CN109741789B CN109741789B (zh) 2021-02-02

Family

ID=66365714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910059597.XA Active CN109741789B (zh) 2019-01-22 2019-01-22 一种基于rrblup的全基因组预测方法和装置

Country Status (1)

Country Link
CN (1) CN109741789B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853711A (zh) * 2019-11-20 2020-02-28 云南省烟草农业科学研究院 一种预测烟草果糖含量的全基因组选择模型及其应用
CN110853710A (zh) * 2019-11-20 2020-02-28 云南省烟草农业科学研究院 一种预测烟草淀粉含量的全基因组选择模型及其应用
CN113951134A (zh) * 2021-02-05 2022-01-21 江苏省农业科学院 一种基于单株评价及全基因组选择技术的高效玉米育种方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN106779076A (zh) * 2016-11-18 2017-05-31 栾图 基于生物信息的选育良种系统及其算法
CN107278877A (zh) * 2017-07-25 2017-10-24 山东省农业科学院玉米研究所 一种玉米出籽率的全基因组选择育种方法
CN108368555A (zh) * 2015-12-30 2018-08-03 森达美种植知识产权私人有限公司 用于预测实验油棕榈植物的棕榈油产量的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914631A (zh) * 2014-02-26 2014-07-09 中国农业大学 一种基于snp芯片的综合基因组育种值估计方法及应用
CN108368555A (zh) * 2015-12-30 2018-08-03 森达美种植知识产权私人有限公司 用于预测实验油棕榈植物的棕榈油产量的方法
CN106779076A (zh) * 2016-11-18 2017-05-31 栾图 基于生物信息的选育良种系统及其算法
CN107278877A (zh) * 2017-07-25 2017-10-24 山东省农业科学院玉米研究所 一种玉米出籽率的全基因组选择育种方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JOSEPH O OGUTU 等: "A comparison of random forests, boosting and support vector machines for genomic selection", 《BMC PROCEEDINGS》 *
王欣: "基因组选择方法的比较与多变量GBLUP模型研究", 《中国博士学位论文全文数据库 农业科技辑》 *
王爱国: "《现代实用养猪技术》", 30 September 2006, 中国农业出版社 *
董春水 等: "现代玉米育种技术研究进展与前瞻", 《玉米科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853711A (zh) * 2019-11-20 2020-02-28 云南省烟草农业科学研究院 一种预测烟草果糖含量的全基因组选择模型及其应用
CN110853710A (zh) * 2019-11-20 2020-02-28 云南省烟草农业科学研究院 一种预测烟草淀粉含量的全基因组选择模型及其应用
CN110853711B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草果糖含量的全基因组选择模型及其应用
CN110853710B (zh) * 2019-11-20 2023-09-12 云南省烟草农业科学研究院 一种预测烟草淀粉含量的全基因组选择模型及其应用
CN113951134A (zh) * 2021-02-05 2022-01-21 江苏省农业科学院 一种基于单株评价及全基因组选择技术的高效玉米育种方法

Also Published As

Publication number Publication date
CN109741789B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
Gezan et al. An experimental validation of genomic selection in octoploid strawberry
Rutkoski A practical guide to genetic gain
Bacles et al. Paternity analysis of pollen-mediated gene flow for Fraxinus excelsior L. in a chronically fragmented landscape
Slater et al. Improving genetic gain with genomic selection in autotetraploid potato
Allier et al. Improving short-and long-term genetic gain by accounting for within-family variance in optimal cross-selection
Hung et al. The relationship between parental genetic or phenotypic divergence and progeny variation in the maize nested association mapping population
Pryce et al. Novel strategies to minimize progeny inbreeding while maximizing genetic gain using genomic information
CN109727641B (zh) 一种全基因组预测方法及装置
Henryon et al. Animal-breeding schemes using genomic information need breeding plans designed to maximise long-term genetic gains
Carillier-Jacquin et al. Including α s1 casein gene information in genomic evaluations of French dairy goats
Caruana et al. Validation of genotyping by sequencing using transcriptomics for diversity and application of genomic selection in tetraploid potato
US20150080238A1 (en) Process for selecting individuals and designing a breeding program
CN109727640B (zh) 基于自动机器学习技术的全基因组预测方法及装置
CN103026361B (zh) 用于预测未观察到的表型(pup)的方法和组合物
Sunnucks Towards modelling persistence of woodland birds: the role of genetics
CN109741789A (zh) 一种基于rrblup的全基因组预测方法和装置
Torimaru et al. Effects of male fecundity, interindividual distance and anisotropic pollen dispersal on mating success in a Scots pine (Pinus sylvestris) seed orchard
Naderi et al. Random forest estimation of genomic breeding values for disease susceptibility over different disease incidences and genomic architectures in simulated cow calibration groups
Rawandoozi et al. Identification and characterization of QTLs for fruit quality traits in peach through a multi-family approach
Lorenz et al. Training population design and resource allocation for genomic selection in plant breeding
CN109727642B (zh) 基于随机森林模型的全基因组预测方法及装置
Biscarini et al. Genome-enabled predictions for binomial traits in sugar beet populations
Kitamura et al. Distinctions in Fine-Scale Spatial Genetic Structure Between Growth Stages of Picea jezoensis Carr.
Oatley et al. Phenotypic and genotypic variation across a stable white-eye (Zosterops sp.) hybrid zone in central South Africa
Huang et al. QTL analysis of tuber shape in a diploid potato population

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210112

Address after: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Applicant after: Longping Agricultural Development Co.,Ltd.

Applicant after: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Applicant after: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Applicant after: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

Address before: 410001 no.638 Heping Road, Furong district, Changsha City, Hunan Province

Applicant before: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Applicant before: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Applicant before: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zou Jijun

Inventor after: Ivan Schuster

Inventor after: Wang Bingbing

Inventor after: Lin Haiyan

Inventor after: Zhong Jing

Inventor after: Fu Jun

Inventor after: Yang Shichao

Inventor after: Yang Yimin

Inventor after: Huang Zhe

Inventor after: Du Haixiao

Inventor after: Li Ke

Inventor before: Zou Jijun

Inventor before: Ivan Schuster

Inventor before: Wang Bingbing

Inventor before: Lin Haiyan

Inventor before: Zhong Jing

Inventor before: Fu Jun

Inventor before: Yang Shichao

Inventor before: Yang Yimin

Inventor before: Huang Zhe

Inventor before: Du Haixiao

Inventor before: Li Ke

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211231

Address after: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Patentee after: Longping Agricultural Development Co.,Ltd.

Patentee after: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Patentee after: CITIC cloud Network Co.,Ltd.

Patentee after: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.

Address before: 410003 no.329 Chezhan North Road, Furong district, Changsha City, Hunan Province

Patentee before: Longping Agricultural Development Co.,Ltd.

Patentee before: YUAN LONGPING HIGH-TECH AGRICULTURE Co.,Ltd.

Patentee before: CITIC TECHNOLOGY DEVELOPMENT Co.,Ltd.

Patentee before: CHANGSHA BIOBIN DATA SCIENCE Co.,Ltd.