CN113053459A - 一种基于贝叶斯模型整合亲本表型的杂交种预测方法 - Google Patents

一种基于贝叶斯模型整合亲本表型的杂交种预测方法 Download PDF

Info

Publication number
CN113053459A
CN113053459A CN202110285285.8A CN202110285285A CN113053459A CN 113053459 A CN113053459 A CN 113053459A CN 202110285285 A CN202110285285 A CN 202110285285A CN 113053459 A CN113053459 A CN 113053459A
Authority
CN
China
Prior art keywords
phenotype
hybrid
genotype
parental
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110285285.8A
Other languages
English (en)
Inventor
徐扬
赵越
于广宁
周恺
薛钱承
王欣
徐辰武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202110285285.8A priority Critical patent/CN113053459A/zh
Publication of CN113053459A publication Critical patent/CN113053459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • A01H1/02Methods or apparatus for hybridisation; Artificial pollination ; Fertility
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Abstract

本发明涉及植物杂交种预测方法技术领域内一种基于贝叶斯模型整合亲本表型的杂交种预测方法,首先对亲本材料进行基因分型和田间表型鉴定,并由亲本基因型推断出杂交种基因型;构建杂交种训练群体并进行田间鉴定;建立整合亲本表型的BayesB模型,对杂交种表型进行预测,采用十倍交叉验证对该模型的准确性进行评价。本发明的杂交种表型预测方法中,通过构建贝叶斯模型整合亲本表型的杂交种预测方法来预测杂交种表型数据,从而提高杂交种预测的准确性,进一步提高育种效率,降低成本,并对提高作物产量等相关性状的准确预测提供了理论参考和实践依据。

Description

一种基于贝叶斯模型整合亲本表型的杂交种预测方法
技术领域
本发明涉及植物杂交种预测方法技术领域,特别涉及一种基于贝叶斯模型整合亲本表型的杂交种预测方法。
背景技术
水稻为世界上大部分人口提供了主要食物来源。提高水稻产量对于保障全球的粮食安全具有重要的意义。研究表明利用杂种优势能大幅提高水稻产量,如何从大量的水稻品种中选出最适的亲本组合是杂交种育种的关键和难点,目前亲本的选配主要依赖于育种家的经验,既有很大的不确定性又需要耗费大量的精力进行田间表型鉴定。随着分子生物学技术的发展,利用高密度的分子标记结合表型数据,已经能够精确定位某些复杂性状的数量性状位点(Quantitative trait locus,QTL),利用QTL的共分离标记对相关性状进行标记辅助选择(marker assisted selection,MAS)已经应用于水稻品种的改良。然而MAS的选择周期较长,并且依赖于QTL定位的准确性,目前已被证实具有显著表型贡献的QTL数量有限,同时定位到的QTL仅能解释部分的表型变异,大量的微效QTL不能被鉴定,这些极大地限制了MAS在水稻育种中的应用。
全基因组选择(genomic selection,GS)的提出克服了这些限制,GS由Meuwissen等在2001年首次提出,它是根据训练群体基因组上的分子标记基因型和表型信息,建立标记基因型和表型之间的关联,在全基因组范围内同时估计出所有标记的遗传效应,进而对表型未知的候选群体做出合理的预测。与MAS相比,GS育种技术无需鉴定与目标性状显著相关的位点,即使单个位点的效应很小,导致表型变异的全部遗传效应也都能够被高密度的遗传标记捕获,并且能够在得到个体基因型时即对其育种值进行评估,可大大缩短育种周期,提高育种效率,实现从经验育种到基因组精准育种的飞跃,特别是在玉米、水稻等作物的杂交种育种中,由于杂交种的基因型可以由亲本基因型进行推断,通过对少数亲本自交系进行全基因组分型,即可获得这些自交系间所有可能杂交种的基因型,因此GS的优势更加突出。
尽管GS的应用可大幅提高育种效率,它仍存在一定局限性,由于基因组预测难以捕获基因的复杂互作及其下游调控,对于一些复杂性状,尤其是对受环境影响较大的产量性状而言,基因组预测的准确性往往还比较低。目前已有一些学者在GS的基础上,利用亲本的转录组和代谢组数据结合部分杂交种的表型数据预测未知杂交种的表型。尽管预测的准确性有一定程度的提升,但是耗费了巨大的鉴定成本。在农作物育种研究中,表型至关重要,然而,目前的杂交种预测均忽视了亲本表型这一重要信息。相比于其他组学信息,亲本表型易于鉴定且成本较低。因此,本发明拟建立整合亲本表型的杂交种预测方法,为水稻杂交种表型的精准育种奠定理论基础。
发明内容
本发明针对现有技术中杂交种基因组预测时忽视亲本表型信息这一问题,提供一种基于贝叶斯模型整合亲本表型的杂交种预测方法,通过在基因组预测中整合亲本表型,优化杂交种预测模型,采用交叉验证对预测结果的准确性进行评价,从而提高杂交种预测的准确性,降低育种成本。
本发明的目的是这样实现的,一种基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,包括如下步骤:
第一步,获取亲本的表型数据和基因型数据,由亲本基因型数据推断杂交种的基因型数据;
第二步,随机构建杂交种的训练群体,田间获取训练群体的表型数据;
第三步,基于训练群体构建加-显效应贝叶斯统计模型和加-显效应整合亲本表型贝叶斯统计模型,以预测杂交种的表型数据;
第四步,采用交叉验证评价第三步预测的表型数据的准确性。
本发明的杂交种预测方法中,通过构建贝叶斯模型整合亲本表型的杂交种预测方法来预测杂交种表型,从而提高杂交种预测的准确性,进一步提高育种效率,降低成本,并对提高作物产量等相关性状的准确预测提供了理论参考和实践依据。
进一步地,第一步中:将基因数据转换为数值型:高频纯合基因型A1A1标记为1,杂合基因型A1A2标记为0,低频纯合基因型A2A2标记为-1,并由亲本基因型数据推断杂交种的基因型数据,同时对杂交种基因型进行编码,Z表示加性编码,W表示显性编码。
进一步地,第一步中由亲本基因型推断杂交种基因型的方法为:首先准备亲本基因型矩阵,提供亲本基因型的行名,由此推断杂交种基因型,对其进行编码,其中Z代表加性编码,W代表显性编码,杂交种的预测变量定义为:
Figure BDA0002980208820000021
进一步地,第三步中,加-显效应贝叶斯统计模型和加-显效应整合亲本表型贝叶斯统计模型分别表示为公式(1)和公式(2):
Figure BDA0002980208820000031
Figure BDA0002980208820000032
式中,y为个体的表型向量,X为固定效应结构矩阵,β为固定效应,Zi代表加性编码,gi为第i个标记的加性效应值,
Figure BDA0002980208820000033
Wi代表显性编码,hi为第i个标记的显性效应值,
Figure BDA0002980208820000034
Figure BDA0002980208820000035
Figure BDA0002980208820000036
服从一个尺度参数为S,自由度为v的逆卡方先验分布,其中尺度参数为S=0.0429,自由度为v=4.234。
Figure BDA0002980208820000037
Figure BDA0002980208820000038
取值为0的概率为π,当
Figure BDA0002980208820000039
服从
Figure BDA00029802088200000310
Figure BDA00029802088200000311
服从
Figure BDA00029802088200000312
时的概率为1-π,ε为残差向量。公式(2)中,PM代表父本表型矩阵,PF代表母本表型矩阵,βa和βd为相应的效应值。
进一步地,第四步中,交叉验证时,十倍交叉验证的多次重复结果作为评价预测力的指标,交叉验证时将数据平均分成十份,其中的九份作为训练群体,另一份作为测试群体,每次用九份预测一份,十次之后每个个体都会被完全预测到,以真实值和预测值的决定系数(R2)来反映预测的准确性。
附图说明
图1为本发明的基于贝叶斯模型整合亲本表型的杂交种预测方法的流程图。
图2为采用本发明的基本贝叶斯模型下整合亲本表型与未整合亲本表型的杂交种表型预测力的比较图。
具体实施方式
为使本发明目的明确、方法清晰,下面将结合本发明的方法、模型和附图作进一步描述:
本实施例以杂交水稻的表型预测为详细说明本发明的基于贝叶斯模型整合亲本表型的杂交种预测方法。
水稻杂种优势的利用是提高水稻产量的重要途径。常规育种模式下,需要通过大规模杂交实验来筛选杂交组合,耗费大量时间和人力成本。现有技术中GS研究忽视了亲本表型信息的利用,而本实施例基于贝叶斯模型整合亲本表型进行基因组预测研究,提高杂交种预测的准确性。
本实施例研究分析的杂种群体是珍汕97/明恢63的重组自交系群体,杂种F1自交后产生的F2代单株通过单粒传的方式连续自交,共获得210个重组自交系,通过对210个自交系随机配对,构建了278个杂交种。
其中对210份自交系测序,鉴定得到270 820个SNP标记,划分为1619个重组区段(bin)。
按如图1所示的流程,首先对亲本材料进行基因测序分型和田间表型鉴定,将基因数据转换为数值型:高频纯合基因型A1A1标记为1,杂合基因型A1A2标记为0,低频纯合基因型A2A2标记为-1,并由亲本基因型推断出杂交种基因型;构建杂交种训练群体并进行田间鉴定,再基于贝叶斯模型整合亲本表型,预测杂交种表型;建立BayesB模型,对测试群体杂交种表型进行预测,采用交叉验证对预测结果的准确性进行评价。
本实施例中,BayesB模型的建立步骤为:
(1)获取水稻亲本的基因型及表型数据,由亲本基因型推断杂交种基因型;
(2)构建训练群体,获取训练群体的表型数据;
(3)基于训练群体构建贝叶斯统计模型,在加-显效应模型的基础上整合亲本表型;
(4)采用交叉验证评价预测结果的准确性。
已知亲本基因型推断杂交种基因型数据,并将基因数据转换为数值型,由亲本基因型推断杂交种基因型,同时对杂交种基因型进行编码,Z表示加性编码,W表示显性编码。构建杂交种预测变量时,首先准备亲本基因型矩阵,提供亲本基因型的行名,由此推断杂交种基因型,对其进行编码,其中Z代表加性编码,W代表显性编码,杂交种的预测变量定义为:
Figure BDA0002980208820000041
采用以下两种预测模型:
BayesB加-显模型:
Figure BDA0002980208820000042
BayesB加-显效应整合亲本表型模型:
Figure BDA0002980208820000051
式中,y为个体的表型向量,X为固定效应结构矩阵,β为固定效应,Zi代表加性编码,gi为第i个标记的加性效应值,
Figure BDA0002980208820000052
Wi代表显性编码,hi为第i个标记的显性效应值,
Figure BDA0002980208820000053
Figure BDA0002980208820000054
Figure BDA0002980208820000055
服从一个尺度参数为S,自由度为v的逆卡方先验分布,其中尺度参数为S=0.0429,自由度为v=4.234。
Figure BDA0002980208820000056
Figure BDA0002980208820000057
取值为0的概率为π,当
Figure BDA0002980208820000058
服从
Figure BDA0002980208820000059
Figure BDA00029802088200000510
服从
Figure BDA00029802088200000511
时的概率为1-π,ε为残差向量。公式(2)中,PM代表父本表型,PF代表母本表型,βa和βd为效应值。
为验证预测结果的准确性,采用十倍交叉验证重复100次的结果作为评价预测力的指标,交叉验证将数据平均分成十份,其中的九份作为训练群体,另一份作为测试群体,每次用九份预测一份,十次之后每个个体都会被完全预测到,以真实值和预测值的决定系数(R2)来反映预测的准确性。
如图2所示,基于贝叶斯模型整合亲本表型的杂交种预测方法能够有效提高杂交种预测力。本实施例中预测的四种表型数据分别为四种性状:产量、单株分蘖、每穗粒数和千粒重。采用BayesB加-显模型及BayesB加-显效应整合亲本表型模型,对整合亲本表型和未整合亲本表型两种模型下得到的预测力进行比较,可以看出,结合亲本表型后,四个性状的预测力均得到了显著提升,对于产量、单株分蘖、每穗粒数和千粒重性状,预测力分别提升了9.3%、75%、27%和8.8%。此外,预测力与性状的遗传力高度相关,千粒重的遗传力最高,平均预测力高达0.753,其次是单株分蘖和每穗粒数,预测力分别为0.452和0.353,产量的遗传力最低,预测力为0.203。
本实施例的基于贝叶斯模型整合亲本表型的水稻杂交种预测方法,结合亲本表型来预测水稻杂交种表型,从而提高杂交种预测的准确性,进一步提高水稻育种效率。

Claims (5)

1.一种基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,包括如下步骤:
第一步,获取亲本的表型数据和基因型数据,由亲本基因型数据推断杂交种的基因型数据;
第二步,随机构建杂交种的训练群体,田间获取训练群体的表型数据;
第三步,基于训练群体构建加-显效应贝叶斯统计模型和加-显效应整合亲本表型贝叶斯统计模型,以预测杂交种的表型数据;
第四步,采用交叉验证评价第三步预测的表型数据的准确性。
2.根据权利要求1所述的基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,第一步中,将基因数据转换为数值型:高频纯合基因型A1A1标记为1,杂合基因型A1A2标记为0,低频纯合基因型A2A2标记为-1,并由亲本基因型数据推断杂交种的基因型数据,同时对杂交种基因型进行编码,Z表示加性编码,W表示显性编码。
3.根据权利要求2所述的基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,第一步中由亲本基因型推断杂交种基因型的方法为:首先准备亲本基因型矩阵,提供亲本基因型的行名,由此推断杂交种基因型,对其进行编码,其中Z代表加性编码,W代表显性编码,杂交种的预测变量定义为:
Figure FDA0002980208810000011
4.根据权利要求2所述的基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,第三步中,加-显效应贝叶斯统计模型和加-显效应整合亲本表型贝叶斯统计模型分别表示为公式(1)和公式(2):
Figure FDA0002980208810000012
Figure FDA0002980208810000013
式中,y为个体的表型向量,X为固定效应结构矩阵,β为固定效应,Zi代表加性编码,gi为第i个标记的加性效应值,
Figure FDA0002980208810000014
Wi代表显性编码,hi为第i个标记的显性效应值,
Figure FDA0002980208810000021
Figure FDA0002980208810000022
Figure FDA0002980208810000023
服从一个尺度参数为S,自由度为v的逆卡方先验分布,其中尺度参数为S=0.0429,自由度为v=4.234。
Figure FDA0002980208810000024
Figure FDA0002980208810000025
取值为0的概率为π,当
Figure FDA0002980208810000026
服从
Figure FDA0002980208810000027
Figure FDA0002980208810000028
服从
Figure FDA0002980208810000029
时的概率为1-π,ε为误差。公式(2)中,PM代表父本表型,PF代表母本表型,βa和βd为其效应值。
5.根据权利要求1所述的基于贝叶斯模型整合亲本表型的杂交种预测方法,其特征在于,第四步中,交叉验证时,十倍交叉验证的多次重复结果作为评价预测力的指标,交叉验证时将数据平均分成十份,其中的九份作为训练群体,另一份作为测试群体,每次用九份预测一份,十次之后每个个体均被预测,以真实值和预测值的决定系数(R2)来反映预测的准确性。
CN202110285285.8A 2021-03-17 2021-03-17 一种基于贝叶斯模型整合亲本表型的杂交种预测方法 Pending CN113053459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285285.8A CN113053459A (zh) 2021-03-17 2021-03-17 一种基于贝叶斯模型整合亲本表型的杂交种预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285285.8A CN113053459A (zh) 2021-03-17 2021-03-17 一种基于贝叶斯模型整合亲本表型的杂交种预测方法

Publications (1)

Publication Number Publication Date
CN113053459A true CN113053459A (zh) 2021-06-29

Family

ID=76512966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285285.8A Pending CN113053459A (zh) 2021-03-17 2021-03-17 一种基于贝叶斯模型整合亲本表型的杂交种预测方法

Country Status (1)

Country Link
CN (1) CN113053459A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467596A (zh) * 2023-04-11 2023-07-21 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN117831636A (zh) * 2024-03-04 2024-04-05 北京市农林科学院信息技术研究中心 利用融合模型实施基因组选择的方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
CN103026361A (zh) * 2010-06-03 2013-04-03 先正达参股股份有限公司 用于预测未观察到的表型(pup)的方法和组合物
CN111883206A (zh) * 2020-08-03 2020-11-03 集美大学 一种拟合非加性效应的基因组估计育种值的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
CN103026361A (zh) * 2010-06-03 2013-04-03 先正达参股股份有限公司 用于预测未观察到的表型(pup)的方法和组合物
CN111883206A (zh) * 2020-08-03 2020-11-03 集美大学 一种拟合非加性效应的基因组估计育种值的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG XU ET AL.: ""Incorporation of parental phenotypic data into multi-omic models improves prediction of yield-related traits in hybrid rice"" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116467596A (zh) * 2023-04-11 2023-07-21 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN116467596B (zh) * 2023-04-11 2024-03-26 广州国家现代农业产业科技创新中心 水稻粒长预测模型的训练方法、形态预测方法及装置
CN117831636A (zh) * 2024-03-04 2024-04-05 北京市农林科学院信息技术研究中心 利用融合模型实施基因组选择的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Heffner et al. Genomic selection accuracy using multifamily prediction models in a wheat breeding program
US20220090215A1 (en) Methods and compositions for imputing or predicting genotype or phenotype
CN107278877B (zh) 一种玉米出籽率的全基因组选择育种方法
CN111996262B (zh) 奶水牛产奶性状相关snp的获得方法与应用
CN113053459A (zh) 一种基于贝叶斯模型整合亲本表型的杂交种预测方法
KR20230146617A (ko) 식물들에서의 머신 러닝 기반 유전자 발견 및 유전자 편집
Yin et al. Strategy for the simulation and analysis of longitudinal phenotypic and genomic data in the context of a temperature× humidity-dependent covariate
CN114015789A (zh) 一种东星斑抗病良种培育的基因组选择方法
CN114292928B (zh) 一种与母猪繁殖性状有关的分子标记及筛选方法和应用
Durand et al. Standing variation and new mutations both contribute to a fast response to selection for flowering time in maize inbreds
CN111128306A (zh) 一种罗非鱼基因组选择育种方法
CN110867208A (zh) 一种提高水产动物全基因组选择育种效率的方法
JP2018525985A (ja) 乳生産量を改善するための雌牛の育種方法
van der Beck et al. Marker-assisted selection in an outbred poultry breeding nucleus
Amaya Martínez et al. Genetic evaluations in cattle using the single-step genomic best linear unbiased predictor
CN114736974A (zh) 与母猪产程性状相关的snp分子标记及其应用
CN102301975A (zh) 基于鲤完全双列杂交的数据的处理方法
CN116863998B (zh) 一种基于遗传算法的全基因组预测方法及其应用
Bijma et al. Increasing genetic gain by selecting for higher Mendelian sampling variance
CN111354417B (zh) 一种基于admixture-mcp模型估计水产动物基因组品种组成的新方法
Alanoshahr et al. The impact of different genetic architectures on accuracy of genomic selection using three Bayesian methods.
Alekya et al. Chapter-7 whole genome strategies for marker assisted selection in plant breeding
WO2024020441A1 (en) Artificial intelligence-guided marker assisted selection
CN117594129A (zh) 一种基于全基因组选择的杨树生长性状最优预测体系及其构建方法和应用
Zhai Application of Various Genomic Selection Models in Cotton Fiber Quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination