CN103632067B - 一种基于混合线性模型的种子数量性状位点定位方法 - Google Patents

一种基于混合线性模型的种子数量性状位点定位方法 Download PDF

Info

Publication number
CN103632067B
CN103632067B CN201310549029.0A CN201310549029A CN103632067B CN 103632067 B CN103632067 B CN 103632067B CN 201310549029 A CN201310549029 A CN 201310549029A CN 103632067 B CN103632067 B CN 103632067B
Authority
CN
China
Prior art keywords
interval
additivity
interaction
parent
effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310549029.0A
Other languages
English (en)
Other versions
CN103632067A (zh
Inventor
徐海明
祁婷
曹玉杰
祝水金
楼向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310549029.0A priority Critical patent/CN103632067B/zh
Publication of CN103632067A publication Critical patent/CN103632067A/zh
Application granted granted Critical
Publication of CN103632067B publication Critical patent/CN103632067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于混合线性模型的种子数量性状位点定位方法,包括:建立统计遗传模型;在全基因组范围内搜索所有可能存在QTL的候选标记区间:将所述的候选标记区间作为协变量,在全基因组范围内搜索显著的QTL位点和二互作标记区间;以所述的QTL位点和二互作标记区间作为协变量,在显著的互作标记区间内搜索显著的二互作上位性的位点;通过所述QTL位点和二互作上位性的位点,获得统计遗传模型中各种效应的系数,然后通过统计遗传模型,计算这些位点的效应以及估算每个位点的遗传率。本发明将种子性状分成二倍体种子和三倍体种子,考虑了上位性效应及基因与环境互作的效应,可快速无偏的估计种子数量性状位点的位置及各种效应。

Description

一种基于混合线性模型的种子数量性状位点定位方法
技术领域
本发明涉及种子数量性状位点定位领域,具体涉及一种基于混合线性模型种子数量性状位点定位方法。
技术背景
作物种子是人类食物,动物饲料以及工业原料的主要来源。胚或胚乳是种子中的主要成分。胚乳作为储藏营养物质的主要器官,比如碳水化合物,蛋白质和矿物质等,它同时也会胚的发育提供营养。胚乳在有些物种成熟时会消失,比如拟南芥。无论胚乳消失与否,它都将会对胚的发育产生影响。此外,种子是长在母体植株中,因此母体植株对种子的发育也会产生影响。种子数量性状位点定位的研究已经成为数量遗传领域的研究热点之一。
近年来,种子数量性状位点的定位尤其是对农作物品质性状的研究方面的应用十分广泛。
早在1994年,莫惠栋(Mo HD.Genetic analysis for qualitative-quantitativetraits III.Endosperm character under triploid genetic control.Acta agronomicaSinica,1994,20(5):513-519)提出了一个统计遗传模型,可以把种子性状的表型方差分解为各种各样的遗传和环境因子。1994年,朱军和Bruce Weir(Zhu J,Weir.BSAnalysis ofCytoplasmic and Maternal Effects.2.Genetic Models for TriploidEndosperms.Theor Appl Genet,1994,89(2-3):160-166)进一步提出了混合线性模型方法,利用双列杂交试验分析了母体效应,胚,胚乳和细胞质效应,以及各种效应与环境的互作。以上这些方法都只能把种子性状的遗传变异分解为各种各样的方差分量,把控制性状的所有基因当做一个整体来分析,而不能得到单个基因水平上的更详细的信息,比如数量性状位点的位置以及存在的各种效应。
随着分子标记技术的发展,数量性状位点定位的方法被提出和运用到作物种子性状的定位研究中。但是种子中的主要成分胚乳是三倍体,因此不能用一般的定位方法。基于这个遗传背景,Kao(Kao CH.Multiple-interval Mapping for Quantitative Trait LociControlling Endosperm Traits.Genetics,2004,167(4):1987-2002)在2004年提出运用多区间作图方法,同时充分考虑到三倍体胚乳的性质。这种方法可以分析胚乳的各种效应。然而,种子一个很重要的特征是,它长在母体植株上,因此种子的发育也会受到母体植株的影响。鉴于此,Hu和Xu(Hu ZQ,Xu CW.A New Statistical Method for Mapping QTLsunderlying Endosperm Traits.Chinese Sci Bull,2005,50(14):1470-1476)提出了一个统计遗传模型,他们把母体基因组和后代基因组整合在同一个模型中,使模型更加接近种子性状发育的遗传机制。
据我们所知,上位性,即一个基因的表达依赖于另外一个基因,在数量性状的发育和进化中起着重要的作用。大量的研究已经表明,上位性对性状的遗传变异也产生了不可忽略的贡献。通常所说的上位性,指的是来自同一基因组的两个基因之间的互作;然而在种子性状中,存在着两个不同的基因组,因此上位性的两个基因可能是来自不同的基因组。随着人们对上位性的重要性的深入了解,大量的遗传模型已经被提出来。在种子性状的研究中,Cui(Cui Y,Wu R.Mapping Genome-genome Epistasis:A High-dimensionalModel.Bioinformatics,2005,21(10):2447-2455)提出了一种统计方法和框架去探索母体和后代的基因组之间的互作关系。
然而,迄今为止,尚未见有报道环境效应以及基因与环境的互作效应,也没有把上位性和基因与环境互作效应整合在一个模型中的方法。
发明内容
本发明提供了一种基于混合线性模型种子数量性状位点定位方法,充分考虑到种子性状的遗传机制,把种子性状分成主要以胚控制的二倍体种子和主要以胚乳控制的三倍体种子。在本发明中,把母体基因组和后代基因组整合在同一个遗传模型中,同时把同一基因组和不同基因组之间的上位性效应以及基因与环境互作的效应加入到模型中,能够快速无偏的估计种子数量性状位点的位置以及各种效应,提高了育种学家进行分子辅助育种的效率和精确性。
一种基于混合线性模型的三倍体种子数量性状位点定位方法,包括:
(1)统计遗传模型的建立:
对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混合线性模型(1)表示:
y h i j = μ h + Σ k s ( a k m x k i A m + d k m x k i D m + a k e x k i A e + d k e x k i D e ) + e h + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aa k l m m x k i A m x l i A m + aa k l e e x k i A e x l i A e + aa k l m e x k i A m x l i A e + aa k l e m x k i A e x l i A m ) + Σ k s ( ae k h m x k i A m + de k h m x k i D m + ae k h e x k i A e + de k h e x k i D e ) + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aae k l h m m x k i A m x l i A m + aae k l h e e x k i A e x l i A e + aae k l h m e x k i A m x l i A e + aae k l h e m x k i A e x l i A m ) + B j ( h ) + ϵ h i j - - - ( 1 ) ;
其中,模型(1)中的分别是Qk的母体加性和母体显性效应,对应的系数分别为分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应,分别是Qk的胚乳加性、胚乳显性效应,对应系数分别是分别是Qk的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应,分别是Qk母体加性和Ql母体加性的互作效应,Qk胚乳加性和Ql胚乳加性的互作效应,Qk母体加性和Ql胚乳加性的互作效应,Qk胚乳加性和Ql母体加性的互作效应,对应的系数分别是和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;μh是群体在环境h中的平均数;eh是第h个环境的随机效应,Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
基于模型(2),在全基因组范围内,通过表型和每个标记区间做基于HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:
y h i j = μ h + ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e + ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e + B j ( h ) + ϵ h i j - - - ( 2 ) ;
其中,t(t=1,…,T)表示在T个总区间中的第t个标记区间;分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的右边标记的胚乳加性,在环境h中第t个区间的右边标记的胚乳显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的胚乳加性,在环境h中第t个区间的左边标记的胚乳显性效应,对应的系数分别为其余参数的含义与模型(1)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(3)的协变量,然后基于模型(3),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
y h i j = μ h + x k i A m a k h m + x k i D m d k h m + x k i A e a k h e + x k i D e d k h e + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e ) + B j ( h ) + ϵ h i j - - - ( 3 ) ;
其中,分别是QTL k在环境h中的母体加性和显性效应;分别是胚乳加性和显性效应;其余参数的含义与模型(1)和模型(2)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(4)的协变量,然后基于模型(4),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到显著的二互作标记区间;
y h i j = μ h + aa h + m + m ζ l i + A m ζ r i + A m + aa h + m + e ζ l i + A m ζ r i + A e + aa h + e + m ζ l i + A e ζ r i + A m + aa h + e + e ζ l i + A e ζ r i + A e + aa h - m - m ζ l i - A m ζ r i - A m + aa h - m - e ζ l i - A m ζ r i - A e + aa h - e - m ζ l i - A e ζ r i - A m + aa h - e - e ζ l i - A e ζ r i - A e + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e ) + B j ( h ) + ϵ h i j - - - ( 4 )
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余的参数与模型(1)和(2)有相同的定义;
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(5)的协变量,然后基于该模型(5),在所述显著的互作标记区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位点;
y h i j = μ h + aa n m h m m x n i A m x m i A m + aa n m h m e x n i A m x m i A e + aa n m h e m x n i A e x m i A m + aa n m h e e x n i A e x m i A e + Σ t f ( aa t h + m + m ζ t l i + A m ζ t r i + A m + aa t h + m + e ζ t l i + A m ζ t r i + A e + aa t h + e + m ζ t l i + A e ζ t r i + A m + aa t h + e + e ζ t l i + A e ζ t r i + A e ) + Σ t f ( aa t h - m - m ζ t l i - A m ζ t r i - A m + aa t h - m - e ζ t l i - A m ζ t r i - A e + aa t h - e - m ζ t l i - A e ζ t r i - A m + aa t h - e - e ζ t l i - A e ζ t r i - A e ) + Σ k p ( x k i A m a k h m + x k i D m d k h m + x k i A e a k h e + x k i D e d k h e ) + B j ( h ) + ϵ h i j - - - ( 5 ) ;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的母体加性和位点m的胚乳加性之间的互作效应,对应的系数为是位点n的胚乳加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的胚乳加性和位点m的胚乳加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余参数与模型(3)有相同的定义;
(6)遗传参数的估算:
通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作上位性的位点,获取得到模型(1)中各种效应的系数,然后通过模型(1),计算得到这些位点的效应以及估算每个位点的遗传率。步骤(6)中,通过模型(1),计算得到这些位点的效应以及估算每个位点的遗传率时,首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最小二乘法(OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测,然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛(MCMC)循环链中,通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及估算每个位点的遗传率。
一种基于混合线性模型的二倍体种子数量性状位点定位方法,包括:
(1)统计遗传模型的建立
对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混合线性模型表示:
y h i j = μ h + Σ k s ( a k m x k i A m + d k m x k i D m + a k o x k i A o + d k o x k i D o ) + e h + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aa k l m m x k i A m x l i A m + aa k l o o x k i A o x l i A o + aa k l m o x k i A m x l i A o + aa k l o m x k i A o x l i A m ) + Σ k s ( ae k h m x k i A m + de k h m x k i D m + ae k h o x k i A o + de k h o x k i D o ) + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aae k l h m m x k i A m x l i A m + aae k l h o o x k i A o x l i A o + aae k l h m o x k i A m x l i A o + aae k l h o m x k i A o x l i A m ) + B j ( h ) + ϵ h i j - - - ( 6 ) ;
其中,μh是群体在环境h中的平均数;分别是Qk的母体加性和母体显性效应,对应的系数分别为分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应, 分别是Qk母体加性和Ql母体加性的互作效应,对应的系数分别是和环境h的互作效应;分别是Qk的胚加性和胚显性效应,对应系数分别是eh是第h个环境的随机效应, 分别是Qk的胚加性与环境的互作效应,胚显性与环境的互作效应,分别是Qk的胚加性效应和Ql胚加性效应之间的上位性,Qk的母体加性效应和Ql胚加性效应之间的上位性,Qk的胚加性效应和Ql母体加性效应之间的上位性,对应的系数分别为 和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
基于模型(7),在全基因组范围内,通过表型和每个标记区间做基于HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:
y h i j = μ h + ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o + ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A o a t h - o + ζ t i - D o d t h - o + B j ( h ) + ϵ h i j - - - ( 7 ) ;
其中,分别代表在环境h中第t个区间的右边标记的胚加性和环境h中第t个区间的右边标记的胚显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的胚加性和环境h中第t个区间的左边标记的胚显性效应,对应的系数分别为分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为其余参数的含义和模型(6)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(8)的协变量,然后基于模型(8),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
y h i j = μ h + x k i A m a k h m + x k i D m d k h m + x k i A o a k h o + x k i D o d k h o + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A o a t h - o + ζ t i - D o d t h - o ) + B j ( h ) + ϵ h i j - - - ( 8 ) ;
其中,分别是QTL k在环境h中的母体加性和显性效应;分别是胚加性和胚显性效应,对应的系数分别为其余参数的含义与模型(6)和模型(7)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(9)的协变量,然后基于模型(9),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到显著的二互作标记区间;
y h i j = μ h + aa h + m + m ζ l i + A m ζ r i + A m + aa h + m + o ζ l i + A m ζ r i + A o + aa h + o + m ζ l i + A o ζ r i + A m + aa h + o + o ζ l i + A o ζ r i + A o + aa h - m - m ζ l i - A m ζ r i - A m + aa h - m - o ζ l i - A m ζ r i - A o + aa h - o - m ζ l i - A o ζ r i - A m + aa h - o - o ζ l i - A o ζ r i - A o + Σ t = 1 c ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o ) + Σ t = 1 c ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D o d t h - o ) + B j ( h ) + ϵ h i j - - - ( 9 ) ;
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,其对应的系数为代表互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,其对应的系数为其余的参数与模型(8)有相同的定义。
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(10)协变量,然后基于该模型(10),在所述显著的互作标记区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位点;
y h i j = μ h + aa n m h m m x n i A m x m i A m + aa n m h m o x n i A m x m i A o + aa n m h o m x n i A o x m i A m + aa n m h o o x n i A o x m i A o + Σ t f ( aa t h + m + m ζ t l i + A m ζ t r i + A m + aa t h + m + o ζ t l i + A m ζ t r i + A o + aa t h + o + m ζ t l i + A o ζ t r i + A m + aa t h + o + o ζ t l i + A o ζ t r i + A o ) + Σ t f ( aa t h - m - m ζ t l i - A m ζ t r i - A m + aa t h - m - o ζ t l i - A m ζ t r i - A o + aa t h - o - m ζ t l i - A o ζ t r i - A m + aa t h - o - o ζ t l i - A o ζ t r i - A o ) + Σ k p ( x k i A m a k h m + x k i D m d k h m + x k i A o a k h o + x k i D o d k h o ) + B j ( h ) + ϵ h i j - - - ( 10 ) ;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为是位点n的母体加性和位点m的胚加性之间的互作效应,对应的系数为是位点n的胚加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的胚加性和位点m的胚加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,对应的系数为其余参数与模型(8)有相同的定义;
(6)遗传参数的估算:
通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作上位性的位点,获取得到模型(6)中各种效应的系数,然后通过模型(6),计算得到这些位点的效应以及估算每个位点的遗传率。步骤(6)中,通过模型(6),计算得到这些位点的效应以及估算每个位点的遗传率时,首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计法获得,固定效应的估计通过最小二乘法获得,随机效应通过调整的无偏预测法预测,然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛循环链中,通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及估算每个位点的遗传率。
与现有技术相比,本发明的有益效果为:
(1)利用混合线性模型分析种子性状的特点,同时考虑母体基因组和后代基因组,虽然参数的数量增加了许多,但是计算速度还是比较快;
(2)考虑了同一基因组内的上位性以及不同基因组之间的上位性,能够更全面的解释种子性状的遗传变异;
(3)能够处理多个环境下的数据,给出基因与环境互作效应的无偏估计,从而能够获得特定适应性的品种或广谱适应性的品种;
(4)跟Zhang和Cui的方法相比,我们提出的上位性的两个位点假设在母体基因组和后代基因组中都有效应,不仅仅局限于每个位点仅在一个基因组中有效应;
(5)混合线性模型具有很大的灵活性,模型扩展非常方便。
具体实施方式
下面结合具体实施例对本发明作进一步阐释。
本发明基于混合线性模型的种子数量性状位点定位方法,将种子分为三倍体种子和二倍体种子。
1、如果分析的性状主要受母体和胚乳遗传效应的控制,则方法包括:
(1)统计遗传模型的建立:
根据种子的特征和实验目的,建立种子性状的合适的统计遗传模型。对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组。某一种子性状的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混合线性模型(1)表示:
y h i j = μ h + Σ k s ( a k m x k i A m + d k m x k i D m + a k e x k i A e + d k e x k i D e ) + e h + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aa k l m m x k i A m x l i A m + aa k l e e x k i A e x l i A e + aa k l m e x k i A m x l i A e + aa k l e m x k i A e x l i A m ) + Σ k s ( ae k h m x k i A m + de k h m x k i D m + ae k h e x k i A e + de k h e x k i D e ) + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aae k l h m m x k i A m x l i A m + aae k l h e e x k i A e x l i A e + aae k l h m e x k i A m x l i A e + aae k l h e m x k i A e x l i A m ) + B j ( h ) + ϵ h i j - - - ( 1 ) ;
其中,模型(1)中的分别是Qk的母体加性和母体显性效应,对应的系数分别为分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应,分别是Qk的胚乳加性、胚乳显性效应,对应系数分别是分别是Qk的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应,分别是Qk母体加性和Ql母体加性的互作效应,Qk胚乳加性和Ql胚乳加性的互作效应,Qk母体加性和Ql胚乳加性的互作效应,Qk胚乳加性和Ql母体加性的互作效应,对应的系数分别是和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;μh是群体在环境h中的平均数;eh是第h个环境的随机效应,Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
在全基因组范围内,通过表型和每个标记区间做基于HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间。搜索所有可能存在QTL的候选标记区间。为了使我们的说明不失一般化,我们基于模型(1)来给出在全基因组搜索显著区间的遗传模型:
y h i j = μ h + ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e + ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e + B j ( h ) + ϵ h i j - - - ( 2 ) ;
其中,t(t=1,…,T)表示在T个总区间中的第t个标记区间;分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的右边标记的胚乳加性,在环境h中第t个区间的右边标记的胚乳显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的胚乳加性,在环境h中第t个区间的左边标记的胚乳显性效应,对应的系数分别为其余参数的含义与模型(1)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(3)的协变量,然后基于模型(3),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
y h i j = μ h + x k i A m a k h m + x k i D m d k h m + x k i A e a k h e + x k i D e d k h e + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e ) + B j ( h ) + ϵ h i j - - - ( 3 ) ;
其中,分别是QTL k在环境h中的母体加性和显性效应;分别是胚乳加性和显性效应;其余参数的含义与模型(1)和模型(2)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(4)的协变量,然后基于模型(4),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到显著的二互作标记区间;
y h i j = μ h + aa h + m + m ζ l i + A m ζ r i + A m + aa h + m + e ζ l i + A m ζ r i + A e + aa h + e + m ζ l i + A e ζ r i + A m + aa h + e + e ζ l i + A e ζ r i + A e + aa h - m - m ζ l i - A m ζ r i - A m + aa h - m - e ζ l i - A m ζ r i - A e + aa h - e - m ζ l i - A e ζ r i - A m + aa h - e - e ζ l i - A e ζ r i - A e + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A e a t h + e + ζ t i + D e d t h + e ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D e d t h - e ) + B j ( h ) + ϵ h i j - - - ( 4 )
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余的参数与模型(1)和(2)有相同的定义;
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(5)的协变量,然后基于该模型(5),在显著的互作标记区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位点;
y h i j = μ h + aa n m h m m x n i A m x m i A m + aa n m h m e x n i A m x m i A e + aa n m h e m x n i A e x m i A m + aa n m h e e x n i A e x m i A e + Σ t f ( aa t h + m + m ζ t l i + A m ζ t r i + A m + aa t h + m + e ζ t l i + A m ζ t r i + A e + aa t h + e + m ζ t l i + A e ζ t r i + A m + aa t h + e + e ζ t l i + A e ζ t r i + A e ) + Σ t f ( aa t h - m - m ζ t l i - A m ζ t r i - A m + aa t h - m - e ζ t l i - A m ζ t r i - A e + aa t h - e - m ζ t l i - A e ζ t r i - A m + aa t h - e - e ζ t l i - A e ζ t r i - A e ) + Σ k p ( x k i A m a k h m + x k i D m d k h m + x k i A e a k h e + x k i D e d k h e ) + B j ( h ) + ϵ h i j - - - ( 5 ) ;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的母体加性和位点m的胚乳加性之间的互作效应,对应的系数为是位点n的胚乳加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的胚乳加性和位点m的胚乳加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余参数与模型(3)有相同的定义;
(6)遗传参数的估算:
获得这些单位点和二互作的上位性的具体位置之后,我们就可以得到该位置的每种基因型的条件概率,从而得到模型中的系数。我们可以采用模型(1)计算这些位点的效应以及估算每个位点的遗传率。为了得到这些效应值,我们首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最小二乘法(OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测。然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛(MCMC)循环链中。通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及统计推断。
2、如果分析的性状主要受母体和胚遗传效应的控制,则方法包括:
(1)统计遗传模型的建立
根据种子的特征和实验目的,建立种子性状的合适的统计遗传模型。对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组。某一种子性状的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,如果性状的变异主要受母体、胚遗传效应的控制,则可采用包括母体加性、显性、胚加性、胚显性,上位性以及这些遗传分量与环境的互作效应模型进行QTL分析。环境h中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混合线性模型表示:
y h i j = μ h + Σ k s ( a k m x k i A m + d k m x k i D m + a k o x k i A o + d k o x k i D o ) + e h + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aa k l m m x k i A m x l i A m + aa k l o o x k i A o x l i A o + aa k l m o x k i A m x l i A o + aa k l o m x k i A o x l i A m ) + Σ k s ( ae k h m x k i A m + de k h m x k i D m + ae k h o x k i A o + de k h o x k i D o ) + Σ k , l ∈ ( 1 , 2 , ... s ) , k ≠ l t ( aae k l h m m x k i A m x l i A m + aae k l h o o x k i A o x l i A o + aae k l h m o x k i A m x l i A o + aae k l h o m x k i A o x l i A m ) + B j ( h ) + ϵ h i j - - - ( 6 ) ;
其中,μh是群体在环境h中的平均数;分别是Qk的母体加性和母体显性效应,对应的系数分别为分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应, 分别是Qk母体加性和Ql母体加性的互作效应,对应的系数分别是和环境h的互作效应;分别是Qk的胚加性和胚显性效应,对应系数分别是eh是第h个环境的随机效应, 分别是Qk的胚加性与环境的互作效应,胚显性与环境的互作效应,分别是Qk的胚加性效应和Ql胚加性效应之间的上位性,Qk的母体加性效应和Ql胚加性效应之间的上位性,Qk的胚加性效应和Ql母体加性效应之间的上位性,对应的系数分别为 和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
基于模型(7),在全基因组范围内,通过表型和每个标记区间做基于HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:
y h i j = μ h + ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o + ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A o a t h - o + ζ t i - D o d t h - o + B j ( h ) + ϵ h i j - - - ( 7 ) ;
其中,分别代表在环境h中第t个区间的右边标记的胚加性和环境h中第t个区间的右边标记的胚显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的胚加性和环境h中第t个区间的左边标记的胚显性效应,对应的系数分别为分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为其余参数的含义和模型(6)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(8)的协变量,然后基于模型(8),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
y h i j = μ h + x k i A m a k h m + x k i D m d k h m + x k i A o a k h o + x k i D o d k h o + Σ t = 1 s ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o ) + Σ t = 1 s ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A o a t h - o + ζ t i - D o d t h - o ) + B j ( h ) + ϵ h i j - - - ( 8 ) ;
其中,分别是QTL k在环境h中的母体加性和显性效应;分别是胚加性和胚显性效应,对应的系数分别为其余参数的含义与模型(6)和模型(7)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(9)的协变量,然后基于模型(9),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到显著的二互作标记区间;
y h i j = μ h + aa h + m + m ζ l i + A m ζ r i + A m + aa h + m + o ζ l i + A m ζ r i + A o + aa h + o + m ζ l i + A o ζ r i + A m + aa h + o + o ζ l i + A o ζ r i + A o + aa h - m - m ζ l i - A m ζ r i - A m + aa h - m - o ζ l i - A m ζ r i - A o + aa h - o - m ζ l i - A o ζ r i - A m + aa h - o - o ζ l i - A o ζ r i - A o + Σ t = 1 c ( ζ t i + A m a t h + m + ζ t i + D m d t h + m + ζ t i + A o a t h + o + ζ t i + D o d t h + o ) + Σ t = 1 c ( ζ t i - A m a t h - m + ζ t i - D m d t h - m + ζ t i - A e a t h - e + ζ t i - D o d t h - o ) + B j ( h ) + ϵ h i j - - - ( 9 ) ;
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,其对应的系数为代表互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,其对应的系数为代表互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,其对应的系数为其余的参数与模型(8)有相同的定义。
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(10)协变量,然后基于该模型(10),在所述显著的互作标记区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位点;
y h i j = μ h + aa n m h m m x n i A m x m i A m + aa n m h m o x n i A m x m i A o + aa n m h o m x n i A o x m i A m + aa n m h o o x n i A o x m i A o + Σ t f ( aa t h + m + m ζ t l i + A m ζ t r i + A m + aa t h + m + o ζ t l i + A m ζ t r i + A o + aa t h + o + m ζ t l i + A o ζ t r i + A m + aa t h + o + o ζ t l i + A o ζ t r i + A o ) + Σ t f ( aa t h - m - m ζ t l i - A m ζ t r i - A m + aa t h - m - o ζ t l i - A m ζ t r i - A o + aa t h - o - m ζ t l i - A o ζ t r i - A m + aa t h - o - o ζ t l i - A o ζ t r i - A o ) + Σ k p ( x k i A m a k h m + x k i D m d k h m + x k i A o a k h o + x k i D o d k h o ) + B j ( h ) + ϵ h i j - - - ( 10 ) ;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为是位点n的母体加性和位点m的胚加性之间的互作效应,对应的系数为是位点n的胚加性和位点m的母体加性之间的互作效应,对应的系数为是位点n的胚加性和位点m的胚加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,对应的系数为其余参数与模型(8)有相同的定义;
(6)遗传参数的估算:
获得这些单位点和二互作的上位性的具体位置之后,我们就可以得到该位置的每种基因型的条件概率,从而得到模型中的系数。我们可以采用模型(6)计算这些位点的效应以及估算每个位点的遗传率。为了得到这些效应值,我们首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最小二乘法(OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测。然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛(MCMC)循环链中。通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及统计推断。
下面结合具体应用例进行说明。
(1)供试材料
188个重组自交系是来自两个棉花亲本,HS46和MARCABUCAG8US-1-88的杂交后代的自交8代。FP(衣分)性状在双亲中呈现显著表型遗传差异且表现连续分布,同时该性状比较容易测定。在本研究中,188个重组自交系中每两个重组自交系随机交配,在开花期产生376个永久F2用于种子性状的分析。所选的定位群体和定位数量性状均适应于本方法的实施。
(2)分子遗传图谱
本方法实施所采用分子遗传图谱以“HS46×MARCABUCAG8US-1-88”重组自交系群体188个株系构建分子遗传图谱为定位图谱。该图谱包含388个分子标记(Liu H,QuampahA.QTL Mapping Based on Different Genetic Systems for Essential Amino AcidContents in Cottonseeds in Different Environmrnts.Plos One,2013,8(3):e57531),分布在30个连锁群,图谱覆盖基因组全长1946.22cM,覆盖了全基因组的41.55%,相邻标记间的间距为5.03cM。
(3)QTL作图软件及方法
本方法实施所采用的软件是基于上述本研究的方法所编写的QTLNetwork-seed软件。采用混合线性模型进行主效QTL以及上位性的定位,并估算主效QTL,上位性以及环境互作的遗传参数。
在2009年、2010年分别将含有188个株系的“HS46×MARCABUCAG8US-1-88”重组自交系群体以及双亲种植于海南三亚中国农业科学院棉花研究所实验基地。实验是以随机区组试验设计,并进行了两次重复,按照株行间距25×80cm的规格。在开花期,根据双列杂交试验设计,在188个重组自交系中两两随机交配产生376个杂交后代。在一个RIL植株中产生的IF2种子形成IF2群体。其中,IF2群体结合了RIL和F2的优点。用于本方法实施研究的数量性状为棉花种子种的FP。
棉花种子在轧花之后,将纤维从棉花籽中除去并干燥。每个样本中搜集200粒种子,并磨成粉末状。粉末状的样本在温度为25℃,湿度大约为7%的环境下干燥。近红外扫描所有样品,得到FP的光谱信息。利用分子遗传图谱、混合线性模型以及表型性状进行QTL定位分析。结果发现,在第19、第21条染色体上分别检测到一个控制FP性状的主效QTL,并且这两个QTL都对环境敏感。此外,还发现两队上位性,分别是4-2,25-13和4-2,20-2,这些上位性对环境也较敏感,而这些参与上位性的QTL均未检测到主效应的存在。
本发明采用QTL作图技术,考虑到种子的遗传机制,创建了一种基于混合线性模型的种子性状的基因定位的方法,提高了QTL定位研究的准确性、可靠性,必将加快基因定位研究进展。
最后,还需要特别注意的是,以上所举例子仅是本发明的具体实施例子。显然,本发明不仅仅限于以上实施例子,还可以有许多变通的情况。本领域的技术人员从本发明公开的内容直接推导出或联想到的所有变通情况,均认为是本发明的保护范围。

Claims (4)

1.一种基于混合线性模型的三倍体种子数量性状位点定位方法,其特征在于,包括:
(1)统计遗传模型的建立:
对一衍生于两个纯合亲本P1,P2的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状的变异受s个QTL和t个上位性的调控,所述s个QTL分别用Q1,Q2,……,Qs表示,则环境h中第j个区组内第i个株系后代种子性状表型观测值yhij可用下面的混合线性模型(1)表示:
其中,模型(1)中的分别是Qk的母体加性和母体显性效应,对应的系数分别为 分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应, 分别是Qk的胚乳加性、胚乳显性效应,对应系数分别是 分别是Qk的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应, 分别是Qk母体加性和Ql母体加性的互作效应,Qk胚乳加性和Ql胚乳加性的互作效应,Qk母体加性和Ql胚乳加性的互作效应,Qk胚乳加性和Ql母体加性的互作效应,对应的系数分别是 和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;μh是群体在环境h中的平均数;eh是第h个环境的随机效应,Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
基于模型(2),在全基因组范围内,通过表型和每个标记区间做基于Henderson Ⅲ的F检验,搜索得到所有可能存在QTL的候选标记区间:
其中,t表示在T个总区间中的第t个标记区间,t分别用1,…,T表示;分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为 分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为 分别代表在环境h中第t个区间的右边标记的胚乳加性,在环境h中第t个区间的右边标记的胚乳显性效应,对应的系数分别为 分别代表在环境h中第t个区间的左边标记的胚乳加性,在环境h中第t个区间的左边标记的胚乳显性效应,对应的系数分别为其余参数的含义与模型(1)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(3)的协变量,然后基于模型(3),以1cM为步长,在全基因组范围内做基于Henderson Ⅲ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
其中,分别是QTL k在环境h中的母体加性和显性效应;分别是胚乳加性和显性效应;其余参数的含义与模型(1)和模型(2)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(4)的协变量,然后基于模型(4),在全基因组范围内做基于Henderson Ⅲ的F检验,搜索得到显著的二互作标记区间;
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为 代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为 代表互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余的参数与模型(1)和(2)有相同的定义;
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(5)的协变量,然后基于该模型(5),在所述显著的互作标记区间中做基于Henderson Ⅲ的F检验,搜索得到显著的二互作上位性的位点;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应, 对应的系数为 是位点n的母体加性和位点m的胚乳加性之间的互作效应,对应的系数为 是位点n的胚乳加性和位点m的母体加性之间的互作效应,对应的系数为 是位点n的胚乳加性和位点m的胚乳加性之间的互作效应,对应的系数为 代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为其余参数与模型(3)有相同的定义;
(6)遗传参数的估算:
通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作上位性的位点,获取得到模型(1)中各种效应的系数,然后通过模型(1),计算得到这些位点的效应以及估算每个位点的遗传率。
2.如权利要求1所述的方法,其特征在于,步骤(6)中,通过模型(1),计算得到这些位点的效应以及估算每个位点的遗传率时,首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计法获得,固定效应的估计通过最小二乘法获得,随机效应通过调整的无偏预测法预测,然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛循环链中,通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及估算每个位点的遗传率。
3.一种基于混合线性模型的二倍体种子数量性状位点定位方法,其特征在于,包括:
(1)统计遗传模型的建立
对一衍生于两个纯合亲本P1,P2的交配作图群体,假设在t个不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状的变异受s个QTL和t个上位性的调控,所述s个QTL分别用Q1,Q2,……,Qs表示,则环境h中第j个区组内第i个株系后代种子性状表型观测值yhij可用下面的混合线性模型表示:
其中,μh是群体在环境h中的平均数;分别是Qk的母体加性和母体显性效应,对应的系数分别为 分别是Qk的母体加性与环境h的互作效应,母体显性效应与环境h的互作效应, 是Qk母体加性和Ql母体加性的互作效应,对应的系数是 和环境h的互作效应; 分别是Qk的胚加性和胚显性效应,对应系数分别是 eh是第h个环境的随机效应, 分别是Qk的胚加性与环境的互作效应,胚显性与环境的互作效应, 分别是Qk的胚加性效应和Ql胚加性效应之间的上位性,Qk的母体加性效应和Ql胚加性效应之间的上位性,Qk的胚加性效应和Ql母体加性效应之间的上位性,对应的系数分别为 和环境h的互作效应;和环境h的互作效应;和环境h的互作效应;Bj(h)是环境内的区组效应,εhij是剩余效应,
(2)全基因组扫描显著的标记区间:
基于模型(7),在全基因组范围内,通过表型和每个标记区间做基于Henderson Ⅲ的F检验,搜索得到所有可能存在QTL的候选标记区间:
其中,分别代表在环境h中第t个区间的右边标记的胚加性和环境h中第t个区间的右边标记的胚显性效应,对应的系数分别为 分别代表在环境h中第t个区间的左边标记的胚加性和环境h中第t个区间的左边标记的胚显性效应,对应的系数分别为 分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应,对应的系数分别为 分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应,对应的系数分别为其余参数的含义和模型(6)中的相同;
(3)在全基因组范围内搜索显著的数量性状位点:
将步骤(2)中得到的候选标记区间作为模型(8)的协变量,然后基于模型(8),以1cM为步长,在全基因组范围内做基于Henderson Ⅲ的F检验,搜索显著的QTL位点;
如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性模型如下:
其中,分别是QTL k在环境h中的母体加性和显性效应,对应的系数分别为 分别是QTL k在环境h中的胚加性和胚显性效应,对应的系数分别为其余参数的含义与模型(6)和模型(7)中的相同;
(4)在全基因组范围内搜索显著的二互作标记区间:
将步骤(2)中得到的候选标记区间作为模型(9)的协变量,然后基于模型(9),在全基因组范围内做基于Henderson Ⅲ的F检验,搜索得到显著的二互作标记区间;
其中,l和r表示每一对互作标记区间的两个区间;代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,其对应的系数为 代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,其对应的系数为 代表互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,其对应的系数为 代表互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,其对应的系数为 代表互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,其对应的系数为 代表互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,其对应的系数为其余的参数与模型(8)有相同的定义;
(5)搜索显著的二互作上位性的位点:
以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为模型(10)协变量,然后基于该模型(10),在所述显著的互作标记区间中做基于Henderson Ⅲ的F检验,搜索得到显著的二互作上位性的位点;
其中,是位点n的母体加性和位点m的母体加性之间的互作效应,对应的系数为 代表第t个互作标记区间的区间l右边标记的母 体加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 是位点n的母体加性和位点m的胚加性之间的互作效应,对应的系数为 是位点n的胚加性和位点m的母体加性之间的互作效应,对应的系数为 是位点n的胚加性和位点m的胚加性之间的互作效应,对应的系数为 代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作,对应的系数为其余参数与模型(8)有相同的定义;
(6)遗传参数的估算:
通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作上位性的位点,获取得到模型(6)中各种效应的系数,然后通过模型(6),计算得到这些位点的效应以及估算每个位点的遗传率。
4.如权利要求3所述的方法,其特征在于,步骤(6)中,通过模型(6),计算得到这些位点的效应以及估算每个位点的遗传率时,首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶无偏估计法获得,固定效应的估计通过最小二乘法获得,随机效应通过调整的无偏预测法预测,然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛循环链中,通过归纳吉布斯的所有样本的结果,最终得到每个效应的估计值以及估算每个位点的遗传率。
CN201310549029.0A 2013-11-07 2013-11-07 一种基于混合线性模型的种子数量性状位点定位方法 Active CN103632067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310549029.0A CN103632067B (zh) 2013-11-07 2013-11-07 一种基于混合线性模型的种子数量性状位点定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310549029.0A CN103632067B (zh) 2013-11-07 2013-11-07 一种基于混合线性模型的种子数量性状位点定位方法

Publications (2)

Publication Number Publication Date
CN103632067A CN103632067A (zh) 2014-03-12
CN103632067B true CN103632067B (zh) 2016-08-17

Family

ID=50213106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310549029.0A Active CN103632067B (zh) 2013-11-07 2013-11-07 一种基于混合线性模型的种子数量性状位点定位方法

Country Status (1)

Country Link
CN (1) CN103632067B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740649B (zh) * 2016-01-22 2018-06-19 浙江大学 一种基于混合线性模型的多性状关联分析方法
CN105706909B (zh) * 2016-02-03 2018-01-12 云南省农业科学院粮食作物研究所 一种构建qtl定位的连锁f2群体的方法
CN107169311A (zh) * 2017-05-17 2017-09-15 湖南农业大学 基于ril群体的扩展三向测交设计qtl作图法
US10769136B2 (en) * 2017-11-29 2020-09-08 Microsoft Technology Licensing, Llc Generalized linear mixed models for improving search
CN108197435B (zh) * 2018-01-29 2022-02-25 绥化学院 一种基于标记位点基因型含有误差的多性状多区间定位方法
CN109448794B (zh) * 2018-10-31 2021-04-30 华中农业大学 一种基于遗传禁忌和贝叶斯网络的上位性位点挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350590A (zh) * 1999-02-01 2002-05-22 加拿大纸浆和纸张研究所 利用qtl和分子标记预测纤维长度的方法
CN1442039A (zh) * 2003-01-28 2003-09-17 江苏省农业科学院 与小麦赤霉病抗性主效qtl紧密连锁的分子标记及其应用
CN1448515A (zh) * 2002-04-02 2003-10-15 浙江大学 基于基因组外显子芯片的数量性状基因位点定位新方法
CN1849064A (zh) * 2003-07-07 2006-10-18 先锋高级育种国际公司 Qtl“随时定位”方法
CN102369531A (zh) * 2009-02-06 2012-03-07 先正达参股股份有限公司 用于选择统计上确认的候选基因的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2523751A1 (en) * 2003-05-01 2004-11-11 Japan Science And Technology Agency Array having substances fixed on support arranged with chromosomal order or sequence position information added thereto, process for producing the same, analytical system using the array and use of these

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1350590A (zh) * 1999-02-01 2002-05-22 加拿大纸浆和纸张研究所 利用qtl和分子标记预测纤维长度的方法
CN1448515A (zh) * 2002-04-02 2003-10-15 浙江大学 基于基因组外显子芯片的数量性状基因位点定位新方法
CN1442039A (zh) * 2003-01-28 2003-09-17 江苏省农业科学院 与小麦赤霉病抗性主效qtl紧密连锁的分子标记及其应用
CN1849064A (zh) * 2003-07-07 2006-10-18 先锋高级育种国际公司 Qtl“随时定位”方法
CN102369531A (zh) * 2009-02-06 2012-03-07 先正达参股股份有限公司 用于选择统计上确认的候选基因的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Statistical method for mapping QTLs for complex traits based on two backcross populations;Zhu ZhiHong 等;《Chinese Science Bulletin》;20120725;第57卷(第21期);2645-2654 *

Also Published As

Publication number Publication date
CN103632067A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103632067B (zh) 一种基于混合线性模型的种子数量性状位点定位方法
Broquet et al. Molecular estimation of dispersal for ecology and population genetics
Gutiérrez-Rodríguez et al. Chloroplast DNA phylogeography of a distylous shrub (Palicourea padifolia, Rubiaceae) reveals past fragmentation and demographic expansion in Mexican cloud forests
Malavasi et al. DNA-based taxonomy in ecologically versatile microalgae: a re-evaluation of the species concept within the coccoid green algal genus Coccomyxa (Trebouxiophyceae, Chlorophyta)
Li et al. Molecular phylogeny and systematics of the banana family (Musaceae) inferred from multiple nuclear and chloroplast DNA fragments, with a special reference to the genus Musa
Roy et al. Genetic diversity and structure in hill rice (Oryza sativa L.) landraces from the North-Eastern Himalayas of India
Lefebvre et al. Evaluation of genetic distances between pepper inbred lines for cultivar protection purposes: comparison of AFLP, RAPD and phenotypic data
Lakušić et al. Molecular phylogeny of the Campanula pyramidalis species complex (Campanulaceae) inferred from chloroplast and nuclear non‐coding sequences and its taxonomic implications
Postaire et al. Molecular species delimitation methods and population genetics data reveal extensive lineage diversity and cryptic species in Aglaopheniidae (Hydrozoa)
Cheng et al. Phylogenetic relationships in the Festuca-Lolium complex (Loliinae; Poaceae): new insights from chloroplast sequences
Pratap et al. Genome scanning of Asiatic Vigna species for discerning population genetic structure based on microsatellite variation
Tobiaw et al. Analysis of genetic diversity among cultivated enset (Ensete ventricosum) populations from Essera and Kefficho, southwestern part of Ethiopia using inter simple sequence repeats (ISSRs) marker
Chen et al. Phylogeography, speciation and demographic history: Contrasting evidence from mitochondrial and nuclear markers of the Odorrana graminea sensu lato (Anura, Ranidae) in China
Liu et al. Morphological and genetic variation along a north-to-south transect in Stipa purpurea, a dominant grass on the Qinghai-Tibetan Plateau: implications for response to climate change
Singh et al. Comparative agronomic performance and reaction to Fusarium wilt of Lens culinaris× L. orientalis and L. culinaris× L. ervoides derivatives
Pedraza-Lara et al. Montane and coastal species diversification in the economically important Mexican grasshopper genus Sphenarium (Orthoptera: Pyrgomorphidae)
Doroshkov et al. Morphological characterization and inheritance of leaf hairiness in wheat (Triticum aestivum L.) as analyzed by computer-aided phenotyping
Yang et al. Protognetaceae: A new gnetoid macrofossil family from the Jurassic of northeastern China
Szudarek-Trepto et al. Long-term stasis in acariform mites provides evidence for morphologically stable evolution: Molecular vs. morphological differentiation in Linopodes (Acariformes; Prostigmata)
Yue et al. Systematics of the genus Salweenia (Leguminosae) from Southwest China with discovery of a second species
Boykin et al. Two lineages of Arctostaphylos (Ericaceae) identified using the internal transcribed spacer (ITS) region of the nuclear genome
Buckland et al. High risks of losing genetic diversity in an endemic Mauritian gecko: implications for conservation
CN105506075A (zh) 一种与梨黑斑病抗性相关的snp标记及应用
Aghaei et al. Analysis of population structure and genetic diversity of Iranian Wild Salicornia (Salicornia iranica Akhani) population
Piao et al. Bayesian dissection for genetic architecture of traits associated with nitrogen utilization efficiency in rice

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant