CN103699815B - 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 - Google Patents
一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 Download PDFInfo
- Publication number
- CN103699815B CN103699815B CN201410013164.8A CN201410013164A CN103699815B CN 103699815 B CN103699815 B CN 103699815B CN 201410013164 A CN201410013164 A CN 201410013164A CN 103699815 B CN103699815 B CN 103699815B
- Authority
- CN
- China
- Prior art keywords
- frequency
- site
- haplotype
- genotype
- kinds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 59
- 108700028369 Alleles Proteins 0.000 claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims description 30
- 238000000546 chi-square test Methods 0.000 claims description 6
- 238000000528 statistical test Methods 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 2
- 208000035199 Tetraploidy Diseases 0.000 abstract description 5
- 238000012360 testing method Methods 0.000 description 47
- 238000002474 experimental method Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 208000020584 Polyploidy Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000005094 computer simulation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000021121 meiosis Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241000218922 Magnoliophyta Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 229930013930 alkaloid Natural products 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,包括:对来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;两个位点产生16单倍型,且分别都具有35种基因型,但在遗传上每个位点能够识别的四倍体基因型有只有15种,因此两个位点共产生225种基因型;从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量;根据单体型频率计算相应的配子频率,并根据配子频率计算计算相应的基因型频率;计算基因型频率;计算单倍型基因频率;通过单倍型基因频率获取两个位点的等位基因的估算频率;通过单倍型基因频率计算每两个位点间的连锁不平衡系数;然后进行验证。
Description
技术领域
本发明涉及生物建模技术领域,特别是指一种同源四倍体自然群体的连锁不平衡分析模型的构建方法。
背景技术
半数以上的被子植物是多倍体,或在其进化史上出现过多倍体现象,故此多倍体对于植物的遗传与进化研究具有重要的价值。同源四倍体作为自然界中常见的多倍体,是研究多倍体时常用的材料,分析多位点群体遗传研究的重要性已经越来越被认可。连锁不平衡分析是分析自然群体遗传结构、分化、多样性的重要工具。连锁不平衡分析是基于多个位点,可以通过基因组估算程度和非随机组合的分布提供不同物种结构的额外信息。对于一个随机组合群体,两标记间连锁不平衡世代的比例的衰减取决于两标记间的重组率。连锁不平衡的衰减速率为物种复杂性状的高通量作图建立了一个基本原则,因此通过比较LD遗传距离的衰减率,可以推断一个物种的进化历史,但是这一方面目前仅适用于二倍体自然群体,至今仍没有一种同源四倍体两位点的连锁不平衡分析模型。
发明内容
本发明要解决的技术问题是提供一种能够构建同源四倍体进行两位点连锁不平衡分析模型的方法。
为了解决上述问题,本发明实施例提出了一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,包括:
步骤1、对于来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;
其中该位点A具有4个等位基因记为A1,A2,A3,A4;该位点B具有4个等位基因记为B1,B2,B3,B4;其中p1,p2,p3,p4为位点A的基因频率,且p1+p2+p3+p4=1;其中q1,q2,q3,q4为位点B的基因频率,且q1+q2+q3+q4=1;
两个位点产生16单倍型表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4;基因连锁不平衡系数表示为Dij,其代表Ai和Bj的连锁不平衡系数(i=1,2,3,4;j=1,2,3,4,下同);单倍型AiBj频率表示为pij;
步骤2、从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量nu/v;
步骤3、根据单体型频率计算相应的配子频率,并根据配子频率计算相应的基因型频率为pu/v;
如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3;
步骤4、
估算参数,未知单倍型频率Ω=(pij),根据如下似然函数值计算:logL(Ω)=Σnijlog(pij) (1)
由公式(1)获得单倍型频率的最大似然估计
让nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;
根据公式(2)和公式(4)组成EM算法的一个循环;将单倍型频率的初始值来计算在E步骤的公式(4)中φk的估算值;然后使用所计算出的φk的估算值带入M步骤的公式(2)来估算单倍型频率;重复进行E和M步骤,直至单体型频率估计收敛,得到单倍型基因频率的估算值;
根据以下公式,通过单倍型基因频率获取两个位点的等位基因的估算频率;
根据以下公式,通过单倍型基因频率计算每两个位点间的连锁不平衡系数;
;
步骤5、根据以下公式验证估计分布与实际分布是否存在显著性差异;
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
其中H0为同源四倍体各位点不存在连锁不平衡系数;
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;
通过以下公式计算对数似然比的统计学检验
LR是遵循χ2分布,自由度是9;
将计算得到的LR进行卡方检验,判断得到的LR值经卡方检验是否呈显著差异,如果呈显著差异则最终结果为H0,如果不呈显著差异则最终结果为H1。
其中,所述方法还包括:
步骤6、将9个连锁不平衡系数分别进行检验。
其中,所述16单倍型的频率包含以下等位基因频率以及九个独立的连锁不平衡系数:
p11 p1q1+D11
p12 p1q2+D12
p13 p1q3+D13
p14 p1q4-D11-D12-D13
p21 p2q1+D21
p22 p2q2+D22
p23 p2q3+D23
p24 p2q4-D21-D22-D23
p31 p3q1+D31
p32 p3q2+D32
p33 p3q3+D33
p34 p3q4-D31-D32-D33
p41 p4q1-D11-D21-D31
p42 p4q2-D12-D22-D32
p43 p4q3-D13-D23-D33
p44 p4q4+D11+D12+D13+D21+D22+D23+D31+D32+D33
其中,所述位点A和位点B分别都具有35种基因型,在遗传上能够识别基因型共225种;
位点A有,4种AiAiAiAi,其中i=1,2,3,4;12种其中i1≠i2=1,2,3,4;6种其中i1≠i2=1,2,3,4;12种其中i1≠i2≠i3=1,2,3,4;1种A1A2A3A4;
位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种Bj1Bj1Bj1Bj2,其中j1≠j2=1,2,3,4;6种Bj1Bj1Bj2Bj2,其中j1≠j2=1,2,3,4;12种Bj1Bj1Bj2Bj3,其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
两个位点,在遗传上能够识别的四倍体基因型共225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
本发明的上述技术方案的有益效果如下:
本发明实施例提供了一种同源四倍体的连锁不平衡分析方法,提出了一种根据同源四倍体减数分裂的特点推导出计算分子标记之间连锁不平衡的统计模型,并提供了检测各种连锁不平衡系数的方法;通过计算机模拟试验验证了本发明实施例的方法的有效性,指出了模型的适用条件。利用本研究发展的模型,我们可以对同源四倍体进行连锁不平衡检验,观测其连锁不平衡系数,了解其群体的结构。
附图说明
图1为本发明实施例的方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提出了一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,其流程如图1所示的,包括:
步骤1、对于本来自自然群体中一组同源四倍体植物,设置有一个位点A和一个位点B;
其中,该位点A具有4个等位基因,记为A1,A2,A3,A4;该位点B具有4个等位基因,记为B1,B2,B3,B4;其中p1,p2,p3,p4(p1+p2+p3+p4=1)为位点A的基因频率和q1,q2,q3,q4(q1+q2+q3+q4=1)为位点B的基因频率;
两个位点产生16个单倍型(不同位点的等位基因在同一染色体上的线性组合)表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4;基因连锁不平衡系数表示为Dij(i=1,2,3,4;j=1,2,3,4),其代表Ai和Bj的连锁不平衡系数,其中独立的连锁不平衡系数有9个;单倍型AiBj频率表示为pij;
其中,所述16个单倍型的频率包含相应的等位基因频率以及九个独立的连锁不平衡系数,其组成见表1;
表1二倍体配子的单倍型的基因频率的组成
其中,所述两个位点分别都具有35种基因型;
所述位点A有,4种AiAiAiAi(i=1,2,3,4),12种(i1≠i2=1,2,3,4),6种(i1≠i2=1,2,3,4),12种(i1≠i2≠i3=1,2,3,4)和1种A1A2A3A4;
所述位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种Bj1Bj1Bj1Bj2,其中j1≠j2=1,2,3,4;6种Bj1Bj1Bj2Bj2,其中j1≠j2=1,2,3,4;12种Bj1Bj1Bj2Bj3,其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
由于单个位点,在遗传上能够识别的四倍体基因型只有15种,两个位点共产生15*15=225种(见下表A、表B),因此,两位点四倍体基因型只有225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
表A:A位点的15种基因型
表B:B位点的15种基因型。
步骤2、假设从自然群体中随机抽取n个同源四倍体个体,用nu/v表示不同基因型个体数量。
步骤3、基因型频率是由相应的配子频率计算而来,配子频率是由相应的单体型频率计算而来,其相应的基因型频率表达为pu/v;如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3。
步骤4、估算参数,未知单倍型频率Ω=(pij),可根据如下似然函数值算出来:
logL(Ω)=Σnijlog(pij) (1)
其中nij是单倍型为AiBj的个体总数量;从式(1)可得到单倍型频率的最大似然估计,即
如果某种基因型频率不是单一的单倍型频率计算而来,而是多种(如A3/B12,其频率表示为p3/12=2p 3 31+3p31 2p32 2+2p31p32 3);设nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;根据公式(2)和(4)组成EM算法的一个循环;设置单倍型频率的初始值来计算在E步骤(式4)中φk的估算值,使用所计算出的φk的估算值带入M步骤(式2)来估算单倍型频率;重复进行以上E和M步骤,直至单体型频率估计收敛,得到单倍型频率的估算值;两个位点的等位基因的估算频率可通过单倍型频率得到,见表2:
表2A、B两个位点的等位基因频率的估算的推导公式
每两个位点间的连锁不平衡系数的估算也可通过单倍型频率得到,见表3:
表3A、B两位点间连锁不平衡系数的估算的推导公式
步骤5、假设检验是依据一定的概率原则,以较小的风险来判断估计分布与实际分布是否存在显著性差异,是否应当接受H0原假设选择的一种检验方法。
对于是否存在连锁不平衡系数,可以制定以下假设(H0是指同源四倍体各
位点不存在连锁不平衡系数):
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;对数似然比的统计学检验可通过以下方程得到
LR是遵循χ2分布,自由度是9;
最终将得到的LR进行卡方检验,如果得到的LR值经卡方检验呈显著差异,我们则接受H1假设,反之,若不呈显著差异,我们则接受H0假设。
需要说明的是,虽然H0与H1是两个相互对立的假设,但是由于H0假设所有参数都被限定,仅仅包含一种情况。在参数受到限制的时候,似然函数最大值必然会受到约束影响而降低。而H1假设则自由度很高,没有任何的限制,因此似然函数最大值并不会受到约束。所以计算出来的L1是恒定大于等于L0的,因此得到的LR必定是一个非负数。最终计算出的LR是否大于零,也是检验模型的手段之一。
步骤6、上述进行了完全没有连锁不平衡系数和至少有一个系数的假设检验;在这个检验外,还可以9个连锁不平衡系数分别拿出来进行检验,H0是指同源四倍体两个位点的其中一个连锁不平衡系数不存在的情况;例如:
H0:D11=0or D12=0or D13=0or D21=0or D22=0or D23=0or D31=0or D32=0or D33=0;
H1:Not H0
LR是遵循χ2分布,自由度是1;
通过上述检验,可以知道在该位点每一个基因型频率是否符合遗传平衡定律,通过这一数据了解群体的遗传结构;
除了上述假设检验,模拟实验还进行了在不同样本下的模型的假阳性分析和模型的功效分析,见表4:
表4模型的假阳性和功效
在假设检验中,估算得到的假设检验的假阳性很低,说明模型在估算出现假阳性的可能性很低,证明模型的可行性和准确性;估算得到的假设检验的功效整体较大,其中D31=0的假设检验的功效明显较低,但并不影响整体的估算结果,连锁不平衡系数的估算是可以应用此模型进行的并可以得到较为准确的结果。
模拟实验
为了验证该同源四倍体两个位点分析模型的准确性与统计性质,使用计算机进行模拟实验;
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.0800、0.1000、0.1200、0.7000;同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.0800、0.1300、0.7000。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0100、0.0200、0.0100、0.0050、0.0100、0.0010、0.0030、0.0050和0.0070;这套参数假设需要先使用参数的估算里面所提到的基因频率与基因型频率的关系式,求出这套参数的粗略范围,再进行参数假设;表5给出的是此参数下1000次计算机模拟实验的参数估算结果与方差。
表51000次计算机模拟实验的参数估算平均值与标准差
根据估算出参数与真实数据的接近程度,可以认定模型本身是正确的;其中n代表的是样本数;表中是在不同样本数量下,估算出的参数值,括号内代表的是标准差;根据1000次模拟实验的平均值,可以看出,随着样本数量的增大,估算出来的参数越接近真实值,同时标准差越来越小,说明估算出的结果越来越准确;当然,如果模型本身没有错,样本的增大必然导致估算结果越来越准确,需要找出的是样本数量与精准度之间的一个均衡,即利用较少的样本估算出相对精准的结果;从上表可以看出,在样本数量为200的情况下,估算的平均值可以满足需求。
下面通过三组例子对本发明实施例的方案进行验证:
实验1:第一组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.0800、0.1000、0.1200、0.7000。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.0800、0.1300、0.7000。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0100、0.0200、0.0100、0.0050、0.0100、0.0010、0.0030、0.0050和0.0070。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
实验2;第二组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.3000、0.2600、0.2000、0.2400。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.2100、0.1800、0.4000、0.2100。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0020、0.0300、-0.0100、0.0100、0.0030、0.0100、0.0050、-0.0090和0.0060。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
实验3:第三组参数下的假设检验结果和模拟实验结果。
假设A位点的A1、A2、A3、A4四种基因的基因频率为p1、p2、p3、p4分别等于0.3600、0.4100、0.1200、0.1100。同理,B位点的B1、B2、B3、B4四种基因的基因频率为q1、q2、q3、q4分别等于0.0900、0.1400、0.3400、0.4300。再假设所需估算的9个连锁不平衡系数D11、D12、D13、D21、D22、D23、D31、D32和D33分别等于0.0200、-0.0010、0.0040、-0.0070、0.0100、0.0300、-0.0080、-0.0020和-0.0090。
假设检验结果:
所有D=0的假设检验结果
D11=0的假设检验结果
D12=0的假设检验结果
D13=0的假设检验结果
D21=0的假设检验结果
D22=0的假设检验结果
D23=0的假设检验结果
D31=0的假设检验结果
D32=0的假设检验结果
D33=0的假设检验结果
模拟实验结果:
假阳性和功效结果:
本发明实施例根据同源四倍体减数分裂的特点推导出计算分子标记之间连锁不平衡的统计模型,并指出检测各种连锁不平衡系数的计算程序。计算机模拟试验验证了模型有效性,指出了模型的适用条件;利用本研究发展的模型,我们可以对同源四倍体进行连锁不平衡检验,观测其连锁不平衡系数,了解其群体的结构。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,包括:
步骤1、对于来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;
其中该位点A具有4个等位基因记为A1,A2,A3,A4;该位点B具有4个等位基因记为B1,B2,B3,B4;其中p1,p2,p3,p4为位点A的基因频率,且p1+p2+p3+p4=1;其中q1,q2,q3,q4为位点B的基因频率,且q1+q2+q3+q4=1;
两个位点产生16单倍型表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4。基因连锁不平衡系数表示为Dij,其代表Ai和Bj的连锁不平衡系数,i=1,2,3,4;j=1,2,3,4,下同;单倍型AiBj频率表示为pij;
步骤2、从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量nu/v;
步骤3、根据单体型频率计算相应的配子频率,并根据配子频率计算计算相应的基因型频率为pu/v;
如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p3 31+3p31 2p32 2+2p31p32 3;
步骤4、估算参数,未知单倍型频率Ω=(pij),根据如下似然函数值计算:
log L(Ω)=∑nijlog(pij) (1)
由(1)获得单倍型频率的最大似然估计
让nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;
根据公式(2)和公式(4)组成EM算法的一个循环;将单倍型频率的初始值来计算在E步骤的公式(4)中φk的估算值;然后使用所计算出的φk的估算值带入M步骤的公式(2)来估算单倍型频率;重复进行E和M步骤,直至单体型频率估计收敛,得到单倍型基因频率的估算值;
根据以下公式,通过单倍型基因频率获取两个位点的等位基因的估算频率;
根据以下公式,通过单倍型基因频率计算每两个位点间的连锁不平衡系数;
步骤5、根据以下公式验证估计分布与实际分布是否存在显著性差异;
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
其中H0为同源四倍体各位点不存在连锁不平衡系数;
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;
通过以下公式计算对数似然比的统计学检验
LR是遵循χ2分布,自由度是9;
将计算得到的LR进行卡方检验,判断得到的LR值经卡方检验是否呈显著差异,如果呈显著差异则最终结果为H0,如果不呈显著差异则最终结果为H1。
2.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,还包括:
步骤6、将9个连锁不平衡系数分别进行检验。
3.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,
所述步骤1中,所述16单倍型的频率包含以下等位基因频率以及九个独立的连锁不平衡系数:
4.根据权利要求1所述的同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,
所述步骤1中,所述位点A和位点B分别都具有35种基因型,在遗传上能够识别基因型共225种;
位点A有,4种AiAiAiAi,其中i=1,2,3,4;12种其中i1≠i2=1,2,3,4;6种其中i1≠i2=1,2,3,4;12种其中i1≠i2≠i3=1,2,3,4;1种A1A2A3A4;
位点B有,4种BjBjBjBj,其中j=1,2,3,4;12种其中j1≠j2=1,2,3,4;6种其中j1≠j2=1,2,3,4;12种其中j1≠j2≠j3=1,2,3,4;1种B1B2B3B4;
两个位点,在遗传上能识别的基因型有225种,表示为Au/Bv(u=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234;v=1,2,3,4,12,13,14,23,24,34,123,124,134,234,1234)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410013164.8A CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410013164.8A CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103699815A CN103699815A (zh) | 2014-04-02 |
CN103699815B true CN103699815B (zh) | 2017-06-13 |
Family
ID=50361342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410013164.8A Expired - Fee Related CN103699815B (zh) | 2014-01-10 | 2014-01-10 | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103699815B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1166837A (zh) * | 1994-11-09 | 1997-12-03 | 塞达斯-西奈医疗中心 | 染色体21基因标记,组合物及其使用方法 |
CN101008032A (zh) * | 2006-01-26 | 2007-08-01 | 北京华安佛医药研究中心有限公司 | 多态性位点基因型预测磺脲类药物作用效果的用途和方法 |
CN101687901A (zh) * | 2007-05-17 | 2010-03-31 | 孟山都技术公司 | 玉米多态性与基因分型方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1288301A1 (en) * | 2001-08-31 | 2003-03-05 | Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Berlin | Plant-derived resistance gene |
US20070027636A1 (en) * | 2005-07-29 | 2007-02-01 | Matthew Rabinowitz | System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions |
-
2014
- 2014-01-10 CN CN201410013164.8A patent/CN103699815B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1166837A (zh) * | 1994-11-09 | 1997-12-03 | 塞达斯-西奈医疗中心 | 染色体21基因标记,组合物及其使用方法 |
CN101008032A (zh) * | 2006-01-26 | 2007-08-01 | 北京华安佛医药研究中心有限公司 | 多态性位点基因型预测磺脲类药物作用效果的用途和方法 |
CN101687901A (zh) * | 2007-05-17 | 2010-03-31 | 孟山都技术公司 | 玉米多态性与基因分型方法 |
Non-Patent Citations (3)
Title |
---|
四倍体杂交群体的三点连锁分析模型;吕亚非;《中国博士学位论文全文数据库农业科技辑 》;20131015(第10期);全文 * |
海岛棉产量和纤维品质性状的关联与遗传连锁分析;王夏青;《中国优秀硕士学位论文全文数据库农业科技辑》;20130215(第2期);全文 * |
陆地棉遗传多样性与育种目标性状基因QTL的关联分析;钱能;《中国博士学位论文全文数据库农业科技辑 》;20110415(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103699815A (zh) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Thompson | Identity by descent: variation in meiosis, across genomes, and in populations | |
Korunes et al. | pixy: Unbiased estimation of nucleotide diversity and divergence in the presence of missing data | |
Hernandez et al. | Ultrarare variants drive substantial cis heritability of human gene expression | |
Puechmaille | The program structure does not reliably recover the correct population structure when sampling is uneven: subsampling and new estimators alleviate the problem | |
Sahl et al. | NASP: an accurate, rapid method for the identification of SNPs in WGS datasets that supports flexible input and output formats | |
Loh et al. | Inferring admixture histories of human populations using linkage disequilibrium | |
Visscher et al. | A commentary on ‘common SNPs explain a large proportion of the heritability for human height’by Yang et al.(2010) | |
Harris et al. | Admixture and ancestry inference from ancient and modern samples through measures of population genetic drift | |
Veeramah et al. | Examining phylogenetic relationships among gibbon genera using whole genome sequence data using an approximate Bayesian computation approach | |
JP2015527057A5 (zh) | ||
CN107609343B (zh) | 亲缘关系鉴定方法、系统、计算机设备及可读存储介质 | |
George et al. | Genome-wide association mapping in plants | |
Holder et al. | Evaluating the robustness of phylogenetic methods to among-site variability in substitution processes | |
Schlauch et al. | Identification of genetic outliers due to sub-structure and cryptic relationships | |
Alberti et al. | An evaluation framework for lossy compression of genome sequencing quality values | |
CN103699815B (zh) | 一种同源四倍体自然群体的连锁不平衡分析模型的构建方法 | |
Rodriguez et al. | An accurate method for inferring relatedness in large datasets of unphased genotypes via an embedded likelihood-ratio test | |
Zapata | On the uses and applications of the most commonly used measures of linkage disequilibrium from the comparative analysis of their statistical properties | |
Lobach et al. | Semiparametric Bayesian analysis of gene-environment interactions with error in measurement of environmental covariates and missing genetic data | |
Shah et al. | Computationally efficient map construction in the presence of segregation distortion | |
CN111625759A (zh) | 地下管线定位检测曲率计算方法 | |
CN114255870A (zh) | 预测自闭症和神经发育障碍的新型多基因风险评分(prs)方法 | |
CN116312798B (zh) | 一种宏基因组测序数据物种验证的方法及应用 | |
Wu et al. | Mapping quantitative trait loci in a non-equilibrium population | |
CN116431998B (zh) | 一种洁净室的洁净度检测数据修正方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Libo Inventor after: Wu Rongling Inventor after: Feng Sisi Inventor before: Wu Rongling Inventor before: Feng Sisi |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170613 |