CN114496076B - 一种基因组遗传分层联合分析方法及系统 - Google Patents
一种基因组遗传分层联合分析方法及系统 Download PDFInfo
- Publication number
- CN114496076B CN114496076B CN202210338130.0A CN202210338130A CN114496076B CN 114496076 B CN114496076 B CN 114496076B CN 202210338130 A CN202210338130 A CN 202210338130A CN 114496076 B CN114496076 B CN 114496076B
- Authority
- CN
- China
- Prior art keywords
- model
- genetic
- nucleotide polymorphism
- generalized linear
- single nucleotide
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002068 genetic effect Effects 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 title claims abstract description 23
- 239000002773 nucleotide Substances 0.000 claims abstract description 114
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 114
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 44
- 238000009395 breeding Methods 0.000 claims abstract description 43
- 230000001488 breeding effect Effects 0.000 claims abstract description 43
- 201000010099 disease Diseases 0.000 claims abstract description 34
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 24
- 238000012417 linear regression Methods 0.000 claims abstract description 24
- 238000012214 genetic breeding Methods 0.000 claims abstract description 19
- 239000000203 mixture Substances 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 23
- 238000007477 logistic regression Methods 0.000 claims description 16
- 239000003550 marker Substances 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000013517 stratification Methods 0.000 claims description 6
- 238000012252 genetic analysis Methods 0.000 abstract description 5
- 238000009826 distribution Methods 0.000 description 7
- 238000003908 quality control method Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000003234 polygenic effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 206010020772 Hypertension Diseases 0.000 description 3
- 240000008042 Zea mays Species 0.000 description 3
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000020925 Bipolar disease Diseases 0.000 description 2
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 208000029078 coronary artery disease Diseases 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 206010039073 rheumatoid arthritis Diseases 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003340 combinatorial analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基因组遗传分层联合分析方法及系统,包括:获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型,以提高对病害性状检测性数量核苷酸的定位能力,提升了基因组遗传分析的准确性。
Description
技术领域
本发明涉及生物信息技术领域,特别是涉及一种基因组遗传分层联合分析方法及系统。
背景技术
线性混合模型是一种应用广泛且功能强大的全基因组关联研究方法。一般情况下,线性混合模型假设表型呈正态分布,适用于连续的数量性状。线性混合模型利用排除被检测标记的随机多基因效应来纠正群体分层和隐亲和等混杂因素,可以有效地控制假阳性率,并提供数量性状核苷酸的检测能力。由于线性混合模型需要高计算强度,且对于以二元表型表达的复杂疾病性状,全基因组混合模型关联不能提供可解释和可预测的绘图结果。
由于数量性状的存在,复杂疾病被认为是由许多位点控制的,每个位点对表型有很小的影响。与线性回归模型不同,广义线性模型中的逻辑回归也被用于分析二元疾病表型中利害相关的标记物之间的关联。尽管对固定效应协变量进行了校正,逻辑回归仍然产生了关键检验统计量的膨胀,降低了基因组遗传分析的准确性。
发明内容
针对于上述问题,本发明提供一种基因组遗传分层联合分析方及系统,提高了对病害性性状检测性数量核苷酸的定位能力,提升了基因组遗传分析的准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种基因组遗传分层联合分析方法,包括:
获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;
通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;
通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;
其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。
可选地,所述通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性,包括:
通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。
可选地,所述通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应,包括:
通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型;
分析由不同数量的数量性状核苷酸控制的遗传力的表型;
基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系,确定单核苷酸多态性的遗传效应。
可选地,所述方法还包括:
创建目标广义线性混合模型,包括:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
可选地,所述方法还包括:
基于所述被测核苷酸多态性的回归项逐步选择遗传效应,得到统计数据;
对所述统计数据进行校正,并基于校正后的统计数据识别得到数量性状核苷酸。
一种基因组遗传分层联合分析系统,包括:
获取单元,用于获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;
第一处理单元,用于通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;
第二处理单元,用于通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;
其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。
可选地,所述第一处理单元具体用于:
通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。
可选地,所述第二处理单元具体用于:
通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型;
分析由不同数量的数量性状核苷酸控制的遗传力的表型;
基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系,确定单核苷酸多态性的遗传效应。
可选地,所述系统还包括:
模型创建单元,用于创建目标广义线性混合模型,所述模型创建单元具体用于:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
可选地,所述系统还包括:
数据获取单元,用于基于所述被测核苷酸多态性的回归项逐步选择遗传效应,得到统计数据;
识别单元,用于对所述统计数据进行校正,并基于校正后的统计数据识别得到数量性状核苷酸。
相较于现有技术,本发明提供了一种基因组遗传分层联合分析方法及系统,包括:获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型,以提高对病害性状检测性数量核苷酸的定位能力,提升了基因组遗传分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基因组遗传分层联合分析方法的流程示意图;
图2为本发明实施例提供的一种基因组遗传分层联合分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种基因组遗传分层联合分析方法,把广义线性混合模型划分为两个层次:关于基因组育种值的广义线性混合模型和基因组育种值与标记效应的广义线性回归模型。在第一层次中,通过求解广义线性混合模型的最佳线性无偏倚预测来预测基因组育种值;在第二层次中,通过相关的基因育种值与单核苷酸多态性效应的广义线性回归使用广义最小二乘方法进行关联检验。
具体的,参见图1,该方法可以包括以下步骤:
S101、获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值。
S102、通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性。
S103、通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应。
在本申请实施例中重新确定了广义线性混合模型的结构,即得到了目标广义线性混合模型(为了后续描述方便将目标广义线性混合模型描述为广义线性混合模型),该目标广义线性混合模型包括第一层次结构和第二层次结构,其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。
基因数据样本中的二元疾病性状平均值μ,包括被测单核苷酸多态性遗传效应的固定效应向量β及β的发病率矩阵ⅹ和n个随机多基因效应的向量除了检测的单核苷酸多态性υ。
在第一层级结构模型中预测基因育种值可以采用灵敏度去估计基因遗传力或者育种值中的两种方法来预测基因育种值:检测数量性状核苷酸:精确估计基因组遗传或者种子值时,高线性混合模型比标准混合线性模型EMMAX和BOLT-LMM在检测数量性状核苷酸方面达到更高的统计能力,(如果基因组遗传或者种子值完全预估正确,一次一个检验比共同联合分析展示出更高的统计学功效和更理想的基因组对照。)相比之下,标准混合线性模型联合测试表现出统计功效和基因组对照略微减少。尤其是,标准混合线性模型不能发现任何一个从残留的表型中移动的数量性状核苷酸。R/glmnet中实现的Lasso技术:采用R/glmnet中实现的Lasso技术来精确估计,精准地估计育种值,使用改进的高广义线性混合模型产生更高的统计功率,也更准确地估计基因组遗传力和基因育种值。
在第二层次结构模型采用标记物计算一般关系模型:从整个基因组标记中随机取单核苷酸多态性标记估计一般关系模型,分析由不同数量的数量性状核苷酸控制的遗传力的表型,高广义线性混合模型随着采样标记的增加,逐渐控制假阳性误差,提高检测数量性状核苷酸的统计功效,且采样标记越多,越容易获得理想的基因组控制和使用所有基因组标记的统计功效。
对于二元疾病性状,基于二项分布的Logit回归模型定义性状表型与所测单核苷酸多态性遗传效应之间的线性关系。为降低数量性状核苷酸定位的假阳性率,多基因效应作为混杂变量被认为是额外的预测因子。
在本发明实施例中还提供了一种创建目标广义线性混合模型的方法,包括:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
具体的,构建基因组逻辑回归(Logit)混合模型 :
其中为二元疾病性状的平均值,为固定效应向量,包括被测单核苷酸多态性遗传效应;X为的发病率矩阵;是n个随机多基因效应的向量除了检测的单核苷酸多态性,假设有与由整个基因组标记和未知多基因方差计算出来的基因组关系矩阵K2的正态分布。
广义线性混合模型被分为两个层次结构,如下:
在应用上述广义线性混合模型时,用Logit混合模型的基因最佳线性无偏预测估计基因育种值:使用基因最佳线性无偏预测基于第一层次的广义线性混合模型构造的方程来估计基因育种值。
通过基于第一个层次结构中的广义线性混合模型,GBLUP的方程为:
联合关联分析:采用第二层回归模型优化多元线性模型得到:。其中,为数量性状核苷酸候选项的回归项。通过Bonferroni校正后的5级显著性检验,逐步选择遗传效应,根据校正后的统计量可以识别出相应的数量性状核苷酸。
下面以具体的应用实例对本发明进行说明。
本发明首先从panzea项目网站获取玉米的数据集2279个自交系中包括681258个单核苷酸多态性(SNP)基因分型,从WTCCC获取人的数据集。在通过高的质量控制后,从人群总数为3000和玉米总数为2640中提取了30万个SNP。然后进行关联联合分析:(1)在整个模拟中,玉米种群的对照和病例以1:1的比例生成,并从人群中抽取2000个人类样本,预先模拟的发病率低至5%。(2)数量性状核苷酸在整个SNP上随机分布,其叠加效应抽样自shape=1.66和scale=0.4的伽马分布。(3)通过总结所有模拟数量性状核苷酸的基因型效应及其残留误差来获得表型。当从正态分布中以零期望取样残余误差时,残余方差由给定的性状基因组遗传性调节。(4)分别模拟40,200和1000个数量性状核苷酸分别处于低(0.2),中等(0.5)和高(0.8)基因组遗传性,来控制表型。
又例如,采用从Wellcome Trust病例对照协会获得的数据,表型总共490032个SNPs(指单核苷酸多态性)。然后进行关联联合分析:(1)、对于包含一种病例类型和所有控件的每个数据集,执行标准质量控制(QC)程序:排除MAF<0.01和HWE>0.05的SNP,并且还排除了缺失率>0.01的个体。(2)、质量控制(QC)过程后,用于广义混合模型关联分析的样本和SNP数量为5002例(1998例和3004例对照)和409,642个SNP用于双相情感障碍(BD),4992例(1988例和3004例对照)和409,516个SNP用于冠状动脉疾病(CAD),5003例(1999例和3004例对照)和409,924个SNP用于类风湿性关节炎(RA), 高血压(HT)为5005例(2001例和3004例对照),高血压为5004例(2000例和3004例对照)和40,9674例SNP,5003例(1999例和3004例对照),409,805例为II型糖尿病(T2D)。所有数据分析均在 CentOS Linux 服务器中执行,该服务器具有 2.60 GHz Intel(R) Xeon(R) 40 CPU E5-2660 v3 和 512 GB 内存。(3)、对于六种常见疾病,以两种方式实施了高广义线性混合模型:使用整个基因组标记集一起估计基因组遗传性和基因育种值,并通过随机抽样5000个SNP来估计基因育种值,遗传性为0.5。然后对每个数据集进行了严格的质量控制,用于估计基因组遗传性。在严格的质量控制之后,高广义线性混合模型可以高效而稳健地绘制二元疾病的数量性状核苷酸,并且不依赖于基因组数据集的基因组遗传性和QC的估计。
在本发明中,广义线性混合模型规划出线性关系在二元变量反应和通过链接函数的易感性正态分布因子,因此育种值通过广义线性混合模型的基因组最佳线性无偏预测公式被估计作为正常变量。在联合测试第二层分层,高广义线性混合模型可以统计推出数量性状核苷酸,对于以最小二乘法为连续数量性状的复杂疾病。一般,线性模型和比广义线性模型之间用相同独立变量的样本有一个计算效率。因此,当基因组遗传和育种值能够被估计,高广义线性混合模型能够实现基于广义线性混合模型的全基因组的联合结果计算速度快。相似的高广义线性混合模型是在第一次被倾向后验平均估计,而不是在易感性-阈值模型下用贝叶斯取样的育种值。因此,用倾向后验平均线性混合模型统计能够推断出数量性状核苷酸。全基因组高广义线性混合模型联合分析是致力于提高统计功效和处理一个大规模群体。在高广义线性混合模型框架内,精准估计育种值有助于获得高的统计功效去推测数量性状核苷酸。大量候选数量性状核苷酸的共同联合分析,因为在逐步回归中考虑了候选标记之间的可能连锁不平衡,可以用一次显著检验获得提高统计功效。将基因组关系矩阵转化为稀疏矩阵,极大简化了高广义线性混合模型去分析大规模群体。高广义线性混合模型能够准确估计育种值是依赖于二元特征的基因组选择的发展。高广义线性混合模型估计基因组遗传度和使用育种值基因组标记。在第二层用广义线性回归的多基因效率无偏倚的和最好估计,确保高统计功效在好的基因组对照中去推测数量性状核苷酸。
参见图2,在本发明实施例中还提供了一种基因组遗传分层联合分析系统,包括:
获取单元201,用于获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;
第一处理单元202,用于通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;
第二处理单元203,用于通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;
其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。
本发明实施例提供了一种基因组遗传分层联合分析系统,包括:获取单元获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;第一处理单元通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;第二处理单元通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型,以提高对病害性状检测性数量核苷酸的定位能力,提升了基因组遗传分析的准确性。
可选地,所述第一处理单元具体用于:
通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。
可选地,所述第二处理单元具体用于:
通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型;
分析由不同数量的数量性状核苷酸控制的遗传力的表型;
基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系,确定单核苷酸多态性的遗传效应。
可选地,所述系统还包括:
模型创建单元,用于创建目标广义线性混合模型,所述模型创建单元具体用于:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
可选地,所述系统还包括:
数据获取单元,用于基于所述被测核苷酸多态性的回归项逐步选择遗传效应,得到统计数据;
识别单元,用于对所述统计数据进行校正,并基于校正后的统计数据识别得到数量性状核苷酸。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一项的一种基因组遗传分层联合分析方法的步骤。
本发明实施例还提供了一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现的一种基因组遗传分层联合分析方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基因组遗传分层联合分析方法,其特征在于,包括:
获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;
通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;
通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;
其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型;
创建目标广义线性混合模型,包括:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
2.根据权利要求1所述的方法,其特征在于,所述通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性,包括:
通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。
3.根据权利要求1所述的方法,其特征在于,所述通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应,包括:
通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型;
分析由不同数量的数量性状核苷酸控制的遗传力的表型;
基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系,确定单核苷酸多态性的遗传效应。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述被测核苷酸多态性的回归项逐步选择遗传效应,得到统计数据;
对所述统计数据进行校正,并基于校正后的统计数据识别得到数量性状核苷酸。
5.一种基因组遗传分层联合分析系统,其特征在于,包括:
获取单元,用于获取基因数据样本,所述基因数据样本中包括二元疾病性状平均值;
第一处理单元,用于通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理,得到连续易患性的基因育种值和基因组遗传性;
第二处理单元,用于通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理,得到单核苷酸多态性的遗传效应;
其中,所述第一层次结构模型为广义线性混合模型,第二层次结构模型为连续基因育种值的线性回归模型;
模型创建单元,用于创建目标广义线性混合模型,所述模型创建单元具体用于:
获取基因数据样本中的目标数据,所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应,以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量;
基于所述目标数据,构建基因组的逻辑回归混合模型;
根据不包括单核苷酸多态性的固定效应和目标残差,确定被测核苷酸多态性的回归项;
基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项,确定目标广义线性混合模型。
6.根据权利要求5所述的系统,其特征在于,所述第一处理单元具体用于:
通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。
7.根据权利要求5所述的系统,其特征在于,所述第二处理单元具体用于:
通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型;
分析由不同数量的数量性状核苷酸控制的遗传力的表型;
基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系,确定单核苷酸多态性的遗传效应。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括:
数据获取单元,用于基于所述被测核苷酸多态性的回归项逐步选择遗传效应,得到统计数据;
识别单元,用于对所述统计数据进行校正,并基于校正后的统计数据识别得到数量性状核苷酸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210338130.0A CN114496076B (zh) | 2022-04-01 | 2022-04-01 | 一种基因组遗传分层联合分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210338130.0A CN114496076B (zh) | 2022-04-01 | 2022-04-01 | 一种基因组遗传分层联合分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114496076A CN114496076A (zh) | 2022-05-13 |
CN114496076B true CN114496076B (zh) | 2022-07-05 |
Family
ID=81488383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210338130.0A Active CN114496076B (zh) | 2022-04-01 | 2022-04-01 | 一种基因组遗传分层联合分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114496076B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118171785B (zh) * | 2024-05-14 | 2024-07-16 | 南京农业大学 | 一种基于作物生育期表型及其区域适应性的定量预测方法、系统及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6312253B2 (ja) * | 2014-11-25 | 2018-04-18 | 学校法人 岩手医科大学 | 形質予測モデル作成方法および形質予測方法 |
CA2980807A1 (en) * | 2015-04-02 | 2016-10-06 | Hmnc Value Gmbh | Genetic predictors of a response to treatment with crhr1 antagonists |
JP2019515369A (ja) * | 2016-03-29 | 2019-06-06 | リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. | 遺伝的バリアント−表現型解析システムおよび使用方法 |
CN107155985B (zh) * | 2017-05-08 | 2020-05-15 | 湛江国联水产开发股份有限公司 | 一种日本囊对虾育种群体抗高氨氮与生长性状的选育方法 |
WO2021108654A1 (en) * | 2019-11-27 | 2021-06-03 | Grail, Inc. | Systems and methods for evaluating longitudinal biological feature data |
-
2022
- 2022-04-01 CN CN202210338130.0A patent/CN114496076B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114496076A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Quantifying genetic effects on disease mediated by assayed gene expression levels | |
Bian et al. | Enhancing genomic prediction with genome-wide association studies in multiparental maize populations | |
Valdar et al. | Mapping in structured populations by resample model averaging | |
Hoti et al. | Bayesian mapping of genotype× expression interactions in quantitative and qualitative traits | |
CN111524545B (zh) | 全基因组选择育种的方法和装置 | |
JP2005531853A (ja) | Snp遺伝子型クラスタリングのためのシステムおよび方法 | |
Koropoulis et al. | Detecting positive selection in populations using genetic data | |
US20190087534A1 (en) | Systems, methods, and processor-readable media for detecting disease causal variants | |
CN114496076B (zh) | 一种基因组遗传分层联合分析方法及系统 | |
Cartwright et al. | A family-based probabilistic method for capturing de novo mutations from high-throughput short-read sequencing data | |
Sesia et al. | Controlling the false discovery rate in GWAS with population structure | |
Kilpikari et al. | Bayesian analysis of multilocus association in quantitative and qualitative traits | |
Jiang et al. | Recent developments in statistical methods for GWAS and high-throughput sequencing association studies of complex traits | |
Sethuraman | Estimating genetic relatedness in admixed populations | |
US20030195707A1 (en) | Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof | |
US20220020449A1 (en) | Vector-based haplotype identification | |
Akbarpour et al. | Marker genotyping error effects on genomic predictions under different genetic architectures | |
Sahebalam et al. | Investigating the performance of frequentist and Bayesian techniques in genomic evaluation | |
Momin et al. | R2ROC: An efficient method of comparing two or more correlated AUC from out-of-sample prediction using polygenic scores | |
Razi et al. | Genotype prediction of 336,463 samples from public expression data | |
CN115966259B (zh) | 一种基于逻辑回归建模的样本同源性检测校验方法及系统 | |
Donnelly et al. | The coalescent and its descendants | |
Altinkaya et al. | vcfgl: A flexible genotype likelihood simulator for VCF/BCF files | |
Chatterjee | Case-Control Designs for Modern Genome-Wide Association Studies: Basic Principles and Overview | |
Ring | PyBayenv: A framework for interpreting, testing and optimizing Bayenv analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |