CN114496076B

CN114496076B - 一种基因组遗传分层联合分析方法及系统

Info

Publication number: CN114496076B
Application number: CN202210338130.0A
Authority: CN
Inventors: 盖伟; 杨润清; 李瑞琳
Original assignee: Beijing Weiyan Medical Instrument Co ltd; Hangzhou Weiyan Medical Instrument Co ltd; Hangzhou Xiaoshan Micro Rock Medical Laboratory Co ltd; Micro Rock Medical Technology Beijing Co ltd
Current assignee: Beijing Weiyan Medical Instrument Co ltd; Hangzhou Weiyan Medical Instrument Co ltd; Hangzhou Xiaoshan Micro Rock Medical Laboratory Co ltd; Micro Rock Medical Technology Beijing Co ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-05
Anticipated expiration: 2042-04-01
Also published as: CN114496076A

Abstract

本发明公开了一种基因组遗传分层联合分析方法及系统，包括：获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型，以提高对病害性状检测性数量核苷酸的定位能力，提升了基因组遗传分析的准确性。

Description

一种基因组遗传分层联合分析方法及系统

技术领域

本发明涉及生物信息技术领域，特别是涉及一种基因组遗传分层联合分析方法及系统。

背景技术

线性混合模型是一种应用广泛且功能强大的全基因组关联研究方法。一般情况下，线性混合模型假设表型呈正态分布，适用于连续的数量性状。线性混合模型利用排除被检测标记的随机多基因效应来纠正群体分层和隐亲和等混杂因素，可以有效地控制假阳性率，并提供数量性状核苷酸的检测能力。由于线性混合模型需要高计算强度，且对于以二元表型表达的复杂疾病性状，全基因组混合模型关联不能提供可解释和可预测的绘图结果。

由于数量性状的存在，复杂疾病被认为是由许多位点控制的，每个位点对表型有很小的影响。与线性回归模型不同，广义线性模型中的逻辑回归也被用于分析二元疾病表型中利害相关的标记物之间的关联。尽管对固定效应协变量进行了校正，逻辑回归仍然产生了关键检验统计量的膨胀，降低了基因组遗传分析的准确性。

发明内容

针对于上述问题，本发明提供一种基因组遗传分层联合分析方及系统，提高了对病害性性状检测性数量核苷酸的定位能力，提升了基因组遗传分析的准确性。

为了实现上述目的，本发明提供了如下技术方案：

一种基因组遗传分层联合分析方法，包括：

获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；

通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；

通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；

其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型。

可选地，所述通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性，包括：

通过目标广义现象混合模型的第一层次结构模型利用灵敏度估计基因遗传力或者育种值的处理方式来预测基因育种值。

可选地，所述通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应，包括：

通过所述目标广义线性混合模型的第二层次结构模型从整个基因组标记中随机选取单核苷酸多态性标记估计一般关系模型；

分析由不同数量的数量性状核苷酸控制的遗传力的表型；

基于所述遗传力的表型与所测的单核苷酸多态遗传效应的线性关系，确定单核苷酸多态性的遗传效应。

可选地，所述方法还包括：

创建目标广义线性混合模型，包括：

获取基因数据样本中的目标数据，所述目标数据包括二元疾病性状的平均值、被测单核苷酸多态遗传效应，以及每一疾病的发病率矩阵和不包括测试的单核苷酸多态性的n个随机多基因效应的向量；

基于所述目标数据，构建基因组的逻辑回归混合模型；

根据不包括单核苷酸多态性的固定效应和目标残差，确定被测核苷酸多态性的回归项；

基于所述逻辑回归混合模型和所述被测核苷酸多态性的回归项，确定目标广义线性混合模型。

可选地，所述方法还包括：

基于所述被测核苷酸多态性的回归项逐步选择遗传效应，得到统计数据；

对所述统计数据进行校正，并基于校正后的统计数据识别得到数量性状核苷酸。

一种基因组遗传分层联合分析系统，包括：

获取单元，用于获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；

第一处理单元，用于通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；

第二处理单元，用于通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；

可选地，所述第一处理单元具体用于：

可选地，所述第二处理单元具体用于：

分析由不同数量的数量性状核苷酸控制的遗传力的表型；

可选地，所述系统还包括：

模型创建单元，用于创建目标广义线性混合模型，所述模型创建单元具体用于：

基于所述目标数据，构建基因组的逻辑回归混合模型；

可选地，所述系统还包括：

数据获取单元，用于基于所述被测核苷酸多态性的回归项逐步选择遗传效应，得到统计数据；

识别单元，用于对所述统计数据进行校正，并基于校正后的统计数据识别得到数量性状核苷酸。

相较于现有技术，本发明提供了一种基因组遗传分层联合分析方法及系统，包括：获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型，以提高对病害性状检测性数量核苷酸的定位能力，提升了基因组遗传分析的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基因组遗传分层联合分析方法的流程示意图；

图2为本发明实施例提供的一种基因组遗传分层联合分析系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种基因组遗传分层联合分析方法，把广义线性混合模型划分为两个层次:关于基因组育种值的广义线性混合模型和基因组育种值与标记效应的广义线性回归模型。在第一层次中，通过求解广义线性混合模型的最佳线性无偏倚预测来预测基因组育种值；在第二层次中，通过相关的基因育种值与单核苷酸多态性效应的广义线性回归使用广义最小二乘方法进行关联检验。

具体的，参见图1，该方法可以包括以下步骤：

S101、获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值。

S102、通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性。

S103、通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应。

在本申请实施例中重新确定了广义线性混合模型的结构，即得到了目标广义线性混合模型（为了后续描述方便将目标广义线性混合模型描述为广义线性混合模型），该目标广义线性混合模型包括第一层次结构和第二层次结构，其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型。

基因数据样本中的二元疾病性状平均值μ，包括被测单核苷酸多态性遗传效应的固定效应向量β及β的发病率矩阵ⅹ和n个随机多基因效应的向量除了检测的单核苷酸多态性υ。

在第一层级结构模型中预测基因育种值可以采用灵敏度去估计基因遗传力或者育种值中的两种方法来预测基因育种值：检测数量性状核苷酸：精确估计基因组遗传或者种子值时，高线性混合模型比标准混合线性模型EMMAX和BOLT-LMM在检测数量性状核苷酸方面达到更高的统计能力，（如果基因组遗传或者种子值完全预估正确，一次一个检验比共同联合分析展示出更高的统计学功效和更理想的基因组对照。）相比之下，标准混合线性模型联合测试表现出统计功效和基因组对照略微减少。尤其是，标准混合线性模型不能发现任何一个从残留的表型中移动的数量性状核苷酸。R/glmnet中实现的Lasso技术：采用R/glmnet中实现的Lasso技术来精确估计，精准地估计育种值，使用改进的高广义线性混合模型产生更高的统计功率，也更准确地估计基因组遗传力和基因育种值。

在第二层次结构模型采用标记物计算一般关系模型：从整个基因组标记中随机取单核苷酸多态性标记估计一般关系模型，分析由不同数量的数量性状核苷酸控制的遗传力的表型，高广义线性混合模型随着采样标记的增加，逐渐控制假阳性误差，提高检测数量性状核苷酸的统计功效，且采样标记越多，越容易获得理想的基因组控制和使用所有基因组标记的统计功效。

对于二元疾病性状，基于二项分布的Logit回归模型定义性状表型与所测单核苷酸多态性遗传效应之间的线性关系。为降低数量性状核苷酸定位的假阳性率，多基因效应作为混杂变量被认为是额外的预测因子。

在本发明实施例中还提供了一种创建目标广义线性混合模型的方法，包括：

基于所述目标数据，构建基因组的逻辑回归混合模型；

具体的，构建基因组逻辑回归（Logit）混合模型：

其中

为二元疾病性状的平均值，

为固定效应向量，包括被测单核苷酸多态性遗传效应；X为

的发病率矩阵；

是n个随机多基因效应的向量除了检测的单核苷酸多态性，假设有与由整个基因组标记和未知多基因方差

计算出来的基因组关系矩阵K2的正态分布

。

使用

表示被测单核苷酸多态性的回归项，将基因育种值定义为：

。

广义线性混合模型被分为两个层次结构，如下：

其中

代表不包括单核苷酸多态性的固定效应；

被认为是模型中第二层次的残差。

在应用上述广义线性混合模型时，用Logit混合模型的基因最佳线性无偏预测估计基因育种值：使用基因最佳线性无偏预测基于第一层次的广义线性混合模型构造的方程来估计基因育种值。

通过基于第一个层次结构中的广义线性混合模型，GBLUP的方程为：

其中，

。

y是一个二元表型， Z 是所有 SNP 的指标变量矩阵，

是具有基因育种值基因组遗传性的方差

和GLMM中假定的残余方差为1。

估计每个单核苷酸多态性的遗传效应：通过对

逆的数学分解，转变X_SNP和

可以得到遗传效应的最小二乘估计和变量

。

通过 Cholesky 分解

，即K^-1=K^-1/2*K^-1/2，

，X_SNP和

分别被转换为

，X_SNP*=K^-1/2X_SNP，

。

第二个层次结构中的模型变为：

。

通过统计数据来统计推断数量性状核苷酸：计算具有1个自由度f的卡方分布。通过统计推断得到数量性状核苷酸：

联合关联分析：采用第二层回归模型优化多元线性模型得到：

。其中，

为数量性状核苷酸候选项的回归项。通过Bonferroni校正后的5级显著性检验，逐步选择遗传效应，根据校正后的统计量可以识别出相应的数量性状核苷酸。

下面以具体的应用实例对本发明进行说明。

本发明首先从panzea项目网站获取玉米的数据集2279个自交系中包括681258个单核苷酸多态性（SNP）基因分型，从WTCCC获取人的数据集。在通过高的质量控制后，从人群总数为3000和玉米总数为2640中提取了30万个SNP。然后进行关联联合分析：(1)在整个模拟中，玉米种群的对照和病例以1：1的比例生成，并从人群中抽取2000个人类样本，预先模拟的发病率低至5%。(2)数量性状核苷酸在整个SNP上随机分布，其叠加效应抽样自shape=1.66和scale=0.4的伽马分布。(3)通过总结所有模拟数量性状核苷酸的基因型效应及其残留误差来获得表型。当从正态分布中以零期望取样残余误差时，残余方差由给定的性状基因组遗传性调节。(4)分别模拟40，200和1000个数量性状核苷酸分别处于低（0.2），中等（0.5）和高（0.8）基因组遗传性，来控制表型。

又例如，采用从Wellcome Trust病例对照协会获得的数据，表型总共490032个SNPs（指单核苷酸多态性）。然后进行关联联合分析：（1）、对于包含一种病例类型和所有控件的每个数据集，执行标准质量控制（QC）程序：排除MAF<0.01和HWE>0.05的SNP，并且还排除了缺失率>0.01的个体。（2）、质量控制（QC）过程后，用于广义混合模型关联分析的样本和SNP数量为5002例（1998例和3004例对照）和409，642个SNP用于双相情感障碍（BD），4992例（1988例和3004例对照）和409，516个SNP用于冠状动脉疾病（CAD），5003例（1999例和3004例对照）和409，924个SNP用于类风湿性关节炎（RA），高血压（HT）为5005例（2001例和3004例对照），高血压为5004例（2000例和3004例对照）和40，9674例SNP，5003例（1999例和3004例对照），409，805例为II型糖尿病（T2D）。所有数据分析均在 CentOS Linux 服务器中执行，该服务器具有 2.60 GHz Intel（R） Xeon（R） 40 CPU E5-2660 v3 和 512 GB 内存。（3）、对于六种常见疾病，以两种方式实施了高广义线性混合模型：使用整个基因组标记集一起估计基因组遗传性和基因育种值，并通过随机抽样5000个SNP来估计基因育种值，遗传性为0.5。然后对每个数据集进行了严格的质量控制，用于估计基因组遗传性。在严格的质量控制之后，高广义线性混合模型可以高效而稳健地绘制二元疾病的数量性状核苷酸，并且不依赖于基因组数据集的基因组遗传性和QC的估计。

在本发明中，广义线性混合模型规划出线性关系在二元变量反应和通过链接函数的易感性正态分布因子，因此育种值通过广义线性混合模型的基因组最佳线性无偏预测公式被估计作为正常变量。在联合测试第二层分层，高广义线性混合模型可以统计推出数量性状核苷酸，对于以最小二乘法为连续数量性状的复杂疾病。一般，线性模型和比广义线性模型之间用相同独立变量的样本有一个计算效率。因此，当基因组遗传和育种值能够被估计，高广义线性混合模型能够实现基于广义线性混合模型的全基因组的联合结果计算速度快。相似的高广义线性混合模型是在第一次被倾向后验平均估计，而不是在易感性-阈值模型下用贝叶斯取样的育种值。因此，用倾向后验平均线性混合模型统计能够推断出数量性状核苷酸。全基因组高广义线性混合模型联合分析是致力于提高统计功效和处理一个大规模群体。在高广义线性混合模型框架内，精准估计育种值有助于获得高的统计功效去推测数量性状核苷酸。大量候选数量性状核苷酸的共同联合分析，因为在逐步回归中考虑了候选标记之间的可能连锁不平衡，可以用一次显著检验获得提高统计功效。将基因组关系矩阵转化为稀疏矩阵，极大简化了高广义线性混合模型去分析大规模群体。高广义线性混合模型能够准确估计育种值是依赖于二元特征的基因组选择的发展。高广义线性混合模型估计基因组遗传度和使用育种值基因组标记。在第二层用广义线性回归的多基因效率无偏倚的和最好估计，确保高统计功效在好的基因组对照中去推测数量性状核苷酸。

参见图2，在本发明实施例中还提供了一种基因组遗传分层联合分析系统，包括：

获取单元201，用于获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；

第一处理单元202，用于通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；

第二处理单元203，用于通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；

本发明实施例提供了一种基因组遗传分层联合分析系统，包括：获取单元获取基因数据样本，所述基因数据样本中包括二元疾病性状平均值；第一处理单元通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性；第二处理单元通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应；其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型。本发明提出了考虑随机多个基因效应的广义线性混合模型，以提高对病害性状检测性数量核苷酸的定位能力，提升了基因组遗传分析的准确性。

可选地，所述第一处理单元具体用于：

可选地，所述第二处理单元具体用于：

分析由不同数量的数量性状核苷酸控制的遗传力的表型；

可选地，所述系统还包括：

基于所述目标数据，构建基因组的逻辑回归混合模型；

可选地，所述系统还包括：

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的一种基因组遗传分层联合分析方法的步骤。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现的一种基因组遗传分层联合分析方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基因组遗传分层联合分析方法，其特征在于，包括：

其中，所述第一层次结构模型为广义线性混合模型，第二层次结构模型为连续基因育种值的线性回归模型；

创建目标广义线性混合模型，包括：

基于所述目标数据，构建基因组的逻辑回归混合模型；

2.根据权利要求1所述的方法，其特征在于，所述通过目标广义线性混合模型的第一层次结构模型对所述基因数据样本进行处理，得到连续易患性的基因育种值和基因组遗传性，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过所述目标广义线性混合模型的第二层次结构模型对所述基因育种值与单核苷酸多态性的广义线性回归处理，得到单核苷酸多态性的遗传效应，包括：

分析由不同数量的数量性状核苷酸控制的遗传力的表型；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种基因组遗传分层联合分析系统，其特征在于，包括：

基于所述目标数据，构建基因组的逻辑回归混合模型；

6.根据权利要求5所述的系统，其特征在于，所述第一处理单元具体用于：

7.根据权利要求5所述的系统，其特征在于，所述第二处理单元具体用于：

分析由不同数量的数量性状核苷酸控制的遗传力的表型；

8.根据权利要求5所述的系统，其特征在于，所述系统还包括：