CN108256293A

CN108256293A - 一种疾病关联基因组合的统计方法及系统

Info

Publication number: CN108256293A
Application number: CN201810134414.1A
Authority: CN
Inventors: 赵毅; 张阳
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-07-06

Abstract

本发明公开一种疾病关联基因组合的统计方法及系统。该统计方法包括：采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，显著性表示单核苷酸多态性位点与疾病的关联程度，获得单核苷酸多态性位点显著性；根据核苷酸显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点；采用基于极端梯度的Boosting的集成学习算法对关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。本发明通过全基因组关联分析方法与基于梯度的Boosting的集成学习算法相结合的方法对关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合，提高了疾病关联基因组合获取结果的准确性。

Description

一种疾病关联基因组合的统计方法及系统

技术领域

本发明涉及生物信息技术领域，特别是涉及一种疾病关联基因组合的统计方法及系统。

背景技术

目前，研究人员采用全基因组关联方法搜索大量的单核苷酸多态性，发现显著影响表型的遗传突变。

采用全基因组关联方法搜索大量的单核苷酸多态性，能够通过单个单核苷酸的统计检验分别获得单个单核苷酸引起的疾病的遗传效应，但是，部分疾病的遗传是由多个单核苷酸决定的，仅仅采用全基因组关联方法统计多个单核苷酸与疾病之间的关联关系，统计结果的准确率较低，误差较大。

发明内容

本发明的目的是提供一种能够提高统计结果的准确度的疾病关联基因组合的统计方法及系统。

为实现上述目的，本发明提供了如下方案：

一种疾病关联基因组合的统计方法，所述统计方法包括：

采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，获得单核苷酸多态性位点显著性，所述显著性表示单核苷酸多态性位点与疾病的关联程度；

根据所述核苷酸显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点；

采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

可选的，所述全基因组关联分析方法为卡方检验、Fisher精确检验、逻辑回归分析中的任意一者。

可选的，所述采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合具体包括：

以多个所述关联单核苷酸多态性位点为输入，以所述多个所述关联单核苷酸多态性位点的显著性为输出，采用基于极端梯度的Boosting的集成学习算法对分类模型进行训练，获得训练模型；

根据所述训练模型对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

为了实现上述目的，本发明还提供了如下方案：

一种疾病关联基因组合的统计系统，所述统计系统包括：

核苷酸多态性位点显著性计算模块，用于采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，所述显著性表示单核苷酸多态性位点与疾病的关联程度，获得核苷酸多态性位点显著性；

单核苷酸多态性位点筛选模块与所述核苷酸多态性位点显著性计算模块连接，所述单核苷酸多态性位点筛选模块用于根据所述核苷酸显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点；

关联基因组合获取模块与所述单核苷酸多态性位点筛选模块连接，所述关联基因组合获取模块用于采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

可选的，所述关联基因组合获取模块具体包括：

训练单元与所述单核苷酸多态性位点筛选模块连接，所述训练单元用于以多个所述关联单核苷酸多态性位点为输入，以所述多个所述关联单核苷酸多态性位点的显著性为输出，采用基于极端梯度的Boosting的集成学习算法对分类模型进行训练，获得训练模型；

分类单元与所述训练单元连接，所述分类单元用于根据所述训练模型对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种疾病关联基因组合的统计方法及系统，采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，获得核苷酸显著性；根据所述核苷酸显著性和核苷酸显著性阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点；采用基于梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。通过全基因组关联分析方法与基于梯度的Boosting的集成学习算法相结合的方法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合，提高了疾病关联基因组合获取结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种疾病关联基因组合的统计方法的流程图；

图2为本发明提供的一种疾病关联基因组合的统计系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示的一种疾病关联基因组合的统计方法的流程图，所述统计方法包括：

步骤100：采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，获得单核苷酸多态性位点显著性，疾病的情况分为患病和不患病两种情况，所述显著性表示单核苷酸多态性位点与疾病的关联程度。

步骤200：根据所述核苷酸显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点，所述阈值表示显著性阈值。

步骤300：采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

所述全基因组关联分析方法为卡方检验、Fisher精确检验、逻辑回归分析中的任意一者，所述卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合；若两个值完全相等时，卡方值为0，表明理论值完全符合。

当样本集较小时，不适合用卡方检验，因此采用Fisher精确检验进行修正调整。

由于单核苷酸多态性位点的数据量较大，所以需要对每个单核苷酸多态性位点单独进行分析。

确定与某疾病相关的基因易感单核苷酸多态性位点，由于大部分单核苷酸多态性位点与疾病无关，根据全基因组关联分析方法的显著性结果，选择较为显著的单核苷酸多态性位点。

由于相邻单核苷酸多态性位点之间存在连锁不平衡的情况，所以考虑显著单核苷酸多态性位点的周边位点，寻找与所述显著单核苷酸多态性位点连锁的位点，将所述显著单核苷酸多态性位点与关联的连锁位点全部提取出来。

所述步骤300：采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合具体包括：

步骤301：以多个所述关联单核苷酸多态性位点为输入，以所述多个所述关联单核苷酸多态性位点的显著性为输出，采用基于极端梯度的Boosting的集成学习算法对分类模型进行训练，获得训练模型，所述分类模型表示初步分析后的数据集。

全基因组关联分析方法与基于极端梯度的Boosting的集成学习算法相结合的方法对多个所述关联单核苷酸多态性位点和少量所述关联单核苷酸多态性位点都能够实现准确有效的分类，保证了训练样本和测试样本的误差值和损失值能够同步下降，有效防止了过拟合现象，还能够同时处理低频变异和跨表型相互作用的影响。

基于梯度的Boosting具体采用泰勒二项展开的方法能够最大程度地降低目标函数。

步骤302：根据所述训练模型对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

统计基因型(GG/GT/TT)和表型之间(患病或不患病)的等位基因位点频数。行和列是相互独立的。列表如下：

表2-1基因型与表型数据统计表

人的体细胞为二倍体，即有两套染色体，一套来自母体，一套来自父体，G/T说明这个位点有两个等位基因，GG和TT为纯合子，GT/TG为杂合子。基因分型的时候就会得到三种基因分型：GG、GT、TT。当判断单核苷酸基因位点是否与疾病相关联时，分别考虑三种基因分型GG、GT、TT或者是G、T的携带者是否增加转阳概率。

表2-2.a基因型与表型数据统计表

根据每个单核苷酸基因位点的列联表数据计算χ²统计量，间接得出显著性信息。

为了实现上述目的，本发明还提供了如下方案：

如图2所示的一种疾病关联基因组合的统计系统，所述统计系统包括：

单核苷酸多态性位点显著性计算模块1，用于采用全基因组关联分析方法计算基因序列中的每个单核苷酸多态性位点的显著性，所述显著性表示单核苷酸多态性位点与疾病的关联程度，获得核苷酸多态性位点显著性。

单核苷酸多态性位点筛选模块2与所述单核苷酸多态性位点显著性计算模块1连接，所述单核苷酸多态性位点筛选模块2用于根据所述核苷酸显著性和阈值，筛选出与疾病关联的单核苷酸多态性位点，获得关联单核苷酸多态性位点。

关联基因组合获取模块3与所述单核苷酸多态性位点筛选模块2连接，所述关联基因组合获取模块3用于采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合。

所述关联基因组合获取模块3具体包括：

训练单元与所述单核苷酸多态性位点筛选模块连接，所述训练单元用于以多个所述关联单核苷酸多态性位点为输入，以所述多个所述关联单核苷酸多态性位点的显著性为输出，采用基于梯度的Boosting的集成学习算法对分类模型进行训练，获得训练模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种疾病关联基因组合的统计方法，其特征在于，所述统计方法包括：

2.根据权利要求1所述的一种疾病关联基因组合的统计方法，其特征在于，所述全基因组关联分析方法为卡方检验、Fisher精确检验、逻辑回归分析中的任意一者。

3.根据权利要求1所述的一种疾病关联基因组合的统计方法，其特征在于，所述采用基于极端梯度的Boosting的集成学习算法对所述关联单核苷酸多态性位点对应的人分为患病和不患病两类，获得关联基因组合具体包括：

4.一种疾病关联基因组合的统计系统，其特征在于，所述统计系统包括：

5.根据权利要求4所述的一种疾病关联基因组合的统计系统，其特征在于，所述关联基因组合获取模块具体包括：