CN104462868A

CN104462868A - 一种结合随机森林和Relief-F的全基因组SNP位点分析方法

Info

Publication number: CN104462868A
Application number: CN201410765415.8A
Authority: CN
Inventors: 杨利英; 黎成; 殷黎洋; 张军英; 袁细国
Original assignee: Xidian University
Current assignee: Chongqing Institute Of Integrated Circuit Innovation Xi'an University Of Electronic Science And Technology
Priority date: 2014-12-11
Filing date: 2014-12-11
Publication date: 2015-03-25
Anticipated expiration: 2034-12-11
Also published as: CN104462868B

Abstract

本发明公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法，首先应用广义线性模型对SNP位点进行初步筛选，接着利用Relief-F处理SNP交互作用的能力，预先将存在交互作用的SNP位点排到队列前面，然后将队列后面的SNP位点利用随机森林进行排名，以识别单个SNP位点的边缘作用，这样得到一个SNP的排名队列，去掉排在队列末端的SNP位点之后，重新应用Relief-F和随机森林进行处理，如此迭代，最后得到SNP位点的排序结果。本发明综合考虑单个SNP位点的作用和位点之间的交互作用，能处理全基因组SNP数据，进而发现与复杂疾病相关的SNP位点，对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。

Description

一种结合随机森林和Relief-F的全基因组SNP位点分析方法

技术领域

本发明属于数据处理技术领域，基于全基因组单核苷酸多态性(SNP，Single Nucleotide Polymorphisms)数据进行全基因组关联研究，识别与疾病相关的SNP位点，可用于阐释复杂疾病的致病机理、疾病风险预测以及生物药物研制。

背景技术

生物信息学是一门生命科学和计算机科学相结合的新兴学科，研究生物信息的采集、处理、存储、传播，分析和解释等，通过综合利用生物学、计算机科学和信息技术来揭示复杂的生物数据所蕴藏的生物学奥秘。全基因组关联研究(GWAS，Genome-Wide AssociationStudies)的基本原理是在同层人群中选择满足一定统计学数量的病例组和对照组样本，比较全基因组范围内SNP位点在病例组和对照组中的频率差异，若某个SNP位点在病例组中出现的频率明显高于或低于对照组，则认为该SNP位点与复杂疾病存在着某种关联。与复杂疾病相关的SNP位点的发现和识别对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。

当前，通过GWAS已经发现了很多与复杂疾病相关的SNP位点，但是发现的相关SNP位点中只有少数能够增加复杂疾病的致病风险，而且还有一些已经被生物实验证明的与复杂疾病相关的SNP位点没有被GWAS识别出来。因此，还存在着大量未被发现的SNP。这种结果主要由如下两方面的原因所造成：

(1)目前GWAS在建模时大多只考虑单个SNP位点与复杂疾病的关联关系，忽略了SNP位点可以通过与其它SNP位点或环境因素共同作用影响复杂疾病的情况。

(2)罕见SNP位点的识别难度大，这类SNP位点在正常人群中出现的频率在1％-5％之间，在样本数量非常少的情况下很难通过GWAS直接识别出来。

为克服GWAS在与复杂疾病相关的SNP位点识别上的不足，研究人员开始关注SNP位点之间的交互作用，在方法层面上进行了更加深入的研究，提出了许多方法。这些方法可概括为两大类，即基于模型的方法和模型无关方法。基于模型的方法预先在基因组和表现型之间定义一种统计模型，然后拟合数据到假设的模型，得到显著的SNP位点，但是该类方法难以处理高维的GWAS数据，面临着“维数灾难”问题。模型无关方法为了有效处理高维SNP数据，通常采用一些启发式信息指导搜索，而不用提前对数据和模型作出假设，该类方法只是通过统计技术测试每个可能存在的交互作用的SNP组，但没有某种单一的方法能准确地找到大部分与复杂疾病相关的SNP位点。

上述两类常用的方法中，有些只是识别单个SNP位点的增加复杂疾病致病风险作用，有些则侧重于SNP位点间的交互作用，大多没有根据疾病的复杂生物机理，综合考虑两者的共同作用。针对当前研究存在的这一问题，本发明提出了一种结合随机森林和Relief-F的全基因组SNP位点分析方法。随机森林是一种集成学习方法，通过将多个决策树进行集成来完成模式识别的任务，其中决策树属性结点划分的统计信息可用来进行特征的重要性排名，如可用置换重要性或基尼(Gini)重要性对特征排序。用随机森林对SNP高维数据集进行处理时，在识别单个SNP位点上有突出的优势，但处理特征之间的交互作用有所欠缺。Relief-F方法利用假设间隔最大化理论进行特征排序，可以用来对SNP位点进行排名，该方法能够很好地识别SNP位点的交互作用，但是易受噪声数据的影响，对单个位点的识别作用不理想。本发明将随机森林和Relief-F有机结合起来，发挥各自的优势，从而达到同时识别单个位点和多个位点交互作用的目的，提高与复杂疾病相关的SNP位点的识别能力。

发明内容

针对现有技术的不足，本发明旨在提出一种结合随机森林和Relief-F的全基因组SNP位点分析方法，兼顾单个SNP位点的增加复杂疾病风险作用与多个SNP位点之间的交互作用，从方法层面保证了罕见与复杂疾病相关的SNP位点的识别效能，为疾病的生物学病理研究提供基础。

为了实现上述目的，本发明采取如下技术方案：

一种结合随机森林和Relief-F的全基因组SNP位点分析方法，包括如下步骤：

S1、对样本数据进行预处理：如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为a，那么基因型AA、Aa、aa分别编码成0、1、2，去掉最小等位基因频率小于设定值的SNP位点；

S2、设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP个数的上限为L_u；若m＜＝L_u，则直接执行步骤S3，若m＞L_u，则对每个SNP位点x_j(j＝1，2，...，m)与样本类别变量y建立广义线性模型以评估单个SNP的作用；建立的广义线性模型如下：

g (E (y | X)) = β_{0} + Σ_{j = 1}^{m} β_{j} x_{j};

其中g函数为logit函数，β为模型系数，样本X＝(x₁，x₂，...，x_m)^T；

根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前L_u个SNP位点构成集合S，p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝L_u并执行步骤S3；

S3、对SNP位点集合进行后向缩减，其中设置每次迭代时过滤SNP的比例为q，迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r＞q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m；单次迭代的过程如下：

3.1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点；

3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名；

3.3)将排名末尾个SNP位点存到SNPrank队列的头部，并根据对u进行更新；

S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的SNP位点排名；

S5、取SNPrank前k个SNP位点为显著SNP位点。

需要说明的是，步骤S1中所述设定值为0.05，即去掉最小等位基因频率小于0.05的SNP位点。

需要说明的是，步骤3.1)具体实现过程为：

首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后对每个位点g_i(i＝1，2，...，u)用如下公式更新权重：

W[g_i]＝W[g_i]-diff(g_i，X，H)/u+diff(g_i，X，M)/u；

其中diff函数表示两个样本在一个位点上的间距，如果样本P的SNP位点g_i和样本Q的SNP位点g_i的基因型相同，则diff(g_i，P，Q)＝1，否则为0。

需要说明的是，步骤3.2)中所述置换重要性值按照如下公式进行计算：

I (A) = \frac{1}{T} Σ_{j = 1}^{T} \frac{1}{N_{j}} Σ_{i = 1}^{N} [F (V_{j} (X_{i}) = y_{i}) - F (V_{j} (X_{i}^{(A, j)}) = y_{i})] t_{ij};

其中，I(A)表示SNP位点A的置换重要性值，N是所有样本的数目，T是树的总数；i是样本索引，i＝1，2，...，N，j是决策树索引，j＝1，2，...，T，X_i表示第i个样本，y_i表示第i个样本真实的类别，V_j(X_i)表示第i个样本在第j棵树的预测值，t_ij表示第i个样本是否是第j棵树的袋外样本，取1或者0，其中1表示“是”，0表示“否”；表示第j棵树的SNP位点A重新排列后的第i个样本；F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0；N_j表示第j棵树的袋外样本数目。

需要说明的是，步骤S5中所述k值取10。

本发明的有益效果在于：

1、本发明综合考虑单个SNP位点的作用和多个SNP位点的交互作用，按照从后往前消减的思想，迭代过滤排名低的SNP位点，整个迭代过程不会因为SNP位点的交互作用而出现显著SNP位点排名低的问题。

2、本发明利用广义线性模型预先得到单个SNP位点作用的p值，而后依据p值对SNP位点进行筛选，从而降低了维度，因此能够有效处理全基因组SNP数据。

附图说明

图1是本发明方法的流程示意图。

图2是本发明在模拟数据组1上的实验结果示意图。

图3是本发明在模拟数据组2上的实验结果示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出详细的实施步骤和具体的操作方式，但本发明并不限于本实施例。

参照图1，本发明的具体实现步骤如下。

步骤一，对SNP数据进行预处理：

如果样本数据是AA这种碱基对形式，则对每个SNP位点进行编码，编码成最小等位基因的个数；如果最小等位基因为a，那么根据最小等位基因出现的个数，基因型AA、Aa、aa分别编码成0、1、2。去掉最小等位基因频率小于设定值的SNP位点。所述设定值设定为0.05。去掉最小等位基因频率小于设定值的SNP位点，目的在于过滤掉缺乏显著性的位点，如果所述设定值过大，就可能会过滤掉潜在有用的位点。

步骤二，通过广义线性模型对SNP位点进行筛选：

设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP位点个数的上限为L_u。若m＜＝L_u，直接执行步骤三，否则对每个SNP位点x_j(j＝1，2，...，m)与样本类别变量y建立广义线性模型(GLM，Genera lized Linear Model)以评估单个SNP的作用。建立的广义线性模型如下：

g (E (y | X)) = β_{0} + Σ_{j = 1}^{m} β_{j} x_{j};

对模型中每个SNP位点，按p值递增的顺序进行排序，得到前L_u个对应的SNP位点集合S，p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝L_u并执行步骤三。

步骤三，兼顾SNP单个位点的作用及位点间的交互作用，按与复杂疾病的相关度对位点排序：

对SNP位点集合进行后向缩减，设置每次迭代时过滤SNP的比例为q，迭代次数随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r＞q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m，单次迭代步骤如下：

(1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点。首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后每个位点g_i(i＝1，2，...，u)用如下公式更新权重：

W[g_i]＝W[g_i]-diff(g_i，X，H)/u+diff(g_i，X，M)/u；

(2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点A的置换重要性值I(A)，计算公式为：

I (A) = \frac{1}{T} Σ_{j = 1}^{T} \frac{1}{N_{j}} Σ_{i = 1}^{N} [F (V_{j} (X_{i}) = y_{i}) - F (V_{j} (X_{i}^{(A, j)}) = y_{i})] t_{ij};

其中，N是样本个数，i是样本索引，i＝1，2，...，N，j是决策树索引，j＝1，2，...，T，T是树的总数。X_i表示第i个样本，y_i表示该样本真实的类别，V_j(X_i)表示第i个样本在第j棵树的预测值，t_ij表示第i个样本是否是第j棵树的袋外样本，取1(“是”)或者0(“否”)。表示第j棵树的特征A重新排列后的第i个样本。F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0。N_j表示第j棵树的袋外样本数目。

(3)将每个SNP位点对应的置换重要性值进行逆序，将排名末尾个SNP位点存到SNPrank队列的头部，根据对u进行更新。

将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样就得到了完整的SNP位点排名。

步骤四，取SNPrank前k个SNP位点作为显著SNP位点。作为一种优选方案，k值可取为10。

本发明将通过下述的实验例子对本发明方法的效果进行更详细的描述，这些实验例子仅用于举例的目的，而不试图限制本发明的应用范围。

实验1：模拟数据中显著SNP位点的识别

模拟数据集有两组，每组数据集个数为100，模拟数据组1的数据模拟同时包含单个SNP位点的作用和SNP位点之间的交互作用，模拟数据组2模拟了只包含SNP位点之间交互作用情形。

表1设计了一种两个SNP位点的模型，患有某种疾病的基准概率是a，有显著等位基因(a或者b)增加几率1+θ。模拟数据组1根据表1的模型产生，每个数据集有2000个样本，1000个SNP位点，其中有两个显著SNP位点，序号分别为11和21。模拟数据组2取自达特茅斯学院(http：//discovery.dartmouth.edu/epistatic-data)，每个数据集有800个样本，1000个SNP位点，其中有两个显著SNP位点，序号为1和2。

表1

	AA	Aa	aa
				BB	a	a(1+θ)	a(1+θ)²
Bb	a(1+θ)	a(1+θ)²	a(1+θ)³
				bb	a(1+θ)²	a(1+θ)³	a(1+θ)⁴

模拟数据组1和模拟数据组2的具体实施步骤如下：

1、对SNP位点集合进行后向缩减，设置迭代次数it＝23，每次迭代时过滤SNP位点的比例为q＝0.2，随机森林排名的SNP位点个数和初始SNP位点总和的比例为r＝0.4，SNP位点的排名结果队列记为SNPrank，设置开始时SNP位点个数为u＝1000，单次迭代步骤如下：

(1)利用Relief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点。

(2)取u个SNP位点中后面个SNP位点，利用随机森林方法计算每个SNP位点A的置换重要性值I(A)。

2、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样得到SNP位点的最终排名。

3、取SNPrank前2个位点作为显著SNP位点。

对于数据组1中的100个数据集，对每个数据集都进行SNP位点的识别，其中模拟数据集的第11个SNP位点和第21个SNP位点是显著SNP位点，因此根据每个数据集运用本发明的方法后得到的SNPrank的排名，可以用来统计显著SNP位点的识别率。

第一组模拟数据的实验结果如图2所示，横坐标表示SNP位点的排名，纵坐标表示对于每个SNP位点的排名SNP11和SNP21在100个数据集中的识别率，即在100个数据集中SNP11和SNP21的排名都小于当前排名的比例。图2对本发明的方法和随机森林以及Relief-F方法做了对比，从图中明显可以看出本发明方法识别显著SNP位点的优势，识别率接近100％，相比随机森林和Relief-F能更好地识别与复杂疾病相关的SNP位点，每个数据集的运行结果的前2名都基本上是显著SNP位点SNP11和SNP21。本模型的显著SNP位点存在交互作用，从图中也可以看出，Relief-F对于显著SNP位点的识别能力较强，因此实验结果也进一步表明Relief-F识别SNP位点交互作用的能力较强，随机森林则在识别SNP位点交互作用的能力方面有所欠佳。

在数据组2中的数据集中，与疾病相关的因素主要是SNP1和SNP2的交互作用，本应用实例的目的是验证所提方法在识别SNP仅存在交互作用时的性能。图3比较了随机森林、Relief-F和本发明方法在识别交互作用上的能力。为了更好地显示各个方法的差异，纵轴标记为识别率，统计各方法将SNP1和SNP2排到30名之前的数据集个数在全部100个数据集中的比例。从图3的结果可以看出，Relief-F在这种数据集下有比较好的识别能力，随机森林识别交互作用的能力较弱，很难将SNP1或者SNP2排到前面，本发明方法相比随机森林和Relief-F都有很大优势，能准确识别SNP1。三种方法对SNP2的识别都较弱，三者比较结果差异不大，从整体性能而言，本发明方法明显优于随机森林和Relief-F。

实验2：真实病例数据中显著SNP位点的识别

真实病例选用AMD(Age-related macular degeneration)数据，AMD是年龄相关性黄斑变性，是一种常见的复杂疾病，该病是由于黄斑区色素上皮退化、新生血管膜形成而导致慢性进行性双眼中心视力的减退。AMD数据集一共包含116204个SNP位点，有96个患病样例，50个正常样例，移除一些不符合遗传平衡定律的位点，并且去掉了缺失个数大于5的SNP位点，最终得到96607个SNP位点。在AMD数据上具体实施步骤如下：

1、对初始SNP数据进行预处理，去掉最小等位基因频率小于0.05的SNP位点。

2、设置L_u＝3000，对每个SNP位点x_j与样本类别变量y建立广义线性模型，按p值递增的顺序进行排序，得到p值前3000个对应的SNP位点集合S，设置SNP位点个数m＝3000。

3、对SNP位点集合进行后向缩减，设置迭代次数it＝28，每次迭代时过滤SNP的比例为q＝0.2，随机森林排名的SNP位点个数和初始SNP位点总和的比例为r＝0.4，SNP位点的排名结果队列记为SNPrank，设置开始时SNP位点个数为u＝3000，单次迭代步骤如下：

4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部，这样得到SNP位点的最终排名。

5、取SNPrank前30个位点作为待选SNP位点。

6、根据(1-5)的步骤运行10次，得到10次运行结果，每次记录排名前30的SNP位点，然后统计前30名中各SNP位点的出现次数，根据出现次数进行排名。对于出现次数相同的SNP位点，再根据每次运行结果的排名加权，给平均排名比较靠前的位点更高的排名。

表2是本发明方法在AMD数据中识别得到的前10个显著SNP位点。从表2的结果可以看出，本发明的方法准确地识别出已经通过功能验证、具有显著作用的两个SNP位点rs1329428和rs380390，两者分别排在第1名和第2名。本发明方法也找到了其他一些文献所找到的显著SNP位点，如rs1394608排在第6名。此外，本发明方法还找到了一些新的显著SNP位点，如rs6598991、rs10254116、rs10512174等，可为功能验证实验提供理论依据。根据真实数据的运行结果，可以验证本发明方法在识别与复杂疾病相关SNP位点方面的有效性。

表2

排名	显著SNP位点	染色体
			1	rs1329428	1
2	rs380390	1
			3	rs6598991	9
4	rs10254116	1
			5	rs10512174	20
6	rs1394608	7
			7	rs6104678	5
8	rs10511467	20
			9	rs4784489	16
10	rs200642	9

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种结合随机森林和Relief-F的全基因组SNP位点分析方法，其特征在于，所述方法包括如下步骤：

S2、设单核苷酸多态SNP的个数为m，设置进入下一阶段处理的SNP个数的上限为L_u；若m<＝L_u，则直接执行步骤S3，若m>L_u，则对每个SNP位点x_j(j＝1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用，建立的广义线性模型如下:

g (E (y | X)) = β_{0} + Σ_{j = 1}^{m} β_{j} x_{j};

其中g函数为logit函数，β为模型系数，样本X＝(x₁,x₂,...,x_m)^T；

根据广义线性模型建模的结果，通过对每个SNP位点对应的p值进行递增排序，筛选得到前L_u个SNP位点构成集合S，所述p值是统计学假设检验方法得到的概率值，表示变量的显著性；设置SNP位点个数m＝L_u并执行步骤S3；

S3、对SNP位点集合进行后向缩减，其中设置每次迭代时过滤SNP的比例为q，迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q)，SNP位点的排名结果队列记为SNPrank，初始化SNP位点个数为u＝m；单次迭代的过程如下：

3.1)利用Rel ief-F方法对u个SNP位点进行权重排名，得到降序的u个SNP位点；

S5、取SNPrank前k个SNP位点为显著SNP位点。

2.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤S1中所述设定值为0.05，即去掉最小等位基因频率小于0.05的SNP位点。

3.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤3.1)具体实现过程为：

首先初始化每个SNP位点的权重为0，然后迭代n次，n设置为样本数目，每次选择一个样本X，计算得到与这个样本类别标签一致的最近邻样本H，同时计算得到与这个样本类别标签不一样的最近邻样本M，然后对每个位点g_i(i＝1,2,...,u)用如下公式更新权重：

W[g_i]＝W[g_i]-diff(g_i,X,H)/u+diff(g_i,X,M)/u；

其中diff函数表示两个样本在这个位点上的间距，如果样本P的SNP位点g_i和样本Q的SNP位点g_i的基因型相同，则diff(g_i,P,Q)＝1，否则为0。

4.根据权利要求1所述的一种结合随机森林和Rel ief-F的全基因组SNP位点分析方法，其特征在于，步骤3.2)中所述置换重要性值根据如下公式进行计算：

I (A) = \frac{1}{T} Σ_{j = 1}^{T} \frac{1}{N_{j}} Σ_{i = 1}^{N} [F (V_{j} (X_{i}) = y_{i}) - F (V_{j} (X_{i}^{(A, j)}) = y_{i})] t_{ij};

其中，I(A)表示SNP位点A的置换重要性值，N是所有样本的数目，T是树的总数；i是样本索引，i＝1,2,…,N，j是决策树索引，j＝1,2,…,T，X_i表示第i个样本，y_i表示第i个样本真实的类别；V_j(X_i)表示第i个样本在第j棵树的预测值；t_ij表示第i个样本是否是第j棵树的袋外样本，取1或者0，其中1表示“是”，0表示“否”；表示第j棵树的SNP位点A重新排列后的第i个样本；F(C)是一个指示函数，当条件C满足时取值为1，否则取值为0；N_j表示第j棵树的袋外样本数目。

5.根据权利要求1所述的一种结合随机森林和Relief-F的全基因组SNP位点分析方法，其特征在于，步骤S5中所述k值取10。