CN109801681A

CN109801681A - 一种基于改进的模糊聚类算法的snp选择方法

Info

Publication number: CN109801681A
Application number: CN201811515699.XA
Authority: CN
Inventors: 周从华; 张波; 张付全; 张婷; 蒋跃明
Original assignee: Wuxi City Mental Health Center; Jiangsu University
Current assignee: Wuxi City Mental Health Center; Jiangsu University
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-05-24
Anticipated expiration: 2038-12-11
Also published as: CN109801681B

Abstract

本发明公开了一种基于改进的模糊聚类算法的SNP选择方法，包括：获取SNP数据集；对获取到的SNP数据进行预处理，包括数据的清洗和重新编码；对预处理后的数据基于假设性检验进行初步筛选；对初筛过的数据，分别计算每个SNP的重要程度；利用改进的模糊聚类算法对SNP进行聚类；从聚类得到的每个簇中根据对称的不平衡性原则进一步筛选，构造SNP子集。本发明针对SNP数据，在考虑单个SNP对分类结果的影响的同时，也兼顾了局部区域SNP之间的相互关联性，在对数据实现降维的同时，充分挖掘了SNP内部的信息。使用该方法构造出来的SNP子集，相比于其他选择方法而言具有更好的分类效果，可应用于SNP数据的选择中。

Description

一种基于改进的模糊聚类算法的SNP选择方法

技术领域

本发明涉及数据挖掘领域，尤其涉及信息SNP的子集构造和一种基于改进的模糊聚类算法的SNP选择方法。

背景技术

遗传疾病是由于遗传物质的改变所导致的疾病，这种类型的疾病病种多、发病率高，目前已发现的遗传疾病已经高达3000多种，对社会造成了很大的影响。近几年来，随着DNA微阵列技术取得的巨大进步，使得人们可以获得数以万计的基因表达谱，从而可以从基因层面去深入了解疾病，为疾病的发病机理的研究提供了强有力的支持。随着人类全基因组研究(Genome-Wide Association Study，GWAS)的日益推进，使得像精神分裂症、类风湿关节疾病等疾病的研究取得了良好的进展。GWAS是一种检测特定物种中不同个体间的全部或大部分基因，从而了解不同个体间的基因变化有多大的一种方法。GWAS的开展为人类研究复杂疾病打开了一扇大门，使人们发现了许多前所未见基因以及染色体区域。而GWAS的研究是建立在单核苷酸多态性(Single Nucleotide Polymorphisms，SNP)的基础之上的，通过对比患病组和健康组的SNP位点，可以发现那些与疾病最为相关的致病基因。SNP是指基因组上单个核苷酸的变异，包括转化、颠换、缺失和插入。研究表明，人体许多的表型差异以及对疾病的易感性，都与SNP有着紧密的联系。然而，如此之多的SNP，并不是每个对于生物表型差异都起决定性作用的，换句话说，存在着很多冗余的SNP。如果不对这些冗余的SNP进行筛选或者剔除，会导致维数灾难，对后续的研究造成极大的麻烦。

SNP选择问题在某种程度上其实也可以看作是特征选择的子问题，然而，现有的选择方法要么没有差异性地对待对患病结果影响不同的SNP，要么没有更近一步地挖掘那些重要的SNP局部范围内的SNP之间的关联。它的高维特性以及SNP与SNP之间并非完全独立的特点，使得一般的方法在解决它时难免会遗漏掉许多内在的遗传信息。

发明内容

发明目的：针对现有技术中存在的不足，本发明的目的在于提供一种基于改进的模糊聚类算法的SNP选择方法，实现对高维的SNP数据进行降维的同时能尽可能地保留最重要的SNP，来更好地提高该数据的分类预测效果。

技术方案：为了解决上述技术问题，本发明采用的技术方案为：

一种基于改进的模糊聚类算法的SNP选择方法，包括以下步骤：

步骤1，获取SNP数据；

步骤2，对SNP数据进行预处理操作，得到预处理后的数据；

步骤3，对预处理后的数据基于假设性检验进行初步筛选；

步骤4，对初筛过的数据，分别计算每个SNP的重要程度；

步骤5，利用改进的模糊聚类算法对SNP进行聚类；

步骤6，从聚类得到的每个簇中，根据对称的不平衡性原则进一步构造SNP子集。

步骤2中，预处理包括缺失值的处理和数据重新编码。具体步骤如下：

1)对原始数据做统计分析，将缺失值较多的样本删除；

2)对删除缺失值后的数据，使用k近邻方法对少量缺失的数据进行填充；

3)由于原始的数据是基于基因型表示的，所以需要按照“0-1-2”的编码进行重新编码，分别表示AA、Aa和aa。

步骤3中，初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。具体步骤如下：

1)对预处理后的数据，按照遗传指标最小等位基因频率(MAF)，将MAF＜0.5的SNP剔除；

2)根据MAF初步剔除后，统计AA、Aa以及aa的频率，然后根据哈代-温伯格平衡法则(Hardy-Weinberg Equilibrium)和卡方检验计算出实际数据与期望上的误差；然后将卡方值低于设置好的阈值的SNP剔除；卡方检验的公式为

式中，R表示实际值，E表示理论值。

步骤4中，具体步骤如下：

1)根据式(2)计算数据中每个SNP对个体表现型重要程度，即贡献度

使用归一化后的IG来表示每个SNP的贡献度；假定样本S中的某个SNPa有V个可能取值{a₁，a₂，…，a_V}，IG的定义由公式(3)给出

步骤5中，具体步骤如下：

1)根据约束条件生成随机数来初始化隶属度矩阵u_ij；

2)根据式(4)来更新类中心矩阵v_i

式中，m是模糊因子，D_j是重要的x_j的领域内的SNP集合；λ_j是一个系数，当g_j＞0.5的时候为1，反之为0；

3)根据式(5)来更新隶属度矩阵u_ij

4)根据式(6)计算每一次迭代的损失函数

通过不断地迭代，当前后两次的隶属度矩阵u_ij变化值小于某个阈值的时候，或者损失函数J不在改变的时候终止算法，聚类过程完成。

步骤6中，具体步骤如下：

1)通过所述的聚类完成后，得到k个SNP的簇；按照公式(7)来计算每个簇中的每个SNP之间的SU值，并对SNP按照降序排列；

式中，H(X)表示变量的信息熵，H(X|Y)表示两个变量的条件熵。

2)按照最大相关和最小冗余的原则，使用式(8)来从每个簇中选择合适的SNP

式中，c_k表示的是聚类后的每个簇，等式右边的第一部分用簇中具有最大平均SU的一个特征来表示最相关的特征，第二部分用具有与该特征最小SU的特征来表示最不冗余的特征。

所述的基于改进的模糊聚类算法的SNP选择方法，在每个簇中，选择SU值最大的SNP作为第一个候选SNP，并将其添加到候选子集中，并将该SNP从所在簇中剔除；从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征，作为第二个候选SNP并向其添加到候选子集中。

针对现有的SNP选择方法要么没有差异性地对待对患病结果影响不同的SNP，要么没有更近一步地挖掘那些重要的SNP局部范围内潜在信息的情况，本申请先通过假设性检验方法初步剔除生物意义不大的SNP；然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性，并对初步筛选后的数据进行聚类；最后，使用基于不平衡的确定性从聚类得到的每个簇进一步筛选，构造最终的SNP集合。该方法很好的兼顾了这两方面的因素，因此构造出来的SNP子集能够高度代表原始的数据的信息。

有益效果：与现有技术相比，本申请的基于改进的模糊聚类算法的SNP选择方法，考虑遗传定律的理论基础，先通过假设性检验方法初步剔除生物意义不大的SNP，然后在原模糊聚类算法的基础上引入每个SNP的贡献度以及重要SNP领域内的关联性，该方法对初步筛选后的数据进行聚类，最后使用不平衡的确定性对得到的每个簇进行筛选，构造最终的SNP集合。能在实现降维的同时更好的挖掘SNP内部的遗传信息，在分类预测中具有更优秀的分类效果。

附图说明

图1是本发明方法的整个SNP选择的流程图；

图2是基于对称的不平衡性进行选择实施流程图(步骤六)。

图3是实施例2中方法有效性验证的流程图

图4是实施例2中算法迭代次数比较图

图5是实施例2中算法迭代时间比较图

具体实施方式

下面结合附图对本发明的实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，但对其不起任何限定作用。

实施例1

一种基于改进的模糊聚类算法的SNP选择方法，针对SNP数据，在考虑单个SNP对分类结果的影响的同时，也兼顾了局部区域SNP之间的相互关联性，在对数据实现降维的同时，充分挖掘了SNP内部的信息。具体包括如下步骤：

步骤1，获取SNP数据集，一般原始的数据是以基因型的形式表示的，例如AT，GC，AA...CG等。

步骤2，对SNP数据进行预处理操作，得到预处理后的数据，预处理主要包括缺失值的处理和数据重新编码；具体如下：

1)：首先可以对每一个SNP，统计其在基因型的表示上的缺失情况，如果缺失的比例高于设置的阈值(这里设置为20％)，则将对应的SNP从数据集中删除。

2)：对删除后的数据，使用K近邻方法对少量缺失的数据进行填充，例如，通过统计某一缺失位置的邻域范围内，出现最多的是“GC”，则可以将该位置填充为“GC”。

3)：基于统计将原本的基因型表示转化成0-1-2的实数表示，例如某个SNP的基因型表示为：TT，TC，AA，CC，TT，AG，GG，CC，CT，AG...最终可能转换成0，0，0，0，0，0，2，1，0，1...。

步骤3，对预处理后的数据基于假设性检验进行初步筛选，主要包括最小等位基因统计和基于遗传平衡法则的卡方检验，具体过程如下：

1)：对步骤1中预处理后的数据进行基因频率的统计，例如0对应Aa，则可以统计出A和a的频数，从而计算各自的频率，进一步得到每个SNP对应的MAF(MAF为A和a中的频率的最小值)，然后将MAF＜0.05的数据进行删除。

2)：如果基因A的频率是p，a的基因频率是q，则基因型AA的频率为p²，aa的频率为q²，Aa的频率为2pq，并且满足关系p²+q²+2pq＝1，这是哈代-温伯格平衡法则。通过该法则可以得到理论上的各个基因频率E，然后和从实际的数据中统计得到的各个频率值R相比，可以根据式(1)计算出两者的卡方值X²。

卡方检验的公式为

其中，R表示实际值，E表示理论值。

假设此时设置的阈值为0.03，自由度设置为2，则通过对比卡方检验表可以得到对应的卡方临界值。卡方表的部分如表1所示，有表中可以得到p-value＝0.03，df＝2时卡方值为7.378，，则在数据中将卡方结果大于7.378的SNP删除。

表1卡方检验表部分展现

步骤4，对处理后的数据，计算每个SNP的重要程度，具体如下：

使用式(2)来计算每个SNP的贡献度，即贡献度

其中j是表示第j个SNP，IG(j)是该SNP的信息熵。这里使用归一化后的IG来表示每个SNP的贡献度。假定样本S中的某个SNPa有V个可能取值{a₁，a₂，…，a_V}，IG的定义可以由公式(3)给出

重要程度g_j计算的结果是一个0到1之间的小数，数值越大表示该SNP越重要。例如结果为0.9的SNP是应该格外关注的，并且还要关注其领域内的其他SNP的关联，而结果为0.2则表示他的影响很小，甚至有可能都不需要去关注它领域内的情况。

步骤5，构造新的聚类算法，并使用该聚类方法对数据进行聚类，具体如下：

1)：根据约束条件生成随机数来初始化隶属度矩阵u_ij。假设类的个数为4时，产生的一组随机数表示隶属度矩阵u，矩阵的每列和等于1，

2)：根据式(4)来更新类中心矩阵v_i。

其中，m是模糊因子，这里取值为2；g_j为第j个SNP的重要程度；D_j是重要的SNP x_j的邻域内，x是该邻域内的某个SNP。λ_j是一个系数，当g_j＞0.5的时候为1，反之为0。

v经过式(4)更新后变成：

3)：根据式(5)来计更新隶属度矩阵u_ij，

式中的参数含义和所述式(4)中的参数含义一致。所述u经过式(5)更新后变成

4)：根据式(6)来计算每轮的损失函数

式中的参数的含义与所述式(4)中的参数的含义一致。通过不断地迭代步骤2)至步骤4)，当损失函数J不在改变的时候终止算法，聚类过程完成。此时的损失函数由初始时的6.3429588×10⁺⁷降低为2.0056647×10⁺⁷，最终的所述的隶属度矩阵u变为

通过比较可以发现，每个SNP的依次属于的类别为[3，0，3，..，3，0]。

步骤6，聚类完成后，得到k个SNP的簇。如图2所示，从聚类形成的簇中，根据对称的不平衡性和最大相关最小冗余原则，依次构造信息SNP子，具体如下：

1)：按照式(7)来计算每个SNP两两之间的SU值。

式中，H(X)表示变量的信息熵，H(X|Y)表示两个变量的条件熵。

2)：按照最大相关和最小冗余的原则，使用式(8)来从每个簇中选择合适的SNP

具体来说在每个簇中，首先选择一个SNP加入候选集中，要求该SNP与其它的SNP构成的SU的均值最大。例如SNP#r1与其他的SNP之间的SU的均值为6.31，#r2与其他的SNP之间的SU的均值为5.19，以此类推，假如6.31是最大值，那么就将#r1作为当前簇中的最相关的SNP，并加入候选集中，并将其从现有的簇中删除。然后在剩下的SNP中，选择一个与其他的SNP的SU值最小的，作为最小冗余的SNP加入候选集中。选择SU值最大的SNP作为第一个候选SNP，并将其添加到候选子集中，并将该SNP从所在簇中剔除。从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征，作为第二个候选SNP并向其添加到候选子集中。

在如此高维的SNP数据中，一方面，每个SNP对个体的表现形态产生影响的重要程度是不同的，有的作用很大，有的作用很小甚至没有；另一方面，每个SNP之间其实并不是互相独立，而是彼此关联的。该SNP选择方法很好的兼顾了这两方面的因素，因此构造出来的SNP子集能够高度代表原始的数据的信息。

实施例2

通过实验验证，使用该方法构造出来的SNP子集，相比于其他选择方法而言具有更好的分类效果，可应用于SNP数据的选择中。使用临床数据进行验证(选取部分数据，并将数据记作G1000)，实验实施如图3所示，具体包括如下部分：

数据预处理单元2，用于对数据进行基于假设性检验的初步筛选。设置MAF的阈值为0.05，结果显示该数据集G1000的MAF值均大于0，故无须删除任何SNP；设置卡方检验的p-value的阈值为0.03，结果显示有228条SNP不满足该条件，进行删除操作。

聚类算法有效性评估验证单元3，用于对本发明提出的聚类方法进行评估，具体如下：

1)：算法迭代次数比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较，结果显示本发明提出的方法在不同的聚类个数时，均只需要更少的迭代次数就可以达到收敛，具体效果比较如图4所示。说明本发明提出的聚类算法具有更好的收敛性。

2)：算法迭代时间比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较，结果显示在不同的聚类个数时，本发明提出的方法在多数情况下的迭代时间都达到最少，具体效果比较如图5所示。说明本发明提出的聚类算法具有更小的时间开销。

3)：算法的聚类效果比较。将本发明提出的聚类方法分别与FCM、DW-FCM进行比较，并使用簇内紧致度和簇间离散度的比值(Com/Spt)衡量。结果显示在5种不同的聚类个数的情况下，本发明提出的算法有4次指标达到最大。具体效果如表2所示(最大值重点标出)。

表2

子集评价单元4，用于对构造的SNP子集进行分类实验评估，验证SNP子集的有效性。这里使用了支持向量机(SVM)、决策树(DT)和朴素贝叶斯(NB)作为分类器，并使用分类的准确率(Acc)和F1作为评价指标。选择的对比方法包括基于聚类的算法DW-FCM以及非聚类的算法ReliefF和MRMR。结果显示本发明提出的算法构造的SNP子集在不同的分类器上都具有很好的表现，具体效果比较如表3所示。说明了该方法在SNP选择上的适用性和有效性。

表3 SNP子集分类实验评估

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种基于改进的模糊聚类算法的SNP选择方法，其特征在于，包括以下步骤：

步骤1，获取SNP数据；

步骤2，对SNP数据进行预处理操作，得到预处理后的数据；

步骤3，对预处理后的数据基于假设性检验进行初步筛选；

步骤4，对初筛过的数据，分别计算每个SNP的重要程度；

步骤5，利用改进的模糊聚类算法对SNP进行聚类；

2.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤2中，预处理包括缺失值的处理和数据重新编码。

3.根据权利要求1或2所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤2中，具体步骤如下：

1)对原始数据做统计分析，将缺失值较多的样本删除；

4.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤3中，初步筛选包括最小等位基因统计和基于遗传平衡法则的卡方检验。

5.根据权利要求1或4所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤3中，具体步骤如下：

1)对预处理后的数据，按照遗传指标最小等位基因频率MAF，将MAF＜0.5的SNP剔除；

2)根据MAF初步剔除后，统计AA、Aa以及aa的频率，然后根据哈代-温伯格平衡法则和卡方检验计算出实际数据与期望上的误差；然后将卡方值低于设置好的阈值的SNP剔除；卡方检验的公式如式(1)所示

式中，R表示实际值，E表示理论值。

6.根据权利要求1所述的一种基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤4中，具体步骤如下：

7.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤5中，具体步骤如下：

1)根据约束条件生成随机数来初始化隶属度矩阵u_ij；

2)根据式(4)来更新类中心矩阵v_i

3)根据式(5)来更新隶属度矩阵u_ij

4)根据式(6)计算每一次迭代的损失函数

8.根据权利要求1所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，步骤6中，具体步骤如下：

式中，H(X)表示变量的信息熵，H(X|Y)表示两个变量的条件熵；

2)按照最大相关和最小冗余的原则，使用式(8)来从每个簇中选择合适的SNP，

9.根据权利要求1或6所述的基于改进的模糊聚类算法的SNP选择方法，其特征在于，在每个簇中，选择SU值最大的SNP作为第一个候选SNP，并将其添加到候选子集中，并将该SNP从所在簇中剔除；从剩下的子集中选择具有与已经选择的第一个SNP最小SU的SNP来表示最不冗余的特征，作为第二个候选SNP并向其添加到候选子集中。