CN107301331A

CN107301331A - 一种基于基因芯片数据的疾病影响因素的挖掘方法

Info

Publication number: CN107301331A
Application number: CN201710595987.XA
Authority: CN
Inventors: 孙艳春; 乔子健
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2017-10-27
Anticipated expiration: 2037-07-20
Also published as: CN107301331B

Abstract

本发明公开了一种基于基因芯片数据的疾病影响因素的挖掘方法。本发明将原始数据有效拆分成患者样本和正常人样本，设定评定标准，对有效数据进行过滤、补全和合并后，设计核心选择器，将检测样本的不同探针看作是样本的不同特征，从而将问题归纳成“特征选择”问题，核心选择器选出排名最靠前的m个探针，利用基因芯片平台数据得到每个探针对应的基因名称，得到基因层面上疾病的影响因素；本发明创新地提出了一种基于基因芯片数据对疾病基因层面影响因素的分析挖掘方法，为进一步的生物学实验提供了更多的理论假设和支持。

Description

一种基于基因芯片数据的疾病影响因素的挖掘方法

技术领域

本发明涉及数据的分析挖掘技术，具体涉及一种基于基因芯片数据的疾病影响因素的挖掘方法。

背景技术

基因芯片(gene chip)，又称DNA微阵列(microarray)，是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列。基因芯片把大量已知序列探针集成在同一个基片上，根据碱基互补匹配的原理确定靶基因的序列。这样，可以对生物细胞或组织中大量的基因信息进行分析[孙啸,陆祖宏,谢建明.生物信息学基础[M].清华大学出版社,2006.]。

对于基因芯片数据来说，最基本的应用就是运用不同的机器学习、数据分析挖掘方法，研究多个样本之间相同基因的不同表达水平，来发现疾病与基因表达之间的关系。Quackenbush等人对微阵列表达计算分析进行了一系列实验，远景是希望通过基因及其功能对疾病状态进行分类，但实验结论却说明了微阵列数据处理和解释尚不是一门精确的科学[Quackenbush J.Computational analysis of microarray data.[J].Nature ReviewsGenetics,2001,2(6):418.]。在假设集群中的基因共享一些共同功能或调节元素的基础上，使用了层次聚类算法进行分析，发现聚类结果依赖于实验中的每一步，不同的选择可以得到很不同的结果，聚类分析并不能给出绝对的答案。但这也是令人兴奋的地方，使用不同的数据挖掘方法可以照亮数据间不同的关系，得到多种相关关系和探索方向，这些都可以作为生物科学实验室的假设，从而使对基因表达模式的研究更好地应用于人类对疾病状态分类的研究。张洁等人将决策树算法应用到来源于WTCCC[https://www.wtccc.org.uk/]的冠心病被试者的基因芯片数据(其中包含4864名被试者的基因位点信息以及患者是否患病的0/1变量)，去寻找与冠心病相关联的易感位点，并建立模型预测新的被试者是否患病；最终挑选出来5个与冠心病相关联的易感位点，并且得到了一个准确率稳定在74％的患病预测模型[张洁.决策树膜型在冠心病全基因组关联研究中的应用[D].复旦大学,2013.]。李忠辉等人从NCBI数据库GEO中得到2型糖尿病胰岛组织基因表达谱数据，利用QlucoreOmics Exploer[http://www.qlucore.com/],Panther[http://pantherdb.org/],David[https://david.ncifcrf.gov/]等多种生物信息学软件对基因表达谱数据进行了聚类分析、PCA分析等研究，最终得到糖尿病胰岛组织与正常胰岛组织存在782个差异表达的基因；其中用到的多种生物信息学软件都是计算机科学在基因数据研究中的典型应用[李中辉.Ⅱ型糖尿病相关基因的生物信息学研究[D].南方医科大学,2015.]。Khan等人使用人工神经网络算法对小型圆形蓝色细胞肿瘤(small-blue-round-cell tumour,SRBCT)进行分类诊断；这些癌症分属4个不同的诊断类别，在临床实践中常常会出现诊断困境，而通过人工神经网络模型不但可以正确分类所有样本，还确定了与分类最相关的基因，该研究表明了数据分析方法在疾病诊断中的潜在应用[Khan J,Wei J S,Ringnér M,etal.Classification and diagnostic prediction of cancers using gene expressionprofiling and artificial neural networks[J].Nature Medicine,2001,7(6):673-679.]。Statnikov等人在11个数据集上对各种多分类器进行实验评估，结果发现预先执行好的基因选择算法可以显著提高各模型的分类性能，并最终得到支持向量机(SVM)算法在11个数据集的分类应用中具有最高的分类精度[Statnikov A,Aliferis C F,TsamardinosI,et al.A comprehensive evaluation of multicategory classification methodsfor microarray gene expression cancer diagnosis[J].Bioinformatics,2005,21(5):631-43.]。

可以看出，随着基因芯片技术的不断发展，利用基因芯片数据进行疾病研究已经是当今疾病研究领域中重要的一环。然而根据上述相关工作的调研，我们发现虽然有研究提到了不同模型应用到同一数据集上会得到多种不同的结果，但大多数针对基因芯片数据的研究依然只采用了一至两个计算模型就得到了相关的结论，然而这样的结论是不全面的。

发明内容

针对以上现有技术中存在的问题，本发明提出了一种基于基因芯片数据的疾病影响因素的挖掘方法，从基因表达的角度对疾病的形成进行一定的分析研究，为进一步的医学实验提供理论支持和假设。

挑选多个被测试者，被测试者包括正常人和患者，对每一个被测试者采用一个基因芯片进行检测，基因芯片上每一个探针测得一个探针数据，一个基因芯片检测后得到的数据为一个检测样本，从而得到原始数据。

本发明的基于基因芯片数据的疾病影响因素的挖掘方法，包括以下步骤：

1)数据拆分：

按照被测试者中的正常人和患者，将原始数据进行有效拆分，拆分成患者样本和正常人

样本；

2)初步分析：

初步分析包括数据摘要、标准确定和初步结构：

a)数据摘要：数据摘要包括样本大小、原始数据维度和各维度的意义；

b)标准确定：在分析前确定以下三个标准：一)探针在单一检测样本中为有效表达的评定标准——该探针所对应的探针数据的检测p值的上限p₀，认为当p<p₀时，该探针在该单一检测样本中的表达被检测到且探针数据有效；二)探针在正常人样本或患者样本中被确定为有效表达的评定标准——该探针在正常人样本或患者样本中为有效表达的占比r的下限r₀，即认为当r≥r₀时，该探针在正常人样本或患者样本中为有效表达，且其所对应的探针数据有效；三)探针在正常人样本或患者样本中被确定为有效不表达的评定标准——该探针在正常人样本或患者样本中为有效表达的占比r的上限r₁，即认为当r≤r₁时，该探针在正常人样本或患者样本中为有效不表达；当一个探针的有效表达占比在r₀与r₁之间时，认为该探针为不显著探针，将该探针数据被作为无效数据忽略；

c)初步结果：根据步骤b)的标准，找到在患者样本中有效表达而在正常人样本中有效不表达的差异探针集合，以及在正常人样本中有效表达而在患者样本中有效不表达的差异探针集合，从而形成初步结果；

3)数据过滤：

经过初步分析后，仅在患者样本或正常人样本中有效表达的探针与在两个样本中均有效不表达的探针将被过滤，而在两个样本中均有效表达的探针，探针数据为有效数据，进入步骤4)，分析有效数据的不同表达强度；

4)数据补全：

在两个样本中均有效表达的探针中，存在部分探针数据的检测p值不满足评定标准p₀，这些探针的检测强度数据将被看作是缺失值，对缺失值进行补全；

5)数据合并：

将完成补全的患者样本和正常人样本进行合并，形成完整数据，对完整数据进行标准化处理后，对于患者样本和正常人样本贴上不同的标签，作为步骤6)中核心选择器的输入；

6)设计核心选择器：

将检测样本的不同探针看作是样本的不同特征，从而将问题归纳成“特征选择”问题，确定基选择器的输出、选择基选择器和组合基选择器，从而形成核心选择器：

a)基选择器的输出：基选择器的输出设计为其对所有特征的评分，由于各基选择器的评分根据不同，所以各基选择器在得到各特征的原始评分后，先将其归一化到0～1之间再输出，以此来消除评分标准不同带来的差异；

b)选择基选择器：从过滤式方法的选择器、包裹式方法的选择器和嵌入式方法的选择器中选出多个选择器作为基选择器；

c)组合基选择器：各基选择器评分的加权求和即为各特征的总评分，第i个基选择器的权重w_i为：其中e_i为第i基选择器的误差率，计算方法为：

其中，E_i为利用基选择器i得到的评分最高的m(m≥1)个特征来执行二聚类K-means算法后，聚类结果与真实类别标签所产生的误差个数，n为样本总数，acc_i为基选择器i在模型训练中通过交叉验证得到的最优准确率；

7)按照步骤6)设计的核心选择器执行选择算法；

8)结果输出：

核心选择器选出得分最高的前m个探针，之后利用基因芯片平台数据得到每个探针对应的基因名称，再通过层次聚类，得到结果。

进一步，对结果进行可视化分析，再综合初步分析的结果，即可得到基因层面上疾病的影响因素。

其中，在步骤2)中，检测p值的上限p₀在0～0.05之间；占比r的下限r₀在0.7～1之间；占比r的上限r₁在0～0.3之间。

在步骤4)中，缺失值补全的算法采用均值、中位数插值法，最近邻(KNN)插值法，奇异值分解(SVD)法中的一种。

在步骤6)中，过滤式方法的选择器包括皮尔逊相关系数选择器、距离相关系数选择器和最大信息系数选择器。包裹式方法的选择器包括递归特征消除选择器和LVW(LasVegas Wrapper)选择器。嵌入式方法的选择器包括决策树选择器、随机森林(Randomforest)选择器、梯度提升决策树(GBDT)选择器、逻辑回归选择器、SVM选择器、朴素贝叶斯选择器、L₁正则化选择器和L₂正则化选择器。

本发明的优点：

本发明将原始数据有效拆分成患者样本和正常人样本，设定评定标准，对有效数据进行过滤、补全和合并后，设计核心选择器，将检测样本的不同探针看作是样本的不同特征，从而将问题归纳成“特征选择”问题，核心选择器选出排名最靠前的m个探针，利用基因芯片平台数据得到每个探针对应的基因名称，得到基因层面上疾病的影响因素；本发明创新地提出了一种基于基因芯片数据对疾病基因层面影响因素的分析挖掘方法，为进一步的生物学实验提供了更多的理论假设和支持。

附图说明

图1为本发明的基于基因芯片数据的疾病影响因素的挖掘方法的流程图；

图2为高血压基因芯片表达聚类分析图。

具体实施方式

下面结合附图，通过具体实施例，进一步阐述本发明。

在本实施例中，原始数据为来自于NCBI的GEO数据库，编号为GSE75360[https:// www.ncbi.nlm.nih.gov/geo/query/acc.cgi？acc＝GSE75360]；采用illumina基因芯片HumanHT-12 V4.0(对应GEO平台编号GPL10558[https://www.ncbi.nlm.nih.gov/geo/ query/acc.cgi？acc＝GPL10558])测量了21名美国非裔妇女和白人妇女的外周血单核细胞(PBMC)中mRNA的表达数据，其中包括了10名高血压患者和11名正常人。原始数据包含21个被测试者的PBMC细胞中的mRNA在47231个探针上的检测强度和检测p值(Detection P-value)；其中，检测强度即为该探针所检测基因序列的表达强度，而检测p值是指该探针表达的可信度指标，通常认为该值越小越好，当≤0.05时，认为其检测结果是具有显著性的，即该确实检测到该探针表达且其表达强度数据有效。

如图1所示，本实施例的基于基因芯片数据的疾病影响因素的挖掘方法，包括以下步骤：

1)数据拆分：

按照被测试者中的11个正常人和10个患者，将原始数据进行有效拆分，拆分成患者样本和正常人样本。

2)初步分析：

初步分析包括数据摘要、标准确定和初步结构：

a)数据摘要：数据摘要包括样本大小为11个正常人样本和10个患者样本，数据维度为二维，检测强度和检测p值(即可信度)；

b)标准确定：本实施例中将三个标准p₀、r₀、r₁分别设定为，p₀＝0.05，r₀＝0.8，r₁＝0.2，即检测p值小于0.05的探针数据被认为所对应的探针对该单一检测样本为有效表达；探针的有效表达占比大于等于80％时，认为该探针在患者样本或正常人样本中为有效表达，小于等于20％时，认为其为有效不表达。

c)初步结果：如下表1所示：

表1基因芯片数据初步分析结果

3)数据过滤：

经过数据过滤，得到16529个在两类样本中均为有效表达的探针，称其探针数据为有效数据。

4)数据补全：

在有效数据中，高血压样本存在1.5875％的缺失值，正常人样本存在1.0857％的缺失值，缺失值占比很低，选择采用KNN补全算法。两个有效数据分别按照各自的最优数据补全算法对自己的缺失值进行补全。靠上的数组为探针的原始数据，其第3个样本数据因为检测p值大于等于p₀而被认定为缺失值，靠下的数组为补全算法完成后该探针的数据；

5)数据合并：

将完成补全的患者样本和正常人样本进行合并，形成完整数据，对完整数据进行标准化处理后，对于患者样本和正常人样本贴上不同的标签，形成了21×16530的基因表达数据矩阵，其中最后一列为患者样本或正常人样本的标签，作为步骤6)中核心选择器的输入；

6)设计核心选择器：

将样本中的不同探针看作是样本的不同特征，从而将问题归纳成“特征选择”问题，确定基选择器的输出、选择基选择器和组合基选择器，从而形成核心选择器：

b)选择基选择器：

本实施例一共选取了7个基选择器：

1、皮尔逊相关系数(Pearson correlation)选择器

2、距离相关系数(Distance correlation)选择器

3、递归特征消除(Recursive feature elimination)选择器

4、随机森林(Random forest)选择器

5、梯度提升决策树(GBDT)选择器

6、L₁正则化选择器

7、L₂正则化选择器

其中1、2属于过滤式方法，3属于包裹式方法，4～7均属于嵌入式方法。

其中，E_i为聚类结果与真实类别标签所产生的误差个数，利用基选择器i得到的评分最高的m个特征来执行二聚类K-means算法后，得到聚类结果，步骤1)中拆分成患者样本和正常人样本后就得到了真实类别，，n为样本总数，acc_i为基选择器i在模型训练中通过交叉验证得到的最优准确率；

7)按照步骤6)设计的核心选择器执行选择算法，如下表2所示：

表2核心选择器中各基选择器的表现

8)结果输出：

根据实际需要，最终由核心选择器得到评分最高的30个探针，利用这30个探针数据执行K-means聚类算法后，所有样本均被正确聚类。将其中排名最靠前的10个探针展示在表3中，其中有的探针所检测的mRNA序列可能没有与其相对应的基因。

表3总分排名靠前的10个探针的基本信息

用AGNES层次聚类算法分别对21个检测样本和评分最高的30个探针在数据表达热力图(heatmap)上进行层次聚类，其结果以树状图的形式展示，如图2所示。图中上侧为样本聚类，右侧为探针(基因)聚类。

最后需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于基因芯片数据的疾病影响因素的挖掘方法，其特征在于，所述挖掘方法包括以下步骤：

1)数据拆分：

按照被测试者中的正常人和患者，将原始数据进行有效拆分，拆分成患者样本和正常人样本；

2)初步分析：

初步分析包括数据摘要、标准确定和初步结构：

3)数据过滤：

4)数据补全：

5)数据合并：

6)设计核心选择器：

其中，E_i为利用基选择器i得到的评分最高的m个特征来执行二聚类K-means算法后，聚类结果与真实类别标签所产生的误差个数，n为样本总数，acc_i为基选择器i在模型训练中通过交叉验证得到的最优准确率，m为≥1的自然数；

7)按照步骤6)设计的核心选择器执行选择算法；

8)结果输出：

2.如权利要求1所述的挖掘方法，其特征在于，在步骤2)中，检测p值的上限p₀在0～0.05之间。

3.如权利要求1所述的挖掘方法，其特征在于，在步骤2)中，占比r的下限r₀在0.7～1之间。

4.如权利要求1所述的挖掘方法，其特征在于，在步骤2)中，占比r的上限r₁在0～0.3之间。

5.如权利要求1所述的挖掘方法，其特征在于，在步骤4)中，缺失值补全的算法采用均值、中位数插值法，最近邻插值法，奇异值分解法中的一种。

6.如权利要求1所述的挖掘方法，其特征在于，在步骤6)中，过滤式方法的选择器包括皮尔逊相关系数选择器、距离相关系数选择器和最大信息系数选择器。

7.如权利要求1所述的挖掘方法，其特征在于，在步骤6)中，包裹式方法的选择器包括递归特征消除选择器和LVW选择器。

8.如权利要求1所述的挖掘方法，其特征在于，在步骤6)中，嵌入式方法的选择器包括决策树选择器、随机森林选择器、梯度提升决策树选择器、逻辑回归选择器、SVM选择器、朴素贝叶斯选择器、L₁正则化选择器和L₂正则化选择器。