CN109887543A

CN109887543A - 一种低甲基化水平的差异甲基化位点识别方法

Info

Publication number: CN109887543A
Application number: CN201910145275.7A
Authority: CN
Inventors: 李敏; 胡昕昱; 王林丛花; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-14
Anticipated expiration: 2039-02-27
Also published as: CN109887543B

Abstract

本发明提供了一种低甲基化水平的差异甲基化位点识别方法，包括以下步骤：S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。S2、对多组甲基化芯片数据样本进行预处理，得到甲基化芯片数据集。S3、根据位点维度，将甲基化芯片数据集划分为多个甲基化芯片数据子集；将每一个甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集。S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理，之后通过假设检验筛选出具有统计显著性的特征。能识别出传统方法不能筛选出的差异甲基化位点，并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义。

Description

一种低甲基化水平的差异甲基化位点识别方法

技术领域

本发明涉及生物信息学技术领域，尤其涉及一种低甲基化水平的差异甲基化位点识别方法。

背景技术

DNA甲基化是最广泛研究的和具有良好表征的表观遗传修饰之一，是调控基因表达最重要的表观遗传学方法。

通过DNA甲基化，在病人和对照组中识别出与疾病相关的差异甲基化CpG位点，可以帮助人们对疾病的生物理解。精神分裂症是一种由遗传和环境因素共同引起的异质性精神疾病，由于精神分裂症具有低甲基化特征，CpG位点的DNA甲基化水平的差异通常很小，对疾病的生物理解造成了很大困难。

目前，已存在一些方法用于识别差异甲基化位点，这些算法和工具大都使用统计学习方法，如t假设检验、Wilcoxon秩检验等等，在识别差异甲基化CpG位点方面已经取得了显著的效果，但是这些传统方法之前主要用于那些具有高甲基化特征的疾病(比如癌症)，而对于这种具有低甲基化水平特征的疾病(如精神分裂症)，这些方法都经不起多重校验，常出现找到的差异甲基化位点较少或者无差异甲基化位点的情况。

因此，亟需一种低甲基化水平的差异甲基化位点识别方法。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种低甲基化水平的差异甲基化位点识别方法。能识别出传统方法不能筛选出的差异甲基化位点，并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种低甲基化水平的差异甲基化位点识别方法，包括以下步骤：

步骤S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本。

步骤S2、对所述多组甲基化芯片数据样本进行预处理，得到甲基化芯片数据集。

步骤S3、根据位点维度，将所述甲基化芯片数据集划分为多个初始甲基化芯片数据子集；将每一个甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集。

步骤S4、对甲基化芯片数据的疾病相关特征集进行线性拟合处理，之后通过假设检验筛选出具有统计显著性的特征，即认为该特征为差异甲基化位点。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S2中，对所述多组甲基化芯片数据样本进行预处理，包括：

质量控制：使用minfi对多组甲基化芯片数据样本进行处理，移除探测p值较小的甲基化位点；过滤处理：过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点；使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的多组甲基化芯片数据样本进行标准化处理，然后使用Combat算法对多组甲基化芯片数据样本进行批次效应校正，得到多组标准甲基化芯片数据样本；将所述多组标准甲基化芯片数据样本存入数据集，得到甲基化芯片数据集。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S3中，将每一个初始甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集，包括：

步骤S31、根据每一个初始数据子集构建每一个初始数据子集的随机森林模型，获得每一个初始数据子集的随机森林模型的袋外误差率；以及，根据每一个初始数据子集的随机森林模型的袋外误差率，计算获得初始数据子集随机森林模型的平均袋外误差率。

步骤S32、根据每一个当前数据子集的随机森林模型，获得每一个当前数据子集中每一特征的重要性度量值。

步骤S33、根据每一个当前数据子集中每一特征的重要性度量值，对每一个当前数据子集中的特征进行排序，将每一个当前数据子集中重要性度量值排名靠后的20％的特征作为剔除特征，合并每一个当前数据子集中剔除特征之外的特征，获得特征选择后的甲基化芯片数据样本。

步骤S34、根据特征选择后的甲基化芯片数据样本，获得甲基化芯片数据子集，根据每一个甲基化芯片数据子集构建每一个数据子集的随机森林模型，并获得每一数据子集的随机森林模型的袋外误差率和数据子集随机森林模型的平均袋外误差率。

步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率，或者当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率，合并每一个当前数据子集中剔除特征之外的特征，并输出作为甲基化芯片数据的疾病相关特征集；否则，重复步骤S32至S35。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S34中，根据特征选择后的甲基化芯片数据样本，获得甲基化芯片数据子集，包括：若特征选择后的甲基化芯片数据样本中的特征数不小于10000，将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集；若特征选择后的甲基化芯片数据样本中的特征数小于10000，直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S32中，每一个当前数据子集中每一特征的重要性度量值的计算公式为：

x⁽ⁱ⁾为数据子集中的特征，K为对每个数据子集做K次Bootstrap抽样产生K个自助样本集和袋外数据集OOB_k，acc_k为第k棵树在训练时在相应OOB_k上的准确率，acc′_k为随机的改变OOB_k数据集在变量特征x⁽ⁱ⁾的取值，即x⁽ⁱ⁾＝x⁽ⁱ⁾+noise时OOB_k的准确率。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S4中，对甲基化芯片数据的疾病相关特征集进行线性拟合处理，具体为：使用经典芯片数据差异分析工具limma对甲基化芯片数据的疾病相关特征集进行线性拟合；

所述线性拟合的公式为：

E(y_g)＝xβ_g

其中，y_g为甲基化位点g的甲基化水平值，X是实验设计矩阵，β_g是回归系数。

作为本发明一种低甲基化水平的差异甲基化位点识别方法的一种改进，步骤S4中，通过假设检验筛选出具有统计显著性的特征，具体为：

对线性拟合后的数据进行经验贝叶斯统计分析，筛选出调整p值(FDR)小于0.05的特征，即认为该特征为差异甲基化位点。

(三)有益效果

本发明的有益效果是：

本发明的方法适用于低甲基化水平疾病的差异甲基化位点识别的情况，运用了迭代随机森林的特征选择思想和线性模型的统计学思想，能识别出传统方法不能筛选出的差异甲基化位点，并且找到的差异甲基化位点具有更好的类别判定性能和显著性意义，这样对于低甲基化水平如精神分裂症等疾病的诊断、治疗和相应的药物研制都提供了准确有效的信息。

附图说明

本发明借助于以下附图进行描述：

图1为本发明实施方式中低甲基化水平的差异甲基化位点识别方法的流程图；

图2为本发明实施方式中数据子集中特征的重要性排序图；

图3为本发明方法与三种传统方法limma、samr、dmpFinder找到的差异甲基化位点韦恩图；

图4为本发明方法与三种传统方法limma、samr、dmpFinder的十折交叉验证结果图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

本发明提供了一种低甲基化水平的差异甲基化位点识别方法，如图1所示，具体包括以下步骤：

在本实施例中，从公共数据库GEO中获取序列号为GSE61107的精神分裂症的48组甲基化芯片数据样本。

步骤S2、对精神分裂症的48组甲基化芯片数据样本进行预处理，得到甲基化芯片数据集。

由于生物学家在测量甲基化芯片数据时，使用了两种不同类型探针(Type-I型和Type-II型)测量位点处的甲基化值，于是导致一个测量样本中有两种类型数据，进一步发现这两种类型数据分布有差异，这种情况会对后面差异甲基化位点分析有很大影响。另外，由于一次测试的样本是有限的，可能要相隔几天或几个月才能产生更多样品，于是系统“批量效应”或非生物差异，使得不同批次的样品不具有直接可比性。因此，需要先对甲基化芯片数据样本进行预处理。

具体地，对精神分裂症的48组甲基化芯片数据样本进行预处理，包括：使用minfi对精神分裂症的48组甲基化芯片数据样本进行质量控制，移除探测p值较小的甲基化位点；过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点；使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的48组甲基化芯片数据样本进行标准化处理，消除样本的组内误差；然后使用Combat算法对48组甲基化芯片数据样本进行批次效应校正，消除样本的组间误差，得到48组标准甲基化芯片数据样本；将48组标准甲基化芯片数据样本存入数据集，得到甲基化芯片数据集，甲基化芯片数据集中包含408074个特征(甲基化位点)。

步骤S3、根据位点维度，将甲基化芯片数据集划分为41个初始甲基化芯片数据子集，每个初始甲基化芯片数据子集包含接近10000个特征；将每一个初始甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集。

具体地，步骤S3中，将每一个初始甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集，包括：

步骤S31、根据每一个初始数据子集构建每一个初始数据子集的初始随机森林模型，并获得每一个初始数据子集的初始随机森林模型的袋外误差率；以及，根据每一个初始数据子集的随机森林模型的袋外误差率，计算获得初始数据子集随机森林模型的平均袋外误差率。

步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率，或者当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率，合并每一个当前数据子集中剔除特征之外的特征，并输出作为甲基化芯片数据的疾病相关特征集。否则，重复步骤S32至S35。

其中，每一个当前数据子集中每一特征的重要性度量值的计算公式为：

x⁽ⁱ⁾为数据子集中的特征，K为对每个数据子集做K次Bootstrap抽样产生K个自助样本集和袋外数据集OOB_k，acc_k为第k棵树在训练时在相应OOB_k上的准确率，acc′_k为随机的改变OOB_k数据集在变量特征x⁽ⁱ⁾的取值，即x⁽ⁱ⁾＝x⁽ⁱ⁾+noise时OOB_k的准确率，其中，noise为噪声。

进一步地，步骤S34中，根据特征选择后的甲基化芯片数据样本，获得甲基化芯片数据子集，包括：若特征选择后的甲基化芯片数据样本中的特征数不小于10000，将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集；若特征选择后的甲基化芯片数据样本中的特征数小于10000，直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。

根据上述迭代随机森林模型对精神分裂症的每一个初始甲基化芯片数据子集进行处理，当进行第17次迭代随机森林模型时，前一轮特征选择后的甲基化芯片数据样本中的特征数为9189，小于10000不再划分子集，直接构建随机森林模型且当前数据集随机森林模型的袋外误差率大于其前一次随机森林模型的平均袋外误差率，停止迭代。如图2所示，剔除前一轮特征选择后的甲基化芯片数据样本中的剔除特征1838个，得到该数据集中的剩余特征7351个，即该甲基化芯片数据的疾病相关特征有7351个，输出甲基化芯片数据的疾病相关特征集。

具体地，使用经典芯片数据差异分析工具limma对上述精神分裂症的甲基化芯片数据集中7351个疾病相关特征集进行线性拟合处理。

线性拟合的公式为：

E(y_g)＝Xβ_g

对线性拟合后的疾病相关特征数据进行经验贝叶斯统计分析，筛选出经FDR校正后的调整p值小于0.05的特征5419个，即认为这5419个特征为差异甲基化位点。

实验验证

为了验证本方法的有效性，我们对从GEO(GENE EXPRESSION OMNIBUS)中获取的列号为GSE61107的精神分裂症的48组真实甲基化芯片数据样本进行了测试，并和三种传统差异甲基化位点分析方法limma、samr、dmpFinder进行了比较分析。GEO是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库，GSE61107包含24名精神分裂症患者和24名未受影响的对照组全基因组DNA甲基化分析的450K芯片数据。

为了评价本方法筛选出的差异甲基化位点的有效性，比较了本发明方法与其他三种传统方法Limma、samr、dmpFinder找到的差异甲基化位点个数，从图3中可以看出，samr(2253)，limma(4642)和dmpFinder(2259)三种传统方法对低甲基化特征的疾病如精神分裂症找的差异甲基化位点较少，本发明方法(5419)找到的差异甲基化位点数量是最多的，重合的部分是本发明方法和其他三种方法找到的共同的差异甲基化位点个数，由此证明了本方法识别低甲基化水平的差异甲基化位点的有效性，且能识别出传统方法不能筛选出的差异甲基化位点。

为了评价推断结果的准确性，我们采用的对比指标为平均正确率，即评估本发明方法和其他三种方法limma、samr、dmpFinder的分类性能。具体来说，将精神分裂症数据集从样本维度随机划分为10个子集进行十折交叉验证测试精度，一个单独的子样本被保留作为验证模型的数据，其余9个样本用来训练。交叉验证重复10次，每个子样本验证一次并计算每个子样本的正确率，10次的结果的均值作为对算法精度的估计。在图4中可以很容易看出，本章提出的方法获得的平均正确率是最高的。一般情况下，十折交叉验证中某种分类方法的平均正确率越高，这种分类方法的整体性能越好。因此，这个结果也说明本发明方法在精神分裂症这类低甲基化水平疾病分类上不仅具有一定的先进性，而且具有很强的鲁棒性。

需要理解的是，以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种低甲基化水平的差异甲基化位点识别方法，其特征在于，包括以下步骤：

步骤S1、获取一种低甲基化水平疾病的多组甲基化芯片数据样本；

步骤S2、对所述多组甲基化芯片数据样本进行预处理，得到甲基化芯片数据集；

步骤S3、根据位点维度，将甲基化芯片数据集划分为多个初始甲基化芯片数据子集；

将每一个初始甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集；

步骤S4、对特征选择后得到的甲基化芯片数据的疾病相关特征集进行线性拟合处理，之后通过假设检验筛选出具有统计显著性的特征，即认为该特征为差异甲基化位点。

2.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S2中，对所述多组甲基化芯片数据样本进行预处理，包括：

质量控制：使用minfi对多组甲基化芯片数据样本进行处理，移除探测p值较小的甲基化位点；

过滤处理：过滤掉多组甲基化芯片数据样本中与X、Y染色体相关的探针、与SNP相关的探针以及cross-reactive的甲基化位点；

使用SQN子集分位数标准化算法对经过质量控制和过滤处理后的多组甲基化芯片数据样本进行标准化处理，然后使用Combat算法对多组甲基化芯片数据样本进行批次效应校正，得到多组标准甲基化芯片数据样本；

将所述多组标准甲基化芯片数据样本存入数据集，得到甲基化芯片数据集。

3.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S3中，将每一个初始甲基化芯片数据子集输入构建随机森林模型，迭代进行特征选择，输出甲基化芯片数据的疾病相关特征集，包括：

步骤S31、根据每一个初始数据子集构建每一个初始数据子集的随机森林模型，获得每一个初始数据子集的随机森林模型的袋外误差率；以及，

根据每一个初始数据子集的随机森林模型的袋外误差率，计算获得初始数据子集随机森林模型的平均袋外误差率；

步骤S32、根据每一个当前数据子集的随机森林模型，获得每一个当前数据子集中每一特征的重要性度量值；

步骤S33、根据每一个当前数据子集中每一特征的重要性度量值，对每一个当前数据子集中的特征进行排序，将每一个当前数据子集中重要性度量值排名靠后的20％的特征作为剔除特征，合并每一个当前数据子集中剔除特征之外的特征，获得特征选择后的甲基化芯片数据样本；

步骤S34、根据特征选择后的甲基化芯片数据样本，获得甲基化芯片数据子集，根据每一个甲基化芯片数据子集构建每一个数据子集的随机森林模型，并获得每一数据子集的随机森林模型的袋外误差率和数据子集随机森林模型的平均袋外误差率；

步骤S35、若当前数据子集的随机森林模型的平均袋外误差率大于初始数据子集的随机森林模型的平均袋外误差率，或者

当前数据子集的随机森林模型的平均袋外误差率大于前一次数据子集的随机森林模型的平均袋外误差率，合并每一个当前数据子集中剔除特征之外的特征，并输出作为甲基化芯片数据的疾病相关特征集；

否则，重复步骤S32至S35。

4.根据权利要求3所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S34中，根据特征选择后的甲基化芯片数据样本，获得甲基化芯片数据子集，包括：

若特征选择后的甲基化芯片数据样本中的特征数不小于10000，将特征选择后的甲基化芯片数据样本根据位点维度划分为多个甲基化芯片数据子集；

若特征选择后的甲基化芯片数据样本中的特征数小于10000，直接将特征选择后的甲基化芯片数据样本作为甲基化芯片数据子集。

5.根据权利要求3所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S32中，每一个当前数据子集中每一特征的重要性度量值的计算公式为：

6.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S4中，对甲基化芯片数据的疾病相关特征集进行线性拟合处理，具体为：

使用经典芯片数据差异分析工具limma对甲基化芯片数据中的疾病相关特征集进行线性拟合；

所述线性拟合的公式为：

E(y_g)＝Xβ_g

7.根据权利要求1所述的一种低甲基化水平的差异甲基化位点识别方法，其特征在于，步骤S4中，通过假设检验筛选出具有统计显著性的特征，具体为：

对线性拟合后的数据进行经验贝叶斯统计分析，筛选出经FDR校正的调整p值小于0.05的特征，即认为该特征为差异甲基化位点。