CN107918725A

CN107918725A - 一种基于机器学习选择最优特征的dna甲基化预测方法

Info

Publication number: CN107918725A
Application number: CN201711465834.XA
Authority: CN
Inventors: 马宝山; 矫翔田; 孟凡宇; 耿尧; 董佳昕; 陈宇航; 王雯萱; 马奕; 张萌; 徐丹; 王巍; 孙野青
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-04-17
Anticipated expiration: 2037-12-28
Also published as: CN107918725B

Abstract

本发明公开了一种基于机器学习选择最优特征的DNA甲基化预测方法，本发明首先通过使用不同的机器学习算法一搜索不同个数的最强相关CpG位点，构建不同模型的最强相关CpG位点集合，然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试，对测试结果与真实实验的结果进行比较，根据评价指标确定最优模型所使用的最强相关CpG位点个数和机器学习算法类型，从而完成了基于多个最强CpG位点的预测模型的建立。本发明提高了最强CpG位点的搜索效率，从而提高预测模型预测性能。

Description

一种基于机器学习选择最优特征的DNA甲基化预测方法

技术领域

本发明涉及DNA甲基化预测领域，更具体的，涉及基于机器学习选择最优特征的DNA甲基化预测方法。

背景技术

复杂疾病是由多基因、基因与基因相互作用、基因与环境相互作用共同引起的。这些基因与基因、基因与环境的相互作用形成一个多层次的复杂生物网络，正是这些复杂网络的变异引起了疾病的发生与发展。因此，生物数据分析的一个难点就是数据之间存在复杂的关联性。在基因组中，特定CpG位点的甲基化与邻近或其他区域的CpG位点相关联。例如在预测某一个CpG位点的数据时，多数其它位点的数据对建模和预测没有帮助，属于冗余信息，而某些特殊CpG位点的数据对于建模和预测精度非常重要，这些位点属于最强相关CpG位点。

DNA甲基化直接影响细胞分化和组织器官发育，与冠心病等复杂疾病密切相关，是表观遗传学研究的热点问题。获取人体器官的DNA甲基化表达数据对于研究该器官的病变具有重要理论研究意义和临床实用价值。但在多数情况下，很难直接对人体病变器官采样。能否用替代组织器官(例如外周血)中甲基化表达数据来预测目标组织器官(例如心脏)中的甲基化表达数据，仍是一个急需解决的问题。

科研人员对DNA甲基化的预测开展了很多研究，但多数只是粗略的估计CpG岛(CpGisland,基因组中长度为300～3000bp的富含CpG二核苷酸的一些区域，主要存在于基因的5′区域)片段的甲基化状态，分辨率较低，预测甲基化状态一般只分为甲基化(常用1表示)和非甲基化(常用0表示)。

DNA甲基化数据维度很高，一般上万甚至几十万，因此，如何高效搜索最强CpG位点成为迫切需要解决的问题。预测模型中包含最强相关CpG位点会进一步提高其预测性能。

发明内容

本发明的目的在于克服现有技术存在的上述缺陷，提供一种基于机器学习选择最优特征的DNA甲基化预测方法。本发明首先使用不同的机器学习算法一搜索不同个数的最强相关CpG位点，构建不同的模型的最强相关CpG位点集合，然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试，并对测试结果与真实实验的结果进行比较，根据评价指标确定最优的最强相关CpG位点个数、机器学习算法一和机器学习算法二，最后建立基于多个最强CpG位点的预测模型。

为实现上述目的，本发明的技术方案如下：

一种基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，包含以下步骤：

S1：根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据，分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)，包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)，包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)，包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)；

其中n是训练数据集样本个数，p是测试集样本个数，m是CpG位点个数，元素x_it(i＝1～n,t＝1～m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素y_it(i＝1～n,t＝1～m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素w_it(i＝1～p,t＝1～m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素z_it(i＝1～p,t＝1～m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，x_i是矩阵X(n×m)的第i行，x_.j是矩阵X(n×m)的第j列，y_i.是矩阵Y(n×m)的第i行，y_.j是矩阵Y(n×m)的第j列，w_i.是矩阵W(p×m)的第i行，w_.j是矩阵W(p×m)的第j列，z_i.是矩阵Z(p×m)的第i行，z_.j是矩阵Z(p×m)的第j列；

S2：指定位点j，去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列，形成替代器官训练矩阵X_train，提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列，形成替代器官训练向量Y_train；

S3：指定最强相关CpG位点的个数L，并使用机器学习算法一建立模型X_opt＝F(X_train,Y_train)；

S4：从X_opt筛选出L-1个最强相关CpG位点{x_.k}并与x_.j合并为最强相关CpG位点集合X₁(n×L)；

S5：使用机器学习算法二对最强相关CpG位点集合X₁(n×L)进行建模；

S6：使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测，得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)；

S7：比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)，进行评价指标计算；

S8：变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型，重复S3～S7，共生成Q个模型及其评价指标；

S9：对Q个模型的评价指标进行综合比较，确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。

优选地，所述步骤S3中所述的机器学习算法一为随机森林或过滤式或包裹式或嵌入式特征选择算法。

优选地，所述步骤S5中所述的机器学习算法二为支持向量机或深度学习算法。

优选地，所述步骤S7中所述评价指标共有四个，分别是，样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中和分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)的第i行和第j列，z_i.和z_.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列；

优选地，所述步骤S8中所述的最强相关CpG位点的个数L变更的最小值为10。

从上述技术方案可以看出，本发明通过使用机器学习算法选择DNA甲基化数据的最优特征，建立替代器官和目标器官DNA甲基化数据的最优数学模型，完成了使用多个最强CpG位点预测目标组织中甲基化水平的方法。因此，本发明具有提高搜索最强CpG位点效率，减少计算代价，提高预测模型预测性能的显著特点。

附图说明

图1是本发明的流程示意图；

图2是本发明针对指定位点和最强相关CpG位点的个数建立预测模型的流程示意图；

图3是本发明使用预测模型进行测试并对预测模型进行评价的流程示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

请参阅图1，图1是本发明的流程示意图，并参阅图2-3。

S1：根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据，分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)，包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)，包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)，包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)；其中n是训练数据集样本个数，p是测试集样本个数，m是CpG位点个数，元素x_it(i＝1～n,t＝1～m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素y_it(i＝1～n,t＝1～m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素w_it(i＝1～p,t＝1～m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素z_it(i＝1～p,t＝1～m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，x_i.是矩阵X(n×m)的第i行，x_.j是矩阵X(n×m)的第j列，y_i.是矩阵Y(n×m)的第i行，y_.j是矩阵Y(n×m)的第j列，w_i.是矩阵W(p×m)的第i行，w_.j是矩阵W(p×m)的第j列，z_i.是矩阵Z(p×m)的第i行，z_.j是矩阵Z(p×m)的第j列。

将训练数据集合和测试数据集均各自分成2个矩阵，分别是包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)，包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)，包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)，包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)，矩阵的行数分别为训练样本个数n和测试样本个数p，列数为CpG位点个数m。

S2：指定位点j，去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列，形成替代器官训练矩阵X_train，提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列，形成替代器官训练向量Y_train。

由于x_.j与y_.j对应同一个CpG位点，通常默认它们是最相关的CpG位点，所以替代器官数据矩阵X中的第j列不作为训练集参与建模过程，故而将其从包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)中剔除，构建出针对指定位点j的替代器官训练矩阵X_train。提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列，形成替代器官训练向量Y_train。

指定最强相关CpG位点的个数，使用随机森林或过滤式或包裹式或嵌入式特征选择算法建立模型X_opt＝F(X_train,Y_train)，筛选出L-1个最强相关CpG位点{x_.k}并与x_.j合并为最强相关CpG位点集合X₁(n×L)。

S5：使用机器学习算法二对最强相关CpG位点集合X₁(n×L)进行建模。

所使用机器学习算法二为支持向量机或深度学习算法，对S4中建立的最强相关CpG位点集合X₁(n×L)进行建模。

S6：使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测，得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)。

S7：比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)，进行评价指标计算。

评价指标共有四个，分别是，样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中和分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)的第i行和第j列，z_i.和z_.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列。

S8：变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型，重复S3～S7，共生成Q个模型及其评价指标。

变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型，重复S3～S7，并在S5中变更机器学习算法二的类型，共生成Q个模型及其评价指标。

在变更最强相关CpG位点的个数L时，最小变更值为10个，即以10为间隔对L进行取值。

从构建的Q个模型中选取相关系数大、绝对误差小的模型，从而确定最优算法，该算法对应的机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L即为最优选的模型参数。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，包含以下步骤：

其中n是训练数据集样本个数，p是测试集样本个数，m是CpG位点个数，元素x_it(i＝1～n,t＝1～m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素y_it(i＝1～n,t＝1～m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素w_it(i＝1～p,t＝1～m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值，元素z_it(i＝1～p,t＝1～m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值，x_i.是矩阵X(n×m)的第i行，x_.j是矩阵X(n×m)的第j列，y_i.是矩阵Y(n×m)的第i行，y_.j是矩阵Y(n×m)的第j列，w_i.是矩阵W(p×m)的第i行，w_.j是矩阵W(p×m)的第j列，z_i.是矩阵Z(p×m)的第i行，z_.j是矩阵Z(p×m)的第j列；

2.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，所述步骤S3中所述的机器学习算法一为随机森林或过滤式或包裹式或嵌入式特征选择算法。

3.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，所述步骤S5中所述的机器学习算法二为支持向量机或深度学习算法。

4.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，所述步骤S7中所述评价指标共有四个，分别是，样本间相关系数样本间绝对误差位点间相关系数和位点间绝对误差其中和分别是预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z^*(p×m)的第i行和第j列，z_i.和z_.j分别是包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m)的第i行和第j列。

5.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法，其特征在于，所述步骤S8中所述的最强相关CpG位点的个数L变更的值为10。