CN107967410B

CN107967410B - 一种面向基因表达与甲基化数据的融合方法

Info

Publication number: CN107967410B
Application number: CN201711204711.0A
Authority: CN
Inventors: 凡时财; 鲁文斌; 邹见效; 徐红兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2021-07-30
Anticipated expiration: 2037-11-27
Also published as: CN107967410A

Abstract

本发明公开了一种面向基因表达与甲基化数据的融合方法，先从癌症基因组图谱数据库中获取某癌症的基因表达数据和450K芯片测得的DNA甲基化数据，然后分别对基因表达数据和DNA甲基化数据进行预处理，得到各自的差异基因，然后对两种差异基因求交集，得到交叠基因，最后通过David在线工具对交叠基因的通路进行分析，在显著富集通路里找出与癌症、免疫相关的通路，用于DNA甲基化数据的扩展，从而获得更多数量的全基因组CpG位点。

Description

一种面向基因表达与甲基化数据的融合方法

技术领域

本发明属于生物多组学数据的融合技术领域，更为具体地讲，涉及一种面向基因表达与甲基化数据的融合方法。

背景技术

基于单一组学数据的信息挖掘方法较难系统全面地理解疾病的产生和发展过程，融合多组学数据对癌症的发生、发展过程进行研究，可以避免单一组学数据的片面性，它不仅对疾病机理研究、确定致病靶点起到推动作用，也为疾病基础科学和精准医学研究提供了新的思路。

目前对于基因表达数据以及DNA甲基化数据的融合分析，主要基于450K甲基化芯片的数据。由于450K芯片数据仅覆盖了人类全基因组CpG位点的2％，融合的分析结果很可能不可靠。

因此，基于具有更大覆盖范围的DNA甲基化数据进行融合分析具有重要意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种面向基因表达与甲基化数据的融合方法，通过基因表达数据和DNA甲基化数据的融合，可以更全面地找到相关癌症基因，提供更可靠的诊断和治疗癌症的指导。

为实现上述发明目的，本发明一种面向基因表达与甲基化数据的融合方法，其特征在于，包括以下步骤：

(1)、数据的获取

从癌症基因组图谱数据库中获取多种癌症的基因表达数据和450K芯片测得的DNA甲基化数据；

(2)、DNA甲基化数据的处理

(2.1)、DNA甲基化数据的预处理：将DNA甲基化数据中存在缺失值的CpG位点删除；

(2.2)、DNA甲基化数据的扩展：利用logistic回归模型对步骤(2.1)处理后的DNA甲基化数据进行了扩展，得到DNA甲基化图谱数据；

(2.3)、单个CpG位点甲基化数据的t假设检验

(2.3.1)、计算t假设检验后的每一个CpG位点的极值概率g_m

设DNA甲基化图谱数据中有n₁个正常样本数据和n₂个癌症样本数据，那么某一个CpG位点p^*在n₁个正常样本数据中的甲基化水平为W₁，其均值为

在n₂个癌症样本数据中的甲基化水平为W₂，其均值为

对应的正态分布参数分别为

和

其中，μ₁、μ₂分别表示设定的正常样本数据的均值和设定的癌症样本数据的均值，

分别表示设定的正常样本数据的方差和设定癌症样本数据的方差；

设两类样本方差相等，即

构造假设检验统计量S^*，

其中，n为DNA甲基化图谱数据总个数；

给定显著性水平α，求出t假设检验后的每一个CpG位点的极值概率g_m：

k表示DNA甲基化图谱数据中CpG位点总个数；

(2.3.2)、判断每一个CpG位点是否是差异甲基化位点

如果

则该CpG位点p^*在n₁个正常样本数据和n₂个癌症样本数据中存在显著性差异，即判定该CpG位点p^*是差异甲基化位点，依次类推，得到所有的差异甲基化位点；

(2.4)、对所有的DNA甲基化位点进行联合费雪检验

给定显著性水平α₁，同时确定差异甲基化位点在整个基因启动子区的分布情况；

将t假设检验后的每一个CpG位点的极值概率g_m利用如下公式进行综合评估，得到假设检验统计量

将假设检验统计量

与

比较，如果

则判定该基因为差异基因；否则舍去；

(3)、基因表达数据的预处理

(3.1)、缺失值处理

在基因表达数据中，将存在缺失值的基因表达数据删除处理；

(3.2)、数据标准化

设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵，表示为X＝(x_ij)_n×p，其中前p-1列为基因表达数据的数据值，第p列为基因表达数据的标签；

对矩阵X＝(x_ij)_n×p的前p-1列取对数处理，得到矩阵Y_ij＝log₂x_ij，i＝1,2，…，n，j＝1,2，…，p-1；

(3.3)、基因表达数据的特征选择

对矩阵Y_ij中每一列作t假设检验：以矩阵Y_ij的每一列为单位，对矩阵Y_ij中正常样本和癌症样本在每一列的平均数是否相等进行t假设检验，得到差异基因；

(4)、数据融合；

(4.1)、基因表达数据和DNA甲基化数据的融合

将步骤(2)得到的差异基因与通过步骤(3)得到的差异基因取交集，得到交叠基因；

(4.2)、基因通路分析

通过David在线工具对交叠基因的通路进行分析，在显著富集通路里找出与癌症、免疫相关的通路，用于DNA甲基化数据的扩展。

本发明的发明目的为：

本发明一种面向基因表达与甲基化数据的融合方法，先从癌症基因组图谱数据库中获取某癌症的基因表达数据和450K芯片测得的DNA甲基化数据，然后分别对基因表达数据和DNA甲基化数据进行预处理，得到各自的差异基因，然后对两种差异基因求交集，得到交叠基因，最后通过David在线工具对交叠基因的通路进行分析，在显著富集通路里找出与癌症、免疫相关的通路，用于DNA甲基化数据的扩展，从而获得更多数量的全基因组CpG位点。

同时，本发明一种面向基因表达与甲基化数据的融合方法还具有以下有益效果：

(1)、传统的融合方法仅是基于450K甲基化芯片原始数据，原始数据相对来说数量较少。本发明人是基于优化扩展后甲基化芯片数据，可得到更大覆盖范围的甲基化数据，对后续的数据融合提供了更为全面完整的信息。

(2)、本发明在最后的数据融合上和普通融合有很大区别，普通融合取基因片段的启动子区有一个差异甲基化位点的基因作为差异甲基化位点的基因作为最后的融合特征。本发明对基因启动子区所有甲基化位点组合起来做fisher检验，得到的基因作为差异表达的基因，对比其他方法，有更高准确度。

附图说明

图1是本发明一种面向基因表达与甲基化数据的融合方法流程图；

图2是进行差异甲基化基因判断的示意图。

表1是本模型取得的效果，以及与其他传统方法的比较结果；

表2是本模型与其他传统方法在富集通路数量上的比较结果；

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种面向基因表达与甲基化数据的融合方法流程图。

在本实施例中，如图1所示，本发明一种面向基因表达与甲基化数据的融合方法，包括以下步骤：

S1、数据的获取

在本实施例中，从癌症基因组公共数据库TCGA中获取食管癌ESCA(esophagysquamous cell carcinoma)，来作为例子来说明，并取其对应的基因表达数据和450K芯片的DNA甲基化数据；其中，食管癌ESCA的基因表达数据拥有202个样本，26893个基因特征，450K芯片的DNA甲基化数据拥有196个样本，376873个位点特征；并将食管癌ESCA的基因表达数据和DNA甲基化数据作为组学数据。

S2、DNA甲基化数据的处理

S2.1、DNA甲基化数据的预处理：将DNA甲基化数据中存在缺失值的CpG位点删除；

S2.2、DNA甲基化数据的扩展：利用logistic回归模型对步骤S2.1处理后的DNA甲基化数据进行了扩展，得到DNA甲基化图谱数据；

S2.3、单个CpG位点甲基化数据的t假设检验

S2.3.1、计算t假设检验后的每一个CpG位点的极值概率g_m

在n₂个癌症样本数据中的甲基化水平为W₂，其均值为

对应的正态分布参数分别为

和

其中，μ₁、μ₂分别表示设定的正常样本数据的均值和癌症样本数据的均值，

分别表示设定的正常样本数据的方差和癌症样本数据的方差；

设两类样本方差相等，即

构造假设检验统计量S^*，

其中，n为DNA甲基化图谱数据总个数；

k表示DNA甲基化图谱数据中CpG位点总个数；

S2.3.2、判断每一个CpG位点是否是差异甲基化位点

如果

S2.4、对所有的DNA甲基化位点进行联合费雪(combined fisher)检验

将假设检验统计量

与χ² _(α1,2k)比较，如果

则判定该基因为差异基因；否则舍去；

在本实施例中，如图2所示，该图表示一个DNA上的基因片段，图中的虚线框区域对应该基因的启动子区，该基因上有多个DNA甲基化位点，不同的颜色表征了该位点在癌症与正常样本中是否差异甲基化，黑点代表差异甲基化位点，白点代表非差异甲基化位点；利用差异甲基化位点去比对现有基因，用combined fisher检验方法对现有基因中每个启动子区的甲基化位点做检验，得到7367个差异基因。

S3、基因表达数据的处理

S3.1、缺失值处理

S3.2、数据标准化

设步骤(3.1)处理后的基因表达数据为一n行p列的矩阵，表示为X＝(x_ij)_n×p，在本实施例中，基因表达数据为202×26893的矩阵，其中，前p-1＝26892列为基因表达数据的数据值，第p＝26893列为基因表达数据的标签，下面我们仅对前26892列的数值部分进行处理；

对矩阵X＝(x_ij)_n×p的前p-1列取对数处理，得到矩阵Y_ij＝log₂x_ij，i＝1，2，…，n，j＝1，2,…，p-1；

S3.3、基因表达数据的特征选择

在本实施例中，食管癌ESCA的基因表达数据经过上述步骤处理后剩余202个样本，得到1893个差异基因，如表1所示。

	差异表达基因	差异甲基化基因	交集
				扩展	1893	7367	581
不扩展	1893	6615	442

表1

S4、数据融合；

S4.1、基因表达数据和DNA甲基化数据的融合

将步骤S2得到的差异基因与通过步骤S3得到的差异基因进行融合，也就是对二者取交集，得到交叠基因；在本实施例中，如表1所示，共计得到581个重叠基因，可用于后续的研究。对比使用未经过拓展的数据，可以看出，未扩展数据可以检测出6615个差异基因，重叠基因数为442，使用本方案大大提高了差异基因数量。

S4.2、基因通路分析

在本实施例中，如表2所示，与癌症密切相关的通路数量由不拓展的6个增加至扩展后的7个，与免疫相关的通路数量由4个增加至6个，对于后续的研究有极大的帮助。

	与癌症密切相关的通路数量	与免疫相关的通路数量
			扩展	7	6
不扩展	6	4

表2

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。