CN112927757B

CN112927757B - 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法

Info

Publication number: CN112927757B
Application number: CN202110206290.5A
Authority: CN
Inventors: 张戈; 薛子靖; 李梦园; 阎朝坤; 王建林; 罗慧敏
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-09-02
Anticipated expiration: 2041-02-24
Also published as: CN112927757A

Abstract

本发明提供了一种基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法(GCBMI)。本发明结合基因表达数据和DNA甲基化数据，将差异分析、统计检测以及互信息的方法相结合来识别潜在的胃癌生物标志物。首先利用互信息的方法选出排名靠前的基因，然后利用Fold Change(FC)与T‑test计算每个基因的FC值与p值，随后引入FDR来校正p值，通过设置相应的阈值进一步筛选差异表达基因。本发明分别对胃癌的基因表达数据与DNA甲基化数据进行上述操作，将获得的差异基因取交集后得到最终确定的胃癌生物标志物。本发明简单有效，通过与其他的特征选择方法比较，显示该发明在预测潜在的胃癌生物标志物中具有较好的表现。

Description

基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法

技术领域

本发明涉及生物信息学技术领域，具体涉及基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法。

背景技术

胃癌是消化系统最常见的恶性肿瘤之一。其发病机制主要与幽门螺杆菌的感染、饮食、环境及遗传因素有关，是世界上最常见和最致命的癌症之一，尤其是易发生在老年人之中。一般来说，胃癌的早期发现对于增加成功治疗的机会和延长患者的寿命至关重要。早期胃癌的5年生存率可达到95％以上。然而，早期胃癌由于症状的不明显以至于很难被检测出来，一些患者在初诊时可能已达到晚期阶段。因此，早期靶向治疗在胃癌的临床实践中非常重要。近年来，随着测序技术的发展，癌症患者的基因组数据可以轻松获得。这些基因组数据已被用于研究基因改变与疾病之间的关系，并有助于诊断和预后。但是，这些数据具有高维和低样本量(HDLSS)的特点。直接处理这些数据非常困难。因此，我们可以使用特征选择技术从海量的数据中分析可能致癌的基因(生物标志物)。这些生物标志物有助于我们在分子水平上了解疾病的发病机制，并对临床诊断起到辅助作用。

到目前为止，特征选择方法已经成功应用于基因表达数据分析领域。然而，仅仅利用单一的基因表达数据来分析癌症是不充分的。随着组学数据的快速积累，这些组学数据可以提供关于整个基因组的完全不同、部分独立以及互补的信息。在这些组学数据中，DNA甲基化是一个重要的表观遗传因素，它是指将甲基基团添加到DNA分子的过程，它可以在不改变DNA序列的情况下改变DNA片段的活性。DNA甲基化起到了抑制基因转录的作用，对于人体正常的发育是必不可少的，并且会影响人体发育时的许多关键过程，例如人体的衰老、X染色体失活和致癌等等，在癌症等多种疾病的发展过程中影响基因表达的水平。将DNA甲基化数据与基因表达数据相结合更有利于解释胃癌的发病机制。

发明内容

本发明提出了一种新的特征选择方法——胃癌生物标志物识别方法(GCBMI)，它利用基因表达数据和DNA甲基化数据来识别胃癌的生物标志物。GCBMI由三个主要部分组成，即数据预处理、差异表达基因的选择与数据合并，以及利用神经网络模型分类器评价所选基因的分类能力。具体的，在对数据进行预处理后，将差异分析、统计检验和互信息进行结合以得到更全面的胃癌的生物标志物。引入互信息过滤掉不相关以及冗余的基因，利用差异倍数法(Fold Change,FC)和T-test筛选差异表达基因。最后应用错误发现率(FDR)修正p值，进一步筛选基因。然后利用笛卡尔积合并数据。此外，GCBMI采用神经网络作为分类器来评价所选基因的分类能力。在GEO数据集上的实验结果表明，该方法优于其他的特征选择方法。生物学相关验证结果表明所选基因很可能是胃癌的潜在生物标志物，可以为今后的生物学实验提供参考。

本发明的技术方案为：

(1)数据预处理：

对于基因表达数据，首先将单独存放的基因表达数据文件合并为一个基因表达矩阵文件，并将基因表达矩阵中每个样本的探针列名称转换为基因名称。若一个基因对应多个探针，则取这些基因表达值的中位数作为新的基因表达值。随后根据基因芯片注释文件添加每一个样本的类别。完成上述步骤后，去除基因表达数据中含有空值的基因，并执行z-score标准化使基因表达值转换到一个均值为0、方差为1的区间，即可得到基因表达矩阵。

同样的，对DNA甲基化数据的预处理采用和基因表达数据相同的方法，进而得到DNA甲基化矩阵。具体如下：将单独存放的DNA甲基化数据文件合并为一个DNA甲基化矩阵文件，并将DNA甲基化矩阵中每个样本的探针列名称转换为基因名称，若一个基因对应多个探针，则取这些基因表达值的中位数作为新的基因表达值；随后根据基因芯片注释文件添加每一个样本的类别；然后，去除数据中含有空值的基因，并执行z-score标准化使基因表达值转换到一个均值为0、方差为1的区间，即可得到DNA甲基化矩阵。

(2)筛选差异表达基因与数据合并：

首先基于(1)中的基因表达矩阵和DNA甲基化矩阵，进行特征选择处理。

对于基因表达数据，计算出每个基因与类别之间的互信息值并按照从大到小顺序排序，选择TopN个基因作为初步选择的基因以过滤掉不相关的基因。然后利用FC与T-test计算TopN个基因的FC值与p值，设置阈值识别差异表达基因，紧接着计算FDR值来进一步过滤基因并得到最终的差异表达基因子集。

DNA甲基化数据采用同样的方式获得差异甲基化位点子集。

在获得差异表达基因子集与差异甲基化位点子集后，取二者的交集作为GCBMI筛选的可能的胃癌生物标志物，利用交集中的基因对基因表达数据与DNA甲基化数据进行降维，得到维度更低的两个表达矩阵后，使用笛卡尔积的方法将两个矩阵合并，得到一个全新的扩展数据，该扩展数据扩充了原有样本容量。

例如，基因表达数据有214个样本，其中包含112个胃癌样本和102个正常样本，甲基化数据中有237个样本，其中包含160个胃癌样本和77个正常样本，通过上述组合方式后，就产生了17920个胃癌样本的组合，将其视为新的胃癌样本，同样产生了7854个正常样本的组合，将其视为新的正常样本。

(3)神经网络分类器评价所选基因的分类能力：

基于(2)中的扩展数据，对神经网络模型进行训练，因为原始基因表达数据和DNA甲基化数据的样本量较少，不利于神经网络模型的训练，在经过样本容量扩充后，可以使神经网络的表现效果更好。所述神经网络模型以Accuracy，Precision，Recall，F1-score以及AUC值这五项作为评价指标。

本发明的有益效果为：

本发明通过组学数据，为胃癌识别可能的生物标志物。利用已知的生物信息，通过生物学角度统计出差异表达的基因，也从机器学习角度过滤冗余基因，实验结果表明该方法识别出胃癌的生物标志物能够有效地区分胃癌患者与正常人。

附图说明

图1为本发明的胃癌生物标志物识别方法(GCBMI)流程图。

图2为数据合并过程示例图。

图3为神经网络模型结构示意图。

图4为五倍交叉验证中，GCBMI和其他方法的平均Accuracy，Precision，Recall，F1-score以及AUC值。

图5为五倍交叉验证中，GCBMI结合不同分类器所得到的平均Accuracy，Precision，Recall，F1-score以及AUC值。

图6为所选择的8个生物标志物的基因热图。

具体实施方式

下面通过具体实施方式对本发明进行更加详细的说明，以便于对本发明技术方案的理解，但并不用于对本发明保护范围的限制。

如图1所示，本实施例的胃癌生物标志物识别方法(GCBMI)的具体实现过程如下：

一、数据预处理

本实施例所应用的数据集是从GEO数据库上下载的胃癌的基因表达数据(GSE29272)与DNA甲基化数据(GSE30601)。

表1.本实施例基因表达数据和DNA甲基化数据的具体情况

数据集	基因表达数据	DNA甲基化数据
			GEO ID	GSE29272	GSE30601
正常样本	134	203
			胃癌样本	134	94
特征(基因)数	13515	14476

(1)数据整理

将单独存放的数据文件合并为一个表达矩阵文件。并将每个样本的探针列名称转换为基因名称。若一个基因对应多个探针，则取这些基因表达值的中位数作为新的基因表达值。随后根据基因芯片注释文件添加每一个样本的类别。完成上述步骤后，去除数据中含有空值的基因。

(2)数据标准化：

采用z-score方法，将数据归一化到0到1的区间，其计算公式为：

其中x与x′分别表示标准化前后的某一列数据。

和σ分别代表数据的平均值和标准差。

二、差异表达基因选择与数据合并

(1)计算互信息值：

互信息是一种经典的滤波式(Filter)特征选择方法，滤波式(Filter)方法依靠数据的内在属性来评估特征的相关性。主要优点是计算复杂度低、效率高，适合处理大规模数据。其中互信息计算公式为：

对于数据集，设S(s₁,s₂,…,s_m)为m个样本的集合，F(f₁,f₂,…,f_n)为n个特征的集合，C(c₁,c₂,…,c_m)为m个类标签的集合。p(c_i)表示第i个类别c_i在整个样本S中的占比，其中i取值为1到m，则数据集的每个类别的熵值H由公式(2)给出：

对于每个特征相应的条件熵由公式(3)给出：

其中f_j表示第j个特征,c_i表示第i个样本的类别。

则每个特征与类别之间的互信息值为公式(4)：

I(F,C)＝H(C)-H(C|F) (4)

在特征选择中，取特征F与类别C之间的互信息，从而了解每个特征对类别的重要性。互信息值越大，说明该特征包含类别的信息越多，即该特征也越重要，排序后，选择TopN个特征(排名靠前的N个特征)来实现快速降维的目的。在经过多次不同的N值实验后，将N的取值设为3000。

(2)差异倍数法(Fold Change)计算FC值：

差异倍数法是最早用于识别两种不同条件下基因的表达水平显著差异的方法，其原理是计算基因在两种类别样本中平均表达水平的倍数值，若该值达到设定的阈值，则判定该基因为差异表达基因(differently expressed gene，DEG)，该方法同样也适用于DNA甲基化数据，可以识别差异甲基化位点(differently methylated position，DMP)。FC的计算由公式(5)给出：

其中，

和

代表某个基因在胃癌与正常两种类别样本下的平均表达值。差异倍数法的优点是应用简单，且结果较为直观，而缺点是它没有将基因差异表达的统计显著性考虑在内，T-test可以很好的进行弥补。

(3)T-test计算p值

为了筛选出在肿瘤样本和正常样本中表达量具有较大差异的生物标志物，我们选择了独立样本T-test。独立样本T-test用来检验两组非相关样本实验数据的差异性，它要求样本的实验数据服从正态分布，并且两组样本应具有方差齐性，即两组样本总体方差相等。独立样本T-test统计量由公式(6)给出：

其中

和

分别代表某一基因在两组样本即胃癌样本与正常样本中的平均表达量，S₁ ²和S₂ ²为两组样本表达量的方差，n₁和n₂为两组样本的容量。

计算每个基因的t统计量来表示该基因在两类样本中表达值的差异性，然后根据t分布计算差异的显著性p值，p值指是当零假设为真时，比得到的样本实际结果更加极端的结果出现的概率。差异表达分析的零假设指的是：某基因在不同类别的样本下，其平均表达量相同。p值越小，说明零假设发生的概率也就越小，就能够拒绝零假设，通常情况下，如果p值小于0.05，说明零假设属于小概率事件，此时应该拒绝零假设，说明该基因在两类样本中的平均表达量不同，即有显著性差异。但是这种差异显著性只说明了已有数据在统计学上的显著性，如果要查看该基因表达值的上调下调关系，就需要结合差异倍数。

(4)计算错误发现率(FDR)

FDR的计算是根据假设检验的p值进行校正而得到的。一般来说，FDR的计算采用Benjamini-Hochberg方法，具体步骤如下：

步骤1：将所有p值升序排列。

步骤2：由公式(7)计算FDR值：

FDR(i)＝p(i)*m/i (7)

其中p(i)表示第i个p值，m为p值总数。

步骤3：根据i的取值从大到小，依次执行公式(8)，得到每个基因的FDR值。

FDR(i)＝min{FDR(i),FDR(i+1)} (8)

(5)数据合并

为了使神经网络模型能够更好的被训练，我们使用求笛卡儿积的方法，将基因表达数据与DNA甲基化数据进行合并。合并过程如图2所示。

三、神经网络(DNN)分类器评价所选基因的分类能力

DNN模型相比于传统的分类器具有更优异的分类性能，本发明利用DNN模型作为分类器，并通过实验确定了DNN的参数。神经网络模型的结构如图3所示。

DNN模型由3个部分组成：输入层、隐藏层和输出层。输入层由两部分组成，分别对应基因表达数据和DNA甲基化数据。然后添加6个隐藏层，隐藏层应用ReLU作为激活函数，每层包含100个神经元。并且为了避免过拟合，在每一个隐藏层中增加Dropout，即在学习迭代过程中按一定的概率随机丢弃一些神经元。它相当于训练一个比原来网络更稀疏的网络，从而使得每次迭代都训练一个个不同的网络模型。最后，由于本实施例的数据只有两个类别，只用一个节点的输出层就足够了。采用Sigmoid函数作为输出层的激活函数，使输出值介于0和1之间。

在DNN模型中，损失函数是二元交叉熵，代价函数是交叉熵的约化平均值。应用Adam算法对网络模型的参数进行了优化。损失函数和代价函数分别由公式(9)(10)给出：

其中，

为预测值，y为真实值，m为样本个数。

四、实验验证

1.评价指标

为了系统的评估本方法的有效性，本实验使用五倍交叉验证法进行实验。

(1)五倍交叉验证

把基因表达数据与DNA甲基化数据的数据集随机分成五等份，轮流将其中一份作为测试集，剩下四份作为训练集。在实施本方法之后，每次实验都会得出相应评价指标的值，在本实验中，所有算法在进行时都会求得五次结果的平均值，作为对算法性能的评估。在经过数据合并后，训练集测试集样本情况如表2所示。

表2.五倍交叉训练集测试集情况

(2)评价指标

通过分类器的分类结果，可以计算得到true positive(TP)，false negative(FN),false positive(FP)和truenegative(TN)，其中阳性样本为胃癌样本，阴性样本为正常样本。TP表示被正确分类的胃癌样本数，FP表示误分类为胃癌样本的正常样本数；TN表示被正确分类的正常样本数，FN表示被误分类为正常样本的胃癌样本数。通过这些参数，可以计算得到不同的Accuracy,Precision,Recall,F1-score以构建ROC曲线。计算ROC曲线下方的面积可以得到AUC值。然后利用上述这些指标来评价本发明方法的性能。其中Accuracy,Precision,Recall,F1-score的计算公式如(11)～(14)所示：

2.实验设置

实验分为两个部分：首先，为了评价GCBMI的有效性，将GCBMI与其他的特征选择方法进行比较。具体选择extremely randomized trees(ET)、Elastic Net、IG-MBKH和MOBAA-LS作为对比。其中ET是Hsu.等人提出了一种利用特征权重进行特征选择的方法(Hsu,Y.-H.and Si,D.(2018).Cancer type prediction and classification based on RNA-sequencing data.In 2018 40th Annual International Conference of the IEEEEngineering in Medicine and Biology Society(EMBC)(IEEE),5374–5377.)，ElasticNet是Wang等人提出的基于组学数据的方法(Wang,X.,Shang,W.,Li,X.,and Chang,Y.(2020).Methylation signature genes identification of cancers occurrence andpattern recognition.Computational Biology and Chemistry 85,107198.)，IG-MBKH和MOBAA-LS是两种较为新颖的智能算法的变体(IG-MBKH参考：Zhang,G.,Hou,J.,Wang,J.,Yan,C.,and Luo,J.(2020).Feature selection for microarray data classificationusing hybrid information gain and a modified binary krill herdalgorithm.Interdisciplinary Sciences,Computational Life Sciences.MOBAA-LS参考：Dashtban,M.,Balafar,M.,and Suravajhala,P.(2018).Gene selection for tumorclassification using a novel bio-inspired multi-objective approach.Genomics110,10–17.)。上述算法的参数设置如表3所示。

表3.不同算法的参数设置

其次，本实施例使用DNN分类器的方法与使用KNN、SVM和NB这三种传统分类器的方法进行了比较，具体研究了DNN在胃癌生物标志物识别中的预测性能，以及使用不同分类器的方法对分类精度的影响。

3.实验结果

(1)将GCBMI与其他方法进行了比较，实验结果如表4和图4所示。GCMBI的Accuracy达到98.7％。Elastic Net虽然是同样运用组学数据的方法，但GCBMI的Accuracy比ElasticNet高了9％。在实验中，两种基于智能算法的方法IG-MBKH和MOBBA-LS的性能相似，就Accuracy而言，这两种方法比GCMBI方法低5％左右。同样的，在其他指标方面，GCMBI方法除了在Recall上排名第二，其他指标上的表现均是最好的。F1-score和AUC值常被用来评价模型的稳定性和鲁棒性，GCBMI的这两项指标可达到99％左右。比其他对比方法要高5％～7％左右。

表4.GCBMI与其他四个算法的比较

从分析结果可以看出，GCBMI相较于其他特征选择方法有着较好的表现，这也表明GCBMI识别的基因具有足够的能力对胃癌进行分类。较高的F1-score和AUC值也说明本发明的神经网络模型有着更好的稳定。实验结果表明，组合组学数据是有意义的，并可能揭示不同生物学层次之间的因果关系。因此，本发明的方法比采用单一数据集的方法更加优异。

(2)除了对比不同特征选择方法，本实施例还验证了使用不同机器学习分类器对实验结果的影响，具体结果如表5和图5所示，结果表明DNN模型与其他分类器相比，在不同的评价指标上具有更好的性能。KNN的性能与SVM相似，NB最差。虽然NB虽然最差，但Accuracy也达到了96％，这也证明即使使用不同的分类器，本发明的方法性能也十分稳定。GCBMI整合了基因表达数据和DNA甲基化数据，扩大了样本数量。因此，使用DNN模型可以得到更好的训练，取得了更好的结果。

表5.使用不同分类器的结果

分类器	Accuracy	Precision	Recall	F1-Score	AUC值
						DNN	0.9870	0.9971	0.9836	0.9903	0.9891
KNN	0.9776	0.9934	0.9729	0.9830	0.9795
						SVM	0.9879	0.9878	0.9826	0.9862	0.9803
NB	0.9651	0.9698	0.9777	0.9737	0.9557

(3)生物学验证

本实施例的实验中记录了DEG与DMP交叉基因，如表6所示。在本生物学验证部分中，对选定的基因进行了进一步的分析，以了解其生物学相关性。

表6.在5倍交叉验证中的基因选择结果

在5倍交叉验证实验中每次均被选中的基因即为可能的胃癌生物标志物。

通过相关文献检索发现PGC的编码蛋白是胃产生的一种消化酶，是胃黏膜的主要成分。该基因多态性与胃癌易感性相关。血清中这种酶的水平被用作某些胃病的生物标志物，包括幽门螺杆菌导致相关性胃炎。Liu等发现PGC在正常胃黏膜中阳性表达(100％)，在胃癌中表达率为6.45％。上述内容显示PGC在胃癌诊断中具有重要的应用价值。

对于PSCA基因，相关研究表明PSCA编码的蛋白在细胞增殖中起着重要作用。除了在前列腺中有较高的表达外，它也在分化的胃上皮细胞中也有表达。该基因包含多态性在一些个体中的上游起始密码子中表现，这种多态性被认为与胃癌的风险有关。

除PGC和PSCA外，PDGFD基因作为PDGF家族的一员，Huang等认为其信号通路是胃癌治疗的新靶点。另外，KCNE2基因主要在胃壁细胞浆中表达，Kuwahara等人发现KCNE2表达缺失可能导致胃癌。

对于本实施例所选出的8个胃癌生物标志物(PDGFD、PPAP2B、RORC、GPRC5C、KCNE2、PSCA、PGC、IFITM2)，为了观察其表达水平，构建了其基因表达热图。图6展示了这8个基因在所有样本中的表达水平。其中热图的前半部分为正常样本，其余为肿瘤样本。图6表明，这些基因在正常样本和肿瘤样本中有不同的表达，其中一些基因在两类样本之间存在显著差异，表明其可能与胃癌有关。

本实施例还通过DAVID数据库进行GO分析。得到了8个交叉基因的一些重要的信号通路，如表7所示，通过GO分析展示了基因的生物学意义。其中“GO:0008284positiveregulation of cell proliferation”,“GO:0046597negative regulation of viralentry into host cell”,“GO:0030335positive regulation of cell migration”，这些条目在人类癌症中很常见。还有一些条目与血小板、干扰素相关，有研究表明胃癌可能导致血小板计数和形态的改变。此外，也有研究指出干扰素等相关因素可能与癌症的发生有关。

表7.GO基因分析结果

以上所述之实施例，只是本发明的较佳实施例而已，并非限制本发明的实施范围，故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰，均应包括于本发明申请专利范围内。

Claims

1.基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法，其特征在于，包括：

步骤1：对基因表达数据与DNA甲基化数据进行数据预处理，分别得到基因表达矩阵和DNA甲基化矩阵；

步骤2：在基因表达矩阵和DNA甲基化矩阵上，分别采用互信息、FC、T-test与FDR来筛选差异表达基因与差异甲基化位点，从而对数据进行降维；

所述步骤2具体为：

步骤2.1：对于基因表达数据，计算出每个基因的互信息值并按照从大到小顺序排序，选择TopN个基因作为初步选择的基因；

步骤2.2：计算步骤2.1选择的TopN个基因的FC值与p值，设置相应的阈值进一步筛选差异表达基因，同时引入FDR来修正p值，同样设置相应的FDR值的阈值，得到最终选择的差异表达基因；

步骤2.3：对DNA甲基化数据，按照步骤2.1和步骤2.2的方法得到差异甲基化位点；

所述的降维具体为：将差异表达基因与差异甲基化位点的交集作为潜在的胃癌的生物标志物，利用交集中的基因对基因表达数据与DNA甲基化数据进行降维；

步骤3：利用笛卡尔积将维度降低后的基因表达数据与DNA甲基化数据进行融合，形成扩展数据；

步骤4：基于步骤3获得的扩展数据，构建神经网络模型作为分类器验证所识别的胃癌生物标志物的分类能力。

2.根据权利要求1所述的方法，其特征在于，数据预处理过程如下：将单独存放的基因表达数据文件或DNA甲基化数据文件分别合并为一个基因表达矩阵文件或DNA甲基化矩阵文件，并将基因表达矩阵或DNA甲基化矩阵中每个样本的探针列名称转换为基因名称，若一个基因对应多个探针，则取这些基因表达值的中位数作为新的基因表达值；随后根据基因芯片注释文件添加每一个样本的类别；然后，去除数据中含有空值的基因，并执行z-score标准化使基因表达值转换到一个均值为0、方差为1 的区间。

3.根据权利要求1所述的方法，其特征在于，所述步骤3具体为：

将标签为胃癌的基因表达数据和DNA甲基化数据组合成新的胃癌数据，将标签为正常的基因表达数据和DNA甲基化数据组合成新的正常数据。

4.根据权利要求1所述的方法，其特征在于，所述步骤4中的神经网络模型由输入层、隐藏层和输出层组成；输入层由两部分组成，分别对应基因表达数据和DNA甲基化数据；隐藏层应用ReLU作为激活函数，输出层采用Sigmoid函数作为激活函数，使输出值介于0和1之间。

5.根据权利要求4所述的方法，其特征在于，隐藏层每层包含100个神经元，每一个隐藏层中增加Dropout；输出层仅有一个节点。