CN112927757B - 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 - Google Patents

基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 Download PDF

Info

Publication number
CN112927757B
CN112927757B CN202110206290.5A CN202110206290A CN112927757B CN 112927757 B CN112927757 B CN 112927757B CN 202110206290 A CN202110206290 A CN 202110206290A CN 112927757 B CN112927757 B CN 112927757B
Authority
CN
China
Prior art keywords
data
gene expression
dna methylation
gastric cancer
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110206290.5A
Other languages
English (en)
Other versions
CN112927757A (zh
Inventor
张戈
薛子靖
李梦园
阎朝坤
王建林
罗慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University
Original Assignee
Henan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University filed Critical Henan University
Priority to CN202110206290.5A priority Critical patent/CN112927757B/zh
Publication of CN112927757A publication Critical patent/CN112927757A/zh
Application granted granted Critical
Publication of CN112927757B publication Critical patent/CN112927757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法(GCBMI)。本发明结合基因表达数据和DNA甲基化数据,将差异分析、统计检测以及互信息的方法相结合来识别潜在的胃癌生物标志物。首先利用互信息的方法选出排名靠前的基因,然后利用Fold Change(FC)与T‑test计算每个基因的FC值与p值,随后引入FDR来校正p值,通过设置相应的阈值进一步筛选差异表达基因。本发明分别对胃癌的基因表达数据与DNA甲基化数据进行上述操作,将获得的差异基因取交集后得到最终确定的胃癌生物标志物。本发明简单有效,通过与其他的特征选择方法比较,显示该发明在预测潜在的胃癌生物标志物中具有较好的表现。

Description

基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法
技术领域
本发明涉及生物信息学技术领域,具体涉及基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法。
背景技术
胃癌是消化系统最常见的恶性肿瘤之一。其发病机制主要与幽门螺杆菌的感染、饮食、环境及遗传因素有关,是世界上最常见和最致命的癌症之一,尤其是易发生在老年人之中。一般来说,胃癌的早期发现对于增加成功治疗的机会和延长患者的寿命至关重要。早期胃癌的5年生存率可达到95%以上。然而,早期胃癌由于症状的不明显以至于很难被检测出来,一些患者在初诊时可能已达到晚期阶段。因此,早期靶向治疗在胃癌的临床实践中非常重要。近年来,随着测序技术的发展,癌症患者的基因组数据可以轻松获得。这些基因组数据已被用于研究基因改变与疾病之间的关系,并有助于诊断和预后。但是,这些数据具有高维和低样本量(HDLSS)的特点。直接处理这些数据非常困难。因此,我们可以使用特征选择技术从海量的数据中分析可能致癌的基因(生物标志物)。这些生物标志物有助于我们在分子水平上了解疾病的发病机制,并对临床诊断起到辅助作用。
到目前为止,特征选择方法已经成功应用于基因表达数据分析领域。然而,仅仅利用单一的基因表达数据来分析癌症是不充分的。随着组学数据的快速积累,这些组学数据可以提供关于整个基因组的完全不同、部分独立以及互补的信息。在这些组学数据中,DNA甲基化是一个重要的表观遗传因素,它是指将甲基基团添加到DNA分子的过程,它可以在不改变DNA序列的情况下改变DNA片段的活性。DNA甲基化起到了抑制基因转录的作用,对于人体正常的发育是必不可少的,并且会影响人体发育时的许多关键过程,例如人体的衰老、X染色体失活和致癌等等,在癌症等多种疾病的发展过程中影响基因表达的水平。将DNA甲基化数据与基因表达数据相结合更有利于解释胃癌的发病机制。
发明内容
本发明提出了一种新的特征选择方法——胃癌生物标志物识别方法(GCBMI),它利用基因表达数据和DNA甲基化数据来识别胃癌的生物标志物。GCBMI由三个主要部分组成,即数据预处理、差异表达基因的选择与数据合并,以及利用神经网络模型分类器评价所选基因的分类能力。具体的,在对数据进行预处理后,将差异分析、统计检验和互信息进行结合以得到更全面的胃癌的生物标志物。引入互信息过滤掉不相关以及冗余的基因,利用差异倍数法(Fold Change,FC)和T-test筛选差异表达基因。最后应用错误发现率(FDR)修正p值,进一步筛选基因。然后利用笛卡尔积合并数据。此外,GCBMI采用神经网络作为分类器来评价所选基因的分类能力。在GEO数据集上的实验结果表明,该方法优于其他的特征选择方法。生物学相关验证结果表明所选基因很可能是胃癌的潜在生物标志物,可以为今后的生物学实验提供参考。
本发明的技术方案为:
(1)数据预处理:
对于基因表达数据,首先将单独存放的基因表达数据文件合并为一个基因表达矩阵文件,并将基因表达矩阵中每个样本的探针列名称转换为基因名称。若一个基因对应多个探针,则取这些基因表达值的中位数作为新的基因表达值。随后根据基因芯片注释文件添加每一个样本的类别。完成上述步骤后,去除基因表达数据中含有空值的基因,并执行z-score标准化使基因表达值转换到一个均值为0、方差为1的区间,即可得到基因表达矩阵。
同样的,对DNA甲基化数据的预处理采用和基因表达数据相同的方法,进而得到DNA甲基化矩阵。具体如下:将单独存放的DNA甲基化数据文件合并为一个DNA甲基化矩阵文件,并将DNA甲基化矩阵中每个样本的探针列名称转换为基因名称,若一个基因对应多个探针,则取这些基因表达值的中位数作为新的基因表达值;随后根据基因芯片注释文件添加每一个样本的类别;然后,去除数据中含有空值的基因,并执行z-score标准化使基因表达值转换到一个均值为0、方差为1的区间,即可得到DNA甲基化矩阵。
(2)筛选差异表达基因与数据合并:
首先基于(1)中的基因表达矩阵和DNA甲基化矩阵,进行特征选择处理。
对于基因表达数据,计算出每个基因与类别之间的互信息值并按照从大到小顺序排序,选择TopN个基因作为初步选择的基因以过滤掉不相关的基因。然后利用FC与T-test计算TopN个基因的FC值与p值,设置阈值识别差异表达基因,紧接着计算FDR值来进一步过滤基因并得到最终的差异表达基因子集。
DNA甲基化数据采用同样的方式获得差异甲基化位点子集。
在获得差异表达基因子集与差异甲基化位点子集后,取二者的交集作为GCBMI筛选的可能的胃癌生物标志物,利用交集中的基因对基因表达数据与DNA甲基化数据进行降维,得到维度更低的两个表达矩阵后,使用笛卡尔积的方法将两个矩阵合并,得到一个全新的扩展数据,该扩展数据扩充了原有样本容量。
例如,基因表达数据有214个样本,其中包含112个胃癌样本和102个正常样本,甲基化数据中有237个样本,其中包含160个胃癌样本和77个正常样本,通过上述组合方式后,就产生了17920个胃癌样本的组合,将其视为新的胃癌样本,同样产生了7854个正常样本的组合,将其视为新的正常样本。
(3)神经网络分类器评价所选基因的分类能力:
基于(2)中的扩展数据,对神经网络模型进行训练,因为原始基因表达数据和DNA甲基化数据的样本量较少,不利于神经网络模型的训练,在经过样本容量扩充后,可以使神经网络的表现效果更好。所述神经网络模型以Accuracy,Precision,Recall,F1-score以及AUC值这五项作为评价指标。
本发明的有益效果为:
本发明通过组学数据,为胃癌识别可能的生物标志物。利用已知的生物信息,通过生物学角度统计出差异表达的基因,也从机器学习角度过滤冗余基因,实验结果表明该方法识别出胃癌的生物标志物能够有效地区分胃癌患者与正常人。
附图说明
图1为本发明的胃癌生物标志物识别方法(GCBMI)流程图。
图2为数据合并过程示例图。
图3为神经网络模型结构示意图。
图4为五倍交叉验证中,GCBMI和其他方法的平均Accuracy,Precision,Recall,F1-score以及AUC值。
图5为五倍交叉验证中,GCBMI结合不同分类器所得到的平均Accuracy,Precision,Recall,F1-score以及AUC值。
图6为所选择的8个生物标志物的基因热图。
具体实施方式
下面通过具体实施方式对本发明进行更加详细的说明,以便于对本发明技术方案的理解,但并不用于对本发明保护范围的限制。
如图1所示,本实施例的胃癌生物标志物识别方法(GCBMI)的具体实现过程如下:
一、数据预处理
本实施例所应用的数据集是从GEO数据库上下载的胃癌的基因表达数据(GSE29272)与DNA甲基化数据(GSE30601)。
表1.本实施例基因表达数据和DNA甲基化数据的具体情况
数据集 基因表达数据 DNA甲基化数据
GEO ID GSE29272 GSE30601
正常样本 134 203
胃癌样本 134 94
特征(基因)数 13515 14476
(1)数据整理
将单独存放的数据文件合并为一个表达矩阵文件。并将每个样本的探针列名称转换为基因名称。若一个基因对应多个探针,则取这些基因表达值的中位数作为新的基因表达值。随后根据基因芯片注释文件添加每一个样本的类别。完成上述步骤后,去除数据中含有空值的基因。
(2)数据标准化:
采用z-score方法,将数据归一化到0到1的区间,其计算公式为:
Figure BDA0002950858310000041
其中x与x′分别表示标准化前后的某一列数据。
Figure BDA0002950858310000044
和σ分别代表数据的平均值和标准差。
二、差异表达基因选择与数据合并
(1)计算互信息值:
互信息是一种经典的滤波式(Filter)特征选择方法,滤波式(Filter)方法依靠数据的内在属性来评估特征的相关性。主要优点是计算复杂度低、效率高,适合处理大规模数据。其中互信息计算公式为:
对于数据集,设S(s1,s2,…,sm)为m个样本的集合,F(f1,f2,…,fn)为n个特征的集合,C(c1,c2,…,cm)为m个类标签的集合。p(ci)表示第i个类别ci在整个样本S中的占比,其中i取值为1到m,则数据集的每个类别的熵值H由公式(2)给出:
Figure BDA0002950858310000042
对于每个特征相应的条件熵由公式(3)给出:
Figure BDA0002950858310000043
其中fj表示第j个特征,ci表示第i个样本的类别。
则每个特征与类别之间的互信息值为公式(4):
I(F,C)=H(C)-H(C|F) (4)
在特征选择中,取特征F与类别C之间的互信息,从而了解每个特征对类别的重要性。互信息值越大,说明该特征包含类别的信息越多,即该特征也越重要,排序后,选择TopN个特征(排名靠前的N个特征)来实现快速降维的目的。在经过多次不同的N值实验后,将N的取值设为3000。
(2)差异倍数法(Fold Change)计算FC值:
差异倍数法是最早用于识别两种不同条件下基因的表达水平显著差异的方法,其原理是计算基因在两种类别样本中平均表达水平的倍数值,若该值达到设定的阈值,则判定该基因为差异表达基因(differently expressed gene,DEG),该方法同样也适用于DNA甲基化数据,可以识别差异甲基化位点(differently methylated position,DMP)。FC的计算由公式(5)给出:
Figure BDA0002950858310000051
其中,
Figure BDA0002950858310000052
Figure BDA0002950858310000053
代表某个基因在胃癌与正常两种类别样本下的平均表达值。差异倍数法的优点是应用简单,且结果较为直观,而缺点是它没有将基因差异表达的统计显著性考虑在内,T-test可以很好的进行弥补。
(3)T-test计算p值
为了筛选出在肿瘤样本和正常样本中表达量具有较大差异的生物标志物,我们选择了独立样本T-test。独立样本T-test用来检验两组非相关样本实验数据的差异性,它要求样本的实验数据服从正态分布,并且两组样本应具有方差齐性,即两组样本总体方差相等。独立样本T-test统计量由公式(6)给出:
Figure BDA0002950858310000054
其中
Figure BDA0002950858310000055
Figure BDA0002950858310000056
分别代表某一基因在两组样本即胃癌样本与正常样本中的平均表达量,S1 2和S2 2为两组样本表达量的方差,n1和n2为两组样本的容量。
计算每个基因的t统计量来表示该基因在两类样本中表达值的差异性,然后根据t分布计算差异的显著性p值,p值指是当零假设为真时,比得到的样本实际结果更加极端的结果出现的概率。差异表达分析的零假设指的是:某基因在不同类别的样本下,其平均表达量相同。p值越小,说明零假设发生的概率也就越小,就能够拒绝零假设,通常情况下,如果p值小于0.05,说明零假设属于小概率事件,此时应该拒绝零假设,说明该基因在两类样本中的平均表达量不同,即有显著性差异。但是这种差异显著性只说明了已有数据在统计学上的显著性,如果要查看该基因表达值的上调下调关系,就需要结合差异倍数。
(4)计算错误发现率(FDR)
FDR的计算是根据假设检验的p值进行校正而得到的。一般来说,FDR的计算采用Benjamini-Hochberg方法,具体步骤如下:
步骤1:将所有p值升序排列。
步骤2:由公式(7)计算FDR值:
FDR(i)=p(i)*m/i (7)
其中p(i)表示第i个p值,m为p值总数。
步骤3:根据i的取值从大到小,依次执行公式(8),得到每个基因的FDR值。
FDR(i)=min{FDR(i),FDR(i+1)} (8)
(5)数据合并
为了使神经网络模型能够更好的被训练,我们使用求笛卡儿积的方法,将基因表达数据与DNA甲基化数据进行合并。合并过程如图2所示。
三、神经网络(DNN)分类器评价所选基因的分类能力
DNN模型相比于传统的分类器具有更优异的分类性能,本发明利用DNN模型作为分类器,并通过实验确定了DNN的参数。神经网络模型的结构如图3所示。
DNN模型由3个部分组成:输入层、隐藏层和输出层。输入层由两部分组成,分别对应基因表达数据和DNA甲基化数据。然后添加6个隐藏层,隐藏层应用ReLU作为激活函数,每层包含100个神经元。并且为了避免过拟合,在每一个隐藏层中增加Dropout,即在学习迭代过程中按一定的概率随机丢弃一些神经元。它相当于训练一个比原来网络更稀疏的网络,从而使得每次迭代都训练一个个不同的网络模型。最后,由于本实施例的数据只有两个类别,只用一个节点的输出层就足够了。采用Sigmoid函数作为输出层的激活函数,使输出值介于0和1之间。
在DNN模型中,损失函数是二元交叉熵,代价函数是交叉熵的约化平均值。应用Adam算法对网络模型的参数进行了优化。损失函数和代价函数分别由公式(9)(10)给出:
Figure BDA0002950858310000071
Figure BDA0002950858310000072
其中,
Figure BDA0002950858310000073
为预测值,y为真实值,m为样本个数。
四、实验验证
1.评价指标
为了系统的评估本方法的有效性,本实验使用五倍交叉验证法进行实验。
(1)五倍交叉验证
把基因表达数据与DNA甲基化数据的数据集随机分成五等份,轮流将其中一份作为测试集,剩下四份作为训练集。在实施本方法之后,每次实验都会得出相应评价指标的值,在本实验中,所有算法在进行时都会求得五次结果的平均值,作为对算法性能的评估。在经过数据合并后,训练集测试集样本情况如表2所示。
表2.五倍交叉训练集测试集情况
Figure BDA0002950858310000074
(2)评价指标
通过分类器的分类结果,可以计算得到true positive(TP),false negative(FN),false positive(FP)和truenegative(TN),其中阳性样本为胃癌样本,阴性样本为正常样本。TP表示被正确分类的胃癌样本数,FP表示误分类为胃癌样本的正常样本数;TN表示被正确分类的正常样本数,FN表示被误分类为正常样本的胃癌样本数。通过这些参数,可以计算得到不同的Accuracy,Precision,Recall,F1-score以构建ROC曲线。计算ROC曲线下方的面积可以得到AUC值。然后利用上述这些指标来评价本发明方法的性能。其中Accuracy,Precision,Recall,F1-score的计算公式如(11)~(14)所示:
Figure BDA0002950858310000081
Figure BDA0002950858310000082
Figure BDA0002950858310000083
Figure BDA0002950858310000084
2.实验设置
实验分为两个部分:首先,为了评价GCBMI的有效性,将GCBMI与其他的特征选择方法进行比较。具体选择extremely randomized trees(ET)、Elastic Net、IG-MBKH和MOBAA-LS作为对比。其中ET是Hsu.等人提出了一种利用特征权重进行特征选择的方法(Hsu,Y.-H.and Si,D.(2018).Cancer type prediction and classification based on RNA-sequencing data.In 2018 40th Annual International Conference of the IEEEEngineering in Medicine and Biology Society(EMBC)(IEEE),5374–5377.),ElasticNet是Wang等人提出的基于组学数据的方法(Wang,X.,Shang,W.,Li,X.,and Chang,Y.(2020).Methylation signature genes identification of cancers occurrence andpattern recognition.Computational Biology and Chemistry 85,107198.),IG-MBKH和MOBAA-LS是两种较为新颖的智能算法的变体(IG-MBKH参考:Zhang,G.,Hou,J.,Wang,J.,Yan,C.,and Luo,J.(2020).Feature selection for microarray data classificationusing hybrid information gain and a modified binary krill herdalgorithm.Interdisciplinary Sciences,Computational Life Sciences.MOBAA-LS参考:Dashtban,M.,Balafar,M.,and Suravajhala,P.(2018).Gene selection for tumorclassification using a novel bio-inspired multi-objective approach.Genomics110,10–17.)。上述算法的参数设置如表3所示。
表3.不同算法的参数设置
Figure BDA0002950858310000091
其次,本实施例使用DNN分类器的方法与使用KNN、SVM和NB这三种传统分类器的方法进行了比较,具体研究了DNN在胃癌生物标志物识别中的预测性能,以及使用不同分类器的方法对分类精度的影响。
3.实验结果
(1)将GCBMI与其他方法进行了比较,实验结果如表4和图4所示。GCMBI的Accuracy达到98.7%。Elastic Net虽然是同样运用组学数据的方法,但GCBMI的Accuracy比ElasticNet高了9%。在实验中,两种基于智能算法的方法IG-MBKH和MOBBA-LS的性能相似,就Accuracy而言,这两种方法比GCMBI方法低5%左右。同样的,在其他指标方面,GCMBI方法除了在Recall上排名第二,其他指标上的表现均是最好的。F1-score和AUC值常被用来评价模型的稳定性和鲁棒性,GCBMI的这两项指标可达到99%左右。比其他对比方法要高5%~7%左右。
表4.GCBMI与其他四个算法的比较
Figure BDA0002950858310000092
Figure BDA0002950858310000101
从分析结果可以看出,GCBMI相较于其他特征选择方法有着较好的表现,这也表明GCBMI识别的基因具有足够的能力对胃癌进行分类。较高的F1-score和AUC值也说明本发明的神经网络模型有着更好的稳定。实验结果表明,组合组学数据是有意义的,并可能揭示不同生物学层次之间的因果关系。因此,本发明的方法比采用单一数据集的方法更加优异。
(2)除了对比不同特征选择方法,本实施例还验证了使用不同机器学习分类器对实验结果的影响,具体结果如表5和图5所示,结果表明DNN模型与其他分类器相比,在不同的评价指标上具有更好的性能。KNN的性能与SVM相似,NB最差。虽然NB虽然最差,但Accuracy也达到了96%,这也证明即使使用不同的分类器,本发明的方法性能也十分稳定。GCBMI整合了基因表达数据和DNA甲基化数据,扩大了样本数量。因此,使用DNN模型可以得到更好的训练,取得了更好的结果。
表5.使用不同分类器的结果
分类器 Accuracy Precision Recall F1-Score AUC值
DNN 0.9870 0.9971 0.9836 0.9903 0.9891
KNN 0.9776 0.9934 0.9729 0.9830 0.9795
SVM 0.9879 0.9878 0.9826 0.9862 0.9803
NB 0.9651 0.9698 0.9777 0.9737 0.9557
(3)生物学验证
本实施例的实验中记录了DEG与DMP交叉基因,如表6所示。在本生物学验证部分中,对选定的基因进行了进一步的分析,以了解其生物学相关性。
表6.在5倍交叉验证中的基因选择结果
Figure BDA0002950858310000102
Figure BDA0002950858310000111
在5倍交叉验证实验中每次均被选中的基因即为可能的胃癌生物标志物。
通过相关文献检索发现PGC的编码蛋白是胃产生的一种消化酶,是胃黏膜的主要成分。该基因多态性与胃癌易感性相关。血清中这种酶的水平被用作某些胃病的生物标志物,包括幽门螺杆菌导致相关性胃炎。Liu等发现PGC在正常胃黏膜中阳性表达(100%),在胃癌中表达率为6.45%。上述内容显示PGC在胃癌诊断中具有重要的应用价值。
对于PSCA基因,相关研究表明PSCA编码的蛋白在细胞增殖中起着重要作用。除了在前列腺中有较高的表达外,它也在分化的胃上皮细胞中也有表达。该基因包含多态性在一些个体中的上游起始密码子中表现,这种多态性被认为与胃癌的风险有关。
除PGC和PSCA外,PDGFD基因作为PDGF家族的一员,Huang等认为其信号通路是胃癌治疗的新靶点。另外,KCNE2基因主要在胃壁细胞浆中表达,Kuwahara等人发现KCNE2表达缺失可能导致胃癌。
对于本实施例所选出的8个胃癌生物标志物(PDGFD、PPAP2B、RORC、GPRC5C、KCNE2、PSCA、PGC、IFITM2),为了观察其表达水平,构建了其基因表达热图。图6展示了这8个基因在所有样本中的表达水平。其中热图的前半部分为正常样本,其余为肿瘤样本。图6表明,这些基因在正常样本和肿瘤样本中有不同的表达,其中一些基因在两类样本之间存在显著差异,表明其可能与胃癌有关。
本实施例还通过DAVID数据库进行GO分析。得到了8个交叉基因的一些重要的信号通路,如表7所示,通过GO分析展示了基因的生物学意义。其中“GO:0008284positiveregulation of cell proliferation”,“GO:0046597negative regulation of viralentry into host cell”,“GO:0030335positive regulation of cell migration”,这些条目在人类癌症中很常见。还有一些条目与血小板、干扰素相关,有研究表明胃癌可能导致血小板计数和形态的改变。此外,也有研究指出干扰素等相关因素可能与癌症的发生有关。
表7.GO基因分析结果
Figure BDA0002950858310000121
Figure BDA0002950858310000131
以上所述之实施例,只是本发明的较佳实施例而已,并非限制本发明的实施范围,故凡依本发明专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明申请专利范围内。

Claims (5)

1.基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法,其特征在于,包括:
步骤1:对基因表达数据与DNA甲基化数据进行数据预处理,分别得到基因表达矩阵和DNA甲基化矩阵;
步骤2:在基因表达矩阵和DNA甲基化矩阵上,分别采用互信息、FC、T-test与FDR来筛选差异表达基因与差异甲基化位点,从而对数据进行降维;
所述步骤2具体为:
步骤2.1:对于基因表达数据,计算出每个基因的互信息值并按照从大到小顺序排序,选择TopN个基因作为初步选择的基因;
步骤2.2:计算步骤2.1选择的TopN个基因的FC值与p值,设置相应的阈值进一步筛选差异表达基因,同时引入FDR来修正p值,同样设置相应的FDR值的阈值,得到最终选择的差异表达基因;
步骤2.3:对DNA甲基化数据,按照步骤2.1和步骤2.2的方法得到差异甲基化位点;
所述的降维具体为:将差异表达基因与差异甲基化位点的交集作为潜在的胃癌的生物标志物,利用交集中的基因对基因表达数据与DNA甲基化数据进行降维;
步骤3:利用笛卡尔积将维度降低后的基因表达数据与DNA甲基化数据进行融合,形成扩展数据;
步骤4:基于步骤3获得的扩展数据,构建神经网络模型作为分类器验证所识别的胃癌生物标志物的分类能力。
2.根据权利要求1所述的方法,其特征在于,数据预处理过程如下:将单独存放的基因表达数据文件或DNA甲基化数据文件分别合并为一个基因表达矩阵文件或DNA甲基化矩阵文件,并将基因表达矩阵或DNA甲基化矩阵中每个样本的探针列名称转换为基因名称,若一个基因对应多个探针,则取这些基因表达值的中位数作为新的基因表达值;随后根据基因芯片注释文件添加每一个样本的类别;然后,去除数据中含有空值的基因,并执行z-score标准化使基因表达值转换到一个均值为0、方差为1 的区间。
3.根据权利要求1所述的方法,其特征在于,所述步骤3具体为:
将标签为胃癌的基因表达数据和DNA甲基化数据组合成新的胃癌数据,将标签为正常的基因表达数据和DNA甲基化数据组合成新的正常数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤4中的神经网络模型由输入层、隐藏层和输出层组成;输入层由两部分组成,分别对应基因表达数据和DNA甲基化数据;隐藏层应用ReLU作为激活函数,输出层采用Sigmoid函数作为激活函数,使输出值介于0和1之间。
5.根据权利要求4所述的方法,其特征在于,隐藏层每层包含100个神经元,每一个隐藏层中增加Dropout;输出层仅有一个节点。
CN202110206290.5A 2021-02-24 2021-02-24 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法 Active CN112927757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110206290.5A CN112927757B (zh) 2021-02-24 2021-02-24 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110206290.5A CN112927757B (zh) 2021-02-24 2021-02-24 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法

Publications (2)

Publication Number Publication Date
CN112927757A CN112927757A (zh) 2021-06-08
CN112927757B true CN112927757B (zh) 2022-09-02

Family

ID=76171577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110206290.5A Active CN112927757B (zh) 2021-02-24 2021-02-24 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法

Country Status (1)

Country Link
CN (1) CN112927757B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023052917A1 (en) * 2021-09-28 2023-04-06 Act Genomics (ip) Limited Methylation biomarker selection apparatuses and methods
CN114203254B (zh) * 2021-12-02 2023-05-23 杭州艾沐蒽生物科技有限公司 一种基于人工智能分析免疫特征相关tcr的方法
CN115331733B (zh) * 2022-10-14 2023-03-24 青岛百创智能制造技术有限公司 空间转录组芯片的测序数据的分析方法及装置
CN117594133A (zh) * 2024-01-19 2024-02-23 普瑞基准科技(北京)有限公司 用于判别子宫病变类别的生物标志物的筛选方法及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025387A (zh) * 2017-03-29 2017-08-08 电子科技大学 一种用于癌症生物标志物识别的方法
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9428813B2 (en) * 2012-03-26 2016-08-30 The United States Of America, As Represented By The Secretary, Dept. Of Health & Human Services DNA methylation analysis for the diagnosis, prognosis and treatment of adrenal neoplasms
EP3189156B1 (en) * 2014-08-08 2020-10-07 AIT Austrian Institute of Technology GmbH Thyroid cancer diagnosis by dna methylation analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025387A (zh) * 2017-03-29 2017-08-08 电子科技大学 一种用于癌症生物标志物识别的方法
CN109326316A (zh) * 2018-09-18 2019-02-12 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Class-Incremental Learning With Deep Generative Feature Replay for DNA Methylation-Based Cancer Classification";Erdenebileg Batbaatar等;《IEEE Access》;20201120;第8卷;第2169-3536页 *
"基因芯片筛选多形性胶质母细胞瘤差异表达基因和通路";石磊等;《肿瘤防治研究》;20180731;第45卷(第7期);第441-446页 *

Also Published As

Publication number Publication date
CN112927757A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112927757B (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN113555070B (zh) 机器学习算法构建急性髓系白血病药敏相关基因分类器
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN113838532B (zh) 基于双重自适应邻域半径的多粒度乳腺癌基因分类方法
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
Smolander et al. Comparing biological information contained in mRNA and non-coding RNAs for classification of lung cancer patients
Dixit et al. Machine learning in bioinformatics: A novel approach for dna sequencing
WO2021202424A1 (en) Cancer classification with synthetic spiked-in training samples
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
Zhang et al. A novel biomarker identification approach for gastric cancer using gene expression and DNA methylation dataset
Dhillon et al. Biomarker identification and cancer survival prediction using random spatial local best cat swarm and Bayesian optimized DNN
Alzubi et al. SNPs-based hypertension disease detection via machine learning techniques
Chai et al. Integrating multi-omics data with deep learning for predicting cancer prognosis
Park et al. Evolutionary fuzzy clustering algorithm with knowledge-based evaluation and applications for gene expression profiling
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
Zhang et al. Elastic net regularized softmax regression methods for multi-subtype classification in cancer
Sha et al. Feature selection for polygenic risk scores using genetic algorithm and network science
CN111785319A (zh) 基于差异表达数据的药物重定位方法
Li et al. A methylation diagnostic model based on random forests and neural networks for asthma identification
Chen et al. Gene expression analyses using genetic algorithm based hybrid approaches
Muhammad et al. Gvdeepnet: Unsupervised deep learning techniques for effective genetic variant classification
Korayem et al. A hybrid genetic algorithm and artificial immune system for informative gene selection
CN114999566B (zh) 基于词向量表征和注意力机制的药物重定位方法及系统
Mishra et al. Probable Biomarker Identification Using Recursive Feature Extraction and Network Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant