CN108108589A - 基于网络指标差异分析的食管鳞癌标记物的识别方法 - Google Patents

基于网络指标差异分析的食管鳞癌标记物的识别方法 Download PDF

Info

Publication number
CN108108589A
CN108108589A CN201711477976.8A CN201711477976A CN108108589A CN 108108589 A CN108108589 A CN 108108589A CN 201711477976 A CN201711477976 A CN 201711477976A CN 108108589 A CN108108589 A CN 108108589A
Authority
CN
China
Prior art keywords
gene
network
esophageal squamous
genes
cell carcinoma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711477976.8A
Other languages
English (en)
Other versions
CN108108589B (zh
Inventor
姜素霞
王延峰
姜利英
孙军伟
张启
樊继辉
张俊明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University of Light Industry
Original Assignee
Zhengzhou University of Light Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University of Light Industry filed Critical Zhengzhou University of Light Industry
Priority to CN201711477976.8A priority Critical patent/CN108108589B/zh
Publication of CN108108589A publication Critical patent/CN108108589A/zh
Application granted granted Critical
Publication of CN108108589B publication Critical patent/CN108108589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物信息学技术领域,涉及基于网络指标差异分析的食管鳞癌标记物的识别方法,包括以下步骤:对食管鳞癌基因样本数据和正常基因样本数据进行处理,构建食管鳞癌基因相互作用网络和正常基因相互作用网络;运用网络模块识别方法,在上述两个网络中找出关键社团结构,对关键社团结构进行基因功能富集分析;提取上述两个网络中的相同节点,并保留与相同节点相连的节点,得到简化的上述两个网络;利用全局指标和局部模块化指标,分析简化的上述两个网络,得到与食管鳞癌相关的基因;结合基因功能富集分析结果及基因注释和功能参考,最终确定食管鳞癌诊断的候选标记物。本发明进一步地完善了基于基因网络差异分析来研究食管癌标记物的方法。

Description

基于网络指标差异分析的食管鳞癌标记物的识别方法
技术领域
本发明属于生物信息学技术领域,涉及基于网络指标差异分析的食管鳞癌标记物的识别方法。
背景技术
食管癌病理类型主要为食管鳞状细胞癌(Esophageal Squamous CellCarcinoma,ESCC)和腺癌(Esophagus adenocarcinoma,EAC),其在不同地区的病理类型分布有差异。食管癌发病过程涉及到多种分子改变,包括DNA、RNA以及蛋白质,并伴随着一系列生物学功能的改变,如细胞增生、信号、传递及代谢的调节紊乱,经多阶段的演进过程,最终发展为癌。由于缺乏食管癌早期精准诊断技术,以及预防和治疗方法的局限性导致患者一旦发现多为中晚期,该病中晚期患者5年生存率仅为10%左右,但早期食管癌术后5年生存率可达90%左右。目前的诊断主要依赖于胃镜及组织病理学检查,尚缺乏有效的高特异的分子指标作为早期诊断分子标记物。
近些年来,随着基因测序技术的发展,使得疾病的诊断和治疗进入了一个崭新时期。目前,已经有研究者通过对正常人群和癌症患者的基因转录组数据进行差异表达分析,以此确定与癌症相关的基因,主要是通过对样本数据进行处理得到差异表达基因,利用这些差异表达基因建立蛋白质相互作用网络,通过网络指标确定网络中的关键节点确定癌症的候选标记。这类基于基因的差异表达分析方法多局限于统计学上的差异性检验,此类方法虽然简单有效,但只能检测单个基因在不同样本中的差异表达,不能从基因表达网络整体上反映基因表达的差异,精确度不高并且容易受数据噪声的影响,具有一定的局限性。在基因网络中识别差异表达基因时,此类方法选用的指标比较单一,只能衡量网络节点关键性和影响力,在寻找差异表达基因上效果并不明显,并且只在全局层面上挖掘基因表达的差异,不能识别基因在局部网络社团中的表达差异。
因此,筛选鉴定ESCC特异敏感的生物标记物,有助于探索新的治疗靶点和治疗手段,对降低ESCC发病率及死亡率具有重要的理论意义及临床应用价值。
发明内容
本发明的目的在于提供一种基于网络指标差异分析的食管鳞癌标记物的识别方法,进一步完善了基于基因网络差异分析来研究食管癌标记物的方法,提高了食管癌标记物识别的精度。
为实现上述目的,本发明采用以下技术方案:
本发明提供一种基于网络指标差异分析的食管鳞癌标记物的识别方法,包括以下步骤:
步骤1:对食管鳞癌基因样本数据和正常基因样本数据进行处理,构建食管鳞癌基因相互作用网络和正常基因相互作用网络;
步骤2:运用网络模块识别方法,在食管鳞癌基因相互作用网络和正常基因相互作用网络中找出关键社团结构,对关键社团结构进行基因功能富集分析;
步骤3:提取食管鳞癌基因相互作用网络和正常基因相互作用网络中的相同节点,并保留与相同节点相连的节点,得到简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络;
步骤4:利用全局指标和局部模块化指标,对简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络进行分析,得到与食管鳞癌相关的基因;
步骤5:结合步骤2中基因功能富集分析结果及基因库中提供的基因注释和功能参考,在步骤4中得到的与食管鳞癌相关的基因中确定食管鳞癌诊断的候选标记物。
进一步地,所述基因功能富集分析采用的工具为DAVID。
进一步地,所述全局指标包括节点的度差、特征向量中心度差及核度差。
进一步地,所述局部模块化指标包括局部平均度差和局部特征向量中心度差。
相比现有技术,本发明的有益效果在于:
本发明将全局指标分析和局部模块化指标分析相结合,引入了节点的度差、特征向量中心度差和核度差作为分析指标,尤其在采用局部模块化指标分析时,重新定义了局部平均度和局部特征向量中心度2个新指标,再通过计算局部平均度差和局部特征向量中心度差,可以将在全局指标分析时忽略掉的基因重新筛选出来,弥补了全局指标分析的缺陷,进一步完善了基于基因网络差异分析来研究食管癌标记物的方法,提高了食管癌标记物识别的精度。
具体实施方式
以下实施例用于说明本发明,但不用来限定本发明的保护范围。若未特别指明,实施例中所用技术手段为本领域技术人员所熟知的常规手段。下述实施例中的试验方法,如无特别说明,均为常规方法。
基因相互作用网络中一个节点对应的度(connectivity)是与该节点相连的节点数。一个节点代表一个基因的表达水平,在不同的情形下,两个节点的相关系数超过预先设定的阈值,则说明这两个节点彼此连接。
在网络中处于核心位置相互关系比较紧密的节点集定义为核结构,与核结构相连,但彼此之间联系比较疏松的节点集称为核边结构。
社团结构指整个网络是由若干个群或组构成的,每个群内部的节点(node)之间的连接非常紧密,而各个群之间的连接相对来说比较稀疏。
如给定的一个网络G=(V,E),其所有节点的集合记作V,所有节点的邻接矩阵记为A,则A=av,t。如果节点v与节点t相连,则av,t=1,否则av,t=0。那么,
(1)网络G中一个节点对应的度是与该节点相连的节点数,则节点v的度kv可定义为:
其中,aij为邻接矩阵A中第i行、第j列的元素。
(2)网络G中节点通过与其连接的其他节点来衡量该节点的重要性,则节点ν的特征向量中心度χv可定义为:
其中,χt为网络中与节点ν相连的节点t的特征向量中心度;γ为邻接矩阵A的特征值;M(v)为与节点ν相邻的所有节点的集合。
(3)核度用来衡量节点在网络中属于核结构的程度,参考检测核边结构的算法(Rombach M P,Porter M A,Fowler J H,et al.Core-Periphery Structure in Networks[J].Siam Journal on Applied Mathematics,2012,74(1):167-190),网络G中节点ν的核度可定义为:
CSv=Z∑γci(γ)XRγ(公式III);
其中,C为与邻接矩阵A具有相同维度的权重矩阵;γ为表示权重矩阵C中的一个向量;Rγ为核质量;Ci(γ)为Rγ最大时节点i的权值;Z为归一化因子,Z取值可使得maxCSv=1,i∈(1,…,N)。
如给定的一个社团结构G′=(Vi,Ei),其所有节点的集合记作Vi,所有节点的邻接矩阵记为A′,则如果节点vi与节点ti相连,则否则那么,
(1)社团结构G′中节点νi的局部平均度dvi可定义如下:
其中,dv为社团结构G′中节点νi的度,a′ij为邻接矩阵A′中第i行、第j列的元素;ni为社团结构G′中所有节点个数的总和。
(2)社团结构G′中节点νi的局部特征向量中心度可定义为:
其中,为社团结构中与节点νi相连的节点ti的局部特征向量中心度;γ为邻接矩阵A′的特征值;Mi(vi)为与节点νi相邻的所有节点的集合。
实施例一
基于上述公式,下面结合具体实施方式来说明本发明一种基于网络指标差异分析的食管鳞癌标记物的识别方法,包括以下步骤:
步骤1:在NCBI中下载编号为GSE23400的数据集,其中包含来自两个不同的芯片(Affymetrix U133A/B chip)的数据集,本发明选择芯片B上的探针数据来进行数据处理,芯片B上包含了51个食管鳞癌样本数据和与对应的51个正常样本数据(每个样本上均舍弃了两个干扰的探针数据)。两个样本数据的处理过程如下:
(1)利用Expression ConsoleTMSoftware对数据进行标准化处理;
(2)通过MAS5.0方法将每一个数据转换为P-value值和鲁棒平均信号值;
(3)删除没有对应基因的探针数据,再根据得到的P-value值滤掉几乎不表达的基因,最终得到含6047个基因的食管鳞癌基因样本数据和含6047个基因的正常基因样本数据;
(4)对上述两个样本数据进行T检验,得到反映每个基因在食管鳞癌基因样本数据和正常基因样本数据中差异表达显著性的P-value值。
构建食管鳞癌基因相互作用网络和正常基因相互作用网络,具体过程如下:
(1)对含6047个基因的食管鳞癌基因样本数据和含6047个基因的正常基因样本数据进行斯皮尔曼秩相关性计算,得到两个基因间的相关性系数;
(2)选择相关性系数数值为0.8作为判断基因是否相关的阈值,依此挑出相关基因对,构建食管鳞癌基因相互作用网络和正常基因相互作用网络(Kowalczyk,T.,Pleszczynska,E.,&Ruland,F.(2004).Grade Models and Methods for Data Analysis.SpringerBerlin Heidelberg)。正常基因相互作用网络中节点有441个、边有2047条,平均度为4.65,直径为9,平均聚类系数为0.17;食管鳞癌基因相互作用网络中节点有95个、边有140条,平均度为1.24,直径为4,平均聚类系数为0.14。因此,可以看出正常基因相互作用网络比食管鳞癌基因相互作用网络要复杂得多,基因间的联系更紧密。
步骤2:运用网络模块识别方法(Vincent D Blondel,Jean-Loup Guillaume,RenaudLambiotte,EtienneLefebvre,Fast unfolding of communities in largenetworks,in Journal of Statistical Mechanics:Theory and Experiment 2008(10),P1000),在食管鳞癌基因相互作用网络和正常基因相互作用网络中均找出2个关键社团结构,对关键社团结构进行基因功能富集分析。本发明采用的基因功能富集工具为DAVID,结果分别如表1和表2所示。
表1正常基因相互作用网络中关键社团的基因功能富集分析结果
表2食管鳞癌基因相互作用网络中关键社团的基因功能富集分析结果
从表1可以看出,正常基因相互作用网络中关键社团结构1的基因功能主要富集在胞外基质、细胞框架和细胞膜结构,关键社团结构2的基因功能主要富集在细胞与外界的信号传导、细胞分化、蛋白质的合成以及线粒体和线粒体膜结构。而细胞外基质为细胞的生存及活动提供适宜的场所,并通过信号转导系统影响细胞的形状、代谢、功能、迁移、增殖和分化。所以这两个关键社团结构所包含基因通过相互间的协作维持正常细胞的运作。与表2中食管鳞癌基因相互作用网络的功能富集结果对比可知,这两个关键社团在食管鳞癌基因相互作用网络中遭到了破坏,说明癌症的形成与具有此类功能的基因失去正常调控作用有关。可能在癌组织中正是由于这些基因功能的失常,癌细胞才会表现有无限增殖,线粒体多型性、肿胀、增生,细胞骨架紊乱,骨架组装不正常和细胞表面特征改变等特征。
从表2可以看出,食管鳞癌基因相互作用网络中关键社团结构A的基因功能主要富集在细胞粘连和免疫球蛋白上。正常细胞的连接方式有三种:粘着连接、紧密连接和间隙连接。粘着连接是通过黏连蛋白结合一些胞质蛋白如肌动蛋白和连环蛋白实现细胞间黏着。另外两种连接方式主要作为细胞间的通道用于传输营养物质和信号。而癌细胞间黏连性相比于同组织的正常细胞显著降低,因此癌细胞有易于浸润和转移的特性,表明关键社团1基因间的相互作用可能会抑制粘连细胞间的粘连作用。另外,与表1中正常基因相互作用网络基因功能富集结果对比可知,对应正常组织细胞没有免疫球蛋白的表达。有研究证实多种癌细胞可以表达免疫球蛋白,这些免疫球蛋白具有与免疫功能毫无联系的生长因子的活性并且癌细胞在缺少其所生产的免疫球蛋白条件下,便不能生长、存活。食管鳞癌基因相互作用网络中关键社团结构B的基因功能主要富集在胞外基质、胞外分泌、胶原蛋白。与表1中正常基因相互作用网络基因功能富集结果相比,可以发现癌细胞中富集在胞外基质的功能种类增多。说明癌细胞相比正常细胞对细胞外基质的影响发生改变,并且影响胞外基质的成分,改变癌细胞周围的环境,更利于其增殖和生存。因此癌细胞可能具有通过胞外分泌对胞外基质环境产生调节的功能,使其更利于自身的形成、发展、增殖。
结合两个网络的功能富集分析结果可知,正常基因相互作用网络与食管鳞癌基因相互作用网络有很大的不同,并且它们的关键社团结构的功能也大不相同,可能正是这些不同才导致了癌症的发生。
步骤3:本发明步骤1构建的食管鳞癌基因相互作用网络和正常基因相互作用网络相关的相同节点共58个,提取食管鳞癌基因相互作用网络和正常基因相互作用网络中的相同节点,并保留与相同节点相连的节点,删除与相同节点不相连的其他节点,得到简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络。
步骤4:利用全局指标和局部模块化指标,对简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络进行分析,得到与食管鳞癌相关的基因。
全局指标包括节点的度差、特征向量中心度差及核度差。具体过程如下:
(1)计算节点的度差
根据公式I,计算简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络中每个相同节点的度,求节点的度差,然后取绝对值。选取度差的绝对值数值较大且T检验中FDR<0.1、P-value<0.02的前10个基因,结果如表3所示。
表3计算节点的度差后选取的前10个基因
Number Gene Degree P-value FDR
1 C1orf116 61 1.60E-14 4.80E-13
2 NEXN 48 0.01457 2.19E-01
3 BNIPL 45 3.80E-15 3.80E-14
4 ERBB3 44 7.80E-16 5.85E-15
5 SCN7A 43 0.000108 6.48E-04
6 PRSS27 40 4.00E-12 2.00E-11
7 MRGPRF 37 0.0002 8.57E-04
8 PRKG1 37 0.014969 5.61E-03
9 ABI3BP 36 3.50E-05 1.17E-04
10 MIR145 33 0.0003 9.00E-04
在表3中的10个基因中,有相关文献记载过基因功能的基因有5个,如BNIPL可以通过细胞周期和细胞凋亡来抑制细胞生长;PRKG1能提高癌细胞的能动性和入侵能力;ABI3BP与细胞的衰老增值有关,并且在所有癌症中表达水平很低;MIR145有抑制癌症分化和转移的功能,在癌组织中低表达;ERBB3为原癌基因并促进未分化癌细胞的分化在癌症形成中起至关重要的作用。
因此,结合上述基因的功能进行分析,共找出5个与食管鳞癌相关的基因,分别是BNIPL、ERBB3、PRKG1、ABI3BP和MIR145,而其他5个与食管鳞癌的相关性不明显。
(2)计算节点的特征向量中心度差
根据公式II,计算简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络中每个相同节点的特征向量中心度,求节点的特征向量中心度差,然后取绝对值。选取特征向量中心度差的绝对值数值较大且T检验中FDR<0.1、P-value<0.02的前10个基因,结果如表4所示。
表4计算节点的特征向量中心度差后选取的前10个基因
在表4中的10个基因中,有相关文献记载过基因功能的基因有7个,其中MIR145与计算节点的度差时找到的基因重复,其功能不再叙述;SORBS1、PGM5与肌细胞和肌原纤维的装配有关;COL3A1的表达可以促进癌细胞的转移和入侵;MYLK可以通过阻止细胞凋亡来提高癌细胞的增殖能力并且通过ZEB1/mir-200反馈回路来调节癌细胞的入侵能力;MIR100HG可以作为原癌基因;RBPMS2在癌组织里表达上调,在作为新的癌症标记物和癌症靶向治疗的靶点上很有潜力。
因此,结合上述基因的功能进行分析,共找出7个与食管鳞癌相关的基因,分别是SORBS1、COL3A1、MYLK、PGM5、MIR100HG、RBPMS2和MIR145,而其他3个与食管鳞癌的相关性不明显。
(3)计算节点的核度差
根据公式III,计算简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络中每个相同节点的核度,求节点的核度差,然后取绝对值。选取核度差的绝对值数值较大且T检验中FDR<0.1、P-value<0.02的前10个基因,结果如表5所示。
表5计算节点的核度差后选取的前10个基因
在表5中的10个基因中,有相关文献记载过基因功能的基因有5个,其中BNIPL、ERBB3、PRKG1与计算节点的度差时找到的基因重复,其功能不再叙述;PDK4的表达上调可以把细胞内糖代谢通路变得容易发生糖酵解以促进细胞的增殖,并且能够促进癌症的发生;YOD1也被报道称与癌细胞的增殖有关。
因此,结合上述基因的功能进行分析,共找出5个与食管鳞癌相关的基因,分别是BNIPL、ERBB3、PRKG1、PDK4和YOD1,而其他5个与食管鳞癌的相关性不明显。
在通过节点的度差、特征向量中心度差、核度差来衡量节点在简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络中的差异时,发现一些节点在两个网络中的各项差值并不大,然而这些节点却和癌症功能非常相关,但是在计算中却被忽略掉。因此,节点的度差、特征向量中心度差及核度差这些指标只能体现节点在整个网络中的差异,而使节点在整个网络的社团结构中的差异不被检测出来。比如一个度为1的节点,在一个节点数位100和节点数为2的社团结构中的作用的大小肯定是非常不同的。故定义了2个衡量节点在社团结构中差异的局部模块化指标:局部平均度和局部特征向量中心度,通过计算局部平均度差和局部特征向量中心度差,筛选被全局指标分析中忽略掉的与食管鳞癌相关的基因。
利用模块优化探索法(Vincent D Blondel,Jean-Loup Guillaume,RenaudLambiotte,Etienne Lefebvre,Fast unfolding of communities in large networks,inJournal of Statistical Mechanics:Theory and Experiment 2008(10),P1000)来分别对简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络的社团结构进行识别。具体过程如下:
(1)计算节点的局部平均度差
根据公式IV,计算简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络的社团结构中每个节点的局部平均度,求节点的局部平均度差,然后取绝对值。选取局部平均度差的绝对值数值较大且T检验中FDR<0.1、P-value<0.02的前15个基因,结果如表6所示。
表6计算节点的局部平均度差后选取的前15个基因
在表6中的15个基因中,有相关文献记载过基因功能的基因有9个,其中ABI3BP在计算节点的度差时找到的基因重复,其功能不再叙述;其中SORBS1在计算节点的特征向量中心度差时找到的基因重复,其功能不再叙述;其中PDK4在计算节点的核度差时找到的基因重复,其功能不再叙述;SBSN可以作为新的候选原癌基因,并且与癌症的血管形成有潜在关系,但却被全局指标分析师忽略掉;IFIT3作为一个原癌基因,它的上调可以维持癌组织伪发炎的细胞条件,有研究表明炎症在癌症形成和生长起着重要作用,不仅能促进癌症的形成而且通过激活一些转录因子如血管生成调节子、增殖介质和抗凋亡因子等;RSPO3作为周期性基因在癌组织中起调控作用;HSPB6可以通过抑制AKT通路,来抑制肝癌的生长,并且在其他癌症也发现它对癌症的生长有抑制作用,可以作为癌症诊断的新标记物,但却被全局指标分析师忽略掉;SPINK7属于Kazal型丝氨酸蛋白酶抑制剂基因族,其通过调控癌细胞中蛋白酶的级联对癌细胞的攻击性和入侵性产生抑制作用;IGKC是免疫球蛋白kappa基因(immunoglobulin variable kappa gene)参与人体对癌细胞的免疫功能。
因此,结合上述基因的功能进行分析,共找出9个与食管鳞癌相关的基因,分别是SBSN、IFIT3、PDK4、RSPO3、ABI3BP、HSPB6、SPINK7、SORBS1和IGKC,而其他6个与食管鳞癌的相关性不明显。
(2)计算节点的局部特征向量中心度差
根据公式V,计算简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络的社团结构中每个节点的局部特征向量中心度,求节点的局部特征向量中心度差,然后取绝对值。选取局部特征向量中心度差的绝对值数值较大且T检验中FDR<0.1、P-value<0.02的前15个基因,结果如表7所示。
表7计算节点的局部特征向量中心度差后选取的前15个基因
Number Gene Local Eigenvector P-value FDR
1 FAM3D 0.63 5.20E-13 1.56E-11
2 SBSN 0.58 4.70E-05 7.05E-04
3 SPINK7 0.56 7.90E-06 7.90E-05
4 HSPB6 0.55 1.60E-05 1.20E-04
5 LINC01279 0.5 0.01191 7.15E-03
6 SCEL 0.47 3.50E-05 1.75E-04
7 SMIM5 0.47 8.40E-06 3.60E-05
8 OGN 0.47 1.20E-16 4.50E-16
9 YOD1 0.47 1.70E-14 5.67E-14
10 PELI1 0.46 1.70E-05 5.10E-05
11 GNG2 0.44 0.00306 8.35E-03
12 IFIT3 0.43 6.40E-08 1.60E-07
13 IGKC 0.43 0.00236 5.45E-03
14 IGDCC4 0.43 0.009105 1.95E-03
15 RSPO3 0.43 3.70E-05 7.40E-05
在表7中的15个基因中,有相关文献记载过基因功能的基因有9个,其中SBSN、SPINK7、HSPB6、IFIT3、RSPO3和IGKC6个基因在计算节点的局部平均度差时找到的基因重复,其功能不再叙述;其中YOD1在计算节点的核度差时找到的基因重复,其功能不再叙述;SCEL已经被研究作为食管癌的候选标记基因;IGDCC4先前的研究已经确定了其为一种新型肝癌标志物,它主要在由肝脏上皮性肿瘤细胞中特异表达,在诊断肝癌上有很好的前景。
因此,结合上述基因的功能进行分析,共找出9个与食管鳞癌相关的基因,分别是SBSN、SPINK7、HSPB6、SCEL、YOD1、IFIT3、IGKC、IGDCC4和RSPO3,而其他6个与食管鳞癌的相关性不明显。
综上所述,共找出35个与食管鳞癌相关的基因,去掉重复的基因,共有21个与食管鳞癌相关的基因,分别是:BNIPL、ERBB3、PRKG1、ABI3BP、MIR145、SORBS1、COL3A1、MYLK、PGM5、MIR100HG、RBPMS2、PDK4、YOD1、SBSN、IFIT3、RSPO3、HSPB6、SPINK7、IGKC、SCEL和IGDCC4。
步骤5:结合步骤2中基因功能富集分析结果及基因库中提供的基因注释和文献中记载的21个基因的功能参考,从上述21个基因中挑选出在癌症形成过程中起关键作用的基因作为食管鳞癌诊断的候选标记物,例如,PDK4的表达上调可以把细胞内糖代谢通路变得容易发生糖酵解以促进细胞的增殖,因为癌细胞有一个重要的特征就是正常细胞中的有氧呼吸被糖酵解代替,因此,PDK4能够促进癌症的发生,并且这种改变与癌症的发生和发展密切相关,可以将其作为食管鳞癌的候选标记物作进一步的研究;IGKC是免疫球蛋白kappa基因,正常组织细胞不会表达免疫球蛋白,只有在免疫细胞中才会表达免疫球蛋白,但由于癌细胞的异常性,它可以表达免疫球蛋白,并且免疫球蛋白在癌组织当中具有促进癌细胞生长和抑制宿主细胞免疫功能的双重作用,因此IGKC的异常表达是食管细胞癌变的显著标志,IGKC也可以作为食管癌的新候选标记物。最终确定了6个食管鳞癌诊断的候选标记物,分别是RBPMS2、PDK4、IGKC、SBSN、IFIT3和HSPB6。
实施例2基因相互作用网络的可靠性验证
为了验证所建立的网络关系的可靠性,随机抽取一些样本的表达数据,仍然计算各基因间的斯皮尔曼相关性,并做重复性试验。若在样本的子集中这些网络关系大部分仍然能被找到,说明我们建立的网络关系比较可靠。
从实验组2个样本数据中各随机抽取45个基因样本数据,根据基因的表达数组计算基因间相关性系数,筛选出相关系数>=0.8的所有关系对,作为验证组,并与实验组的关系对作对比,各取固定数量基因关系对,计算重复率,重复三十次并计算平均重复率Pre
平均重复率Pre的计算公式如下:
其中,N表示从实验组或验证组结果中取出的基因对个数;ni表示第i次验证两组中的重复基因对个数。
对正常基因样本数据进行验证,取前2000个基因作对比,三十次试验的平均重复率为0.69。对食管鳞癌基因样本数据进行验证,根据网络的变数取前200个基因关系对作对比,三十次试验的平均重复率为0.72。由此可见,通过本发明通过斯皮尔曼秩相关性建立起的基因相互作用网络还是非常可靠的。
以上所述之实施例,只是本发明的较佳实施例而已,仅仅用以解释本发明,并非限制本发明实施范围,对于本技术领域的技术人员来说,当然可根据本说明书中所公开的技术内容,通过置换或改变的方式轻易做出其它的实施方式,故凡在本发明的原理上所做的变化和改进等,均应包括于本发明申请专利范围内。

Claims (4)

1.一种基于网络指标差异分析的食管鳞癌标记物的识别方法,其特征在于,包括以下步骤:
步骤1:对食管鳞癌基因样本数据和正常基因样本数据进行处理,构建食管鳞癌基因相互作用网络和正常基因相互作用网络;
步骤2:运用网络模块识别方法,在食管鳞癌基因相互作用网络和正常基因相互作用网络中找出关键社团结构,对关键社团结构进行基因功能富集分析;
步骤3:提取食管鳞癌基因相互作用网络和正常基因相互作用网络中的相同节点,并保留与相同节点相连的节点,得到简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络;
步骤4:利用全局指标和局部模块化指标,对简化的食管鳞癌基因相互作用网络和简化的正常基因相互作用网络进行分析,得到与食管鳞癌相关的基因;
步骤5:结合步骤2中基因功能富集分析结果及基因库中提供的基因注释和功能参考,在步骤4中得到的与食管鳞癌相关的基因中确定食管鳞癌诊断的候选标记物。
2.根据权利要求1所述的基于网络指标差异分析的食管鳞癌标记物的识别方法,其特征在于,所述基因功能富集分析采用的工具为DAVID。
3.根据权利要求1所述的基于网络指标差异分析的食管鳞癌标记物的识别方法,其特征在于,所述全局指标包括节点的度差、特征向量中心度差及核度差。
4.根据权利要求1所述的基于网络指标差异分析的食管鳞癌标记物的识别方法,其特征在于,所述局部模块化指标包括局部平均度差和局部特征向量中心度差。
CN201711477976.8A 2017-12-29 2017-12-29 基于网络指标差异分析的食管鳞癌标记物的识别方法 Active CN108108589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711477976.8A CN108108589B (zh) 2017-12-29 2017-12-29 基于网络指标差异分析的食管鳞癌标记物的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711477976.8A CN108108589B (zh) 2017-12-29 2017-12-29 基于网络指标差异分析的食管鳞癌标记物的识别方法

Publications (2)

Publication Number Publication Date
CN108108589A true CN108108589A (zh) 2018-06-01
CN108108589B CN108108589B (zh) 2020-06-12

Family

ID=62214821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711477976.8A Active CN108108589B (zh) 2017-12-29 2017-12-29 基于网络指标差异分析的食管鳞癌标记物的识别方法

Country Status (1)

Country Link
CN (1) CN108108589B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN112802546A (zh) * 2020-12-29 2021-05-14 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050013819A1 (en) * 2003-06-06 2005-01-20 Kinch Michael S. Use of EphA4 and modulator of EphA4 for diagnosis, treatment and prevention of cancer
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN106202968A (zh) * 2016-07-28 2016-12-07 北京博源兴康科技有限公司 癌症的数据分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050013819A1 (en) * 2003-06-06 2005-01-20 Kinch Michael S. Use of EphA4 and modulator of EphA4 for diagnosis, treatment and prevention of cancer
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN106202968A (zh) * 2016-07-28 2016-12-07 北京博源兴康科技有限公司 癌症的数据分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JI-SHENG LI等: "Promoter methylation of tumor suppressor genes in esophageal squamous cell carcinoma", 《CHINESE JOURNAL OF CANCER》 *
李宏: "肿瘤表观基因组学、生物芯片和生物信息学", 《生物信息学》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN110136779B (zh) * 2019-05-30 2023-08-29 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN112802546A (zh) * 2020-12-29 2021-05-14 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108108589B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
Shannon et al. Analyzing microarray data using cluster analysis
Borisov et al. Quantitation of molecular pathway activation using RNA sequencing data
Jayawardana et al. Determination of prognosis in metastatic melanoma through integration of clinico‐pathologic, mutation, mRNA, microRNA, and protein information
Wirth et al. Mining SOM expression portraits: feature selection and integrating concepts of molecular function
Watkinson et al. Identification of gene interactions associated with disease from gene expression data using synergy networks
Larsson et al. Comparative microarray analysis
Wang et al. Independent component analysis based gene co-expression network inference (ICAnet) to decipher functional modules for better single-cell clustering and batch integration
Graudenzi et al. Pathway-based classification of breast cancer subtypes
CN108108589B (zh) 基于网络指标差异分析的食管鳞癌标记物的识别方法
Wen et al. Signature gene identification of cancer occurrence and pattern recognition
Vafaeie et al. ACAN, MDFI, and CHST1 as candidate genes in gastric cancer: A comprehensive insilco analysis
Qu et al. FAM171B as a novel biomarker mediates tissue immune microenvironment in pulmonary arterial hypertension
Moretti et al. Combining Shapley value and statistics to the analysis of gene expression data in children exposed to air pollution
Han et al. Development and validation of a survival model for thyroid carcinoma based on autophagy-associated genes
Ren et al. Identification of methylation signatures and rules for sarcoma subtypes by machine learning methods
Chen et al. Immunosignature screening for multiple cancer subtypes based on expression rule
Liu et al. ITLNI identified by comprehensive bioinformatic analysis as a hub candidate biological target in human epithelial ovarian cancer
Pal et al. Identifying relevant group of miRNAs in cancer using fuzzy mutual information
Koestler et al. A recursively partitioned mixture model for clustering time-course gene expression data
CN107292128A (zh) 一种配对互作基因检测方法及预测模型
Xie et al. Clustering single-cell RNA sequencing data via iterative smoothing and self-supervised discriminative embedding
Lee et al. Predicting disease phenotypes based on the molecular networks with condition-responsive correlation
Xing et al. Molecular clustering based on gene set expression and its relationship with prognosis in patients with lung adenocarcinoma
Xu et al. scCAD: Cluster decomposition-based anomaly detection for rare cell identification in single-cell expression data
Tian et al. Identification of genes involved in breast cancer metastasis by integrating protein–protein interaction information with expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant