CN110444248A

CN110444248A - 基于网络拓扑参数的癌症生物分子标志物筛选方法及系统

Info

Publication number: CN110444248A
Application number: CN201910661587.3A
Authority: CN
Inventors: 刘治平; 王艳秋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-11-12
Anticipated expiration: 2039-07-22
Also published as: CN110444248B

Abstract

本发明公开了一种基于网络拓扑参数的癌症生物分子标志物筛选方法及系统，所述方法包括：获取人类基因间相互作用网络和基因芯片表达数据，整合得到基于基因表达数据的基因间相互作用网络；构建疾病状态和对照状态基因间相互作用网络；计算得到疾病状态和对照状态基因间相互作用网络之间的网络拓扑参数差异基因，基于网络参数差异基因得到网络拓扑参数差异变化网络；对网络拓扑参数差异网络进行网络模块挖掘；对得到的差异网络模块进行特征选择，得到各模块中对正常与疾病具有辨别性的基因；检测各模块中选择的基因对疾病的分类效果，根据分类效果筛选差异网络模块作为生物分子标志物候选。本发明提供了一种新的基于组学数据的复杂疾病生物标志物识别方法，实验证明具有一定的准确性和有效性。

Description

基于网络拓扑参数的癌症生物分子标志物筛选方法及系统

技术领域

本发明属于生物信息提取技术领域，尤其涉及一种基于网络拓扑参数的癌症生物分子标志物筛选方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

癌症(恶性肿瘤)是威胁人类生命健康的一大类疾病，目前在全球范围内的发病率与致死率都逐年上升。据资料显示，2018年预计产生1810万新增癌症病例和960万癌症死亡病例，其中中国预计有超405万新增癌症病例和超261万癌症死亡病例，每天平均有一万人被确诊为癌症，形势十分严峻。

肝癌(liver cancer)，即肝脏恶性肿瘤，是全球范围内第六大常见的可诊断癌症和第四大致死癌症，在我国癌症发病中排名第四。其新增病例在全球新增病例中排名第五，其男性发病率和死亡率高出女性2到3倍，在男性死亡中排名第二。原发性肝癌中绝大多数都是肝细胞癌(HCC)，HCC的病因及确切分子机制尚不完全清楚，目前认为其发病是由多种致病因素共同作用的结果。主要危险因素包括乙肝病毒或丙肝病毒的慢性感染、黄曲霉毒素污染的食物、大量饮酒、吸烟、肥胖和2型糖尿病等。肝癌在不同国家有不同的主要致病因素，通常肝硬化患者有极大的风险罹患肝细胞癌。

目前HCC的诊断主要是基于影像学的超声检测和活体切片检测。超声成像技术能较快速地检查整个肝脏，是一种比较可靠的HCC早期诊断方法。除此之外，HCC早期诊断还依赖于组织与血清肿瘤标志物。近年来有一些潜在的HCC生物标志物正在研究中，如通过糖基磷脂酰肌醇锚连接细胞膜的Glypican-3(GPC3)，它可以从细胞表面去除生长因子，进而抑制肝细胞癌的生长。目前已有较多血清HCC生物标志物也在研究中，有些甚至已经进入临床应用阶段，如甲胎蛋白(AFP)。然而，近年来发现AFP不仅仅对HCC敏感，患有HBV、HCV或者肝硬化的患者外周血AFP水平也有不同程度的提升；APO-J是一种具有七个糖基化位点的糖蛋白，它比甲胎蛋白更敏感和特异，可用作肝癌的独立标记；α-1-岩藻糖苷酶是一种溶酶体酶，可水解糖脂和糖蛋白的岩藻糖糖苷键。通常在HCC发生发展的前六个月，它的值会升高，并且表达随着肝脏损伤而增加，是早期HCC生物标志物之一。上述已发现的生物标志物均存在HCC特异性不高，精度较低等缺点，因此亟需找到新的有效的生物标志物来辅助相关临床检验与诊断。

利用基因表达数据筛选生物标志物是近年来研究生物标记物的主要途径之一。该类方法一般是基于基因表达数据寻找差异表达基因，再对差异表达基因进行后续分析。然而发明人发现，近年来基因组学的逐步研究表明，基因与基因以及相关表达产物之间存在着复杂的关系，基因表达的调控不是孤立的，它们之间相互调控、相互关联，形成相互作用的网络。基因间相互作用关系(GGI,Gene-Gene Interaction)包括最常见的基因调控、蛋白质-DNA、蛋白质-RNA、蛋白质-蛋白质相互作用和RNA-RNA之间的相互作用等。基因以及蛋白质、RNA、代谢物等生物分子之间内部或外部的相互作用，构成了一个庞大的复杂网络。其中基因等生物分子作为网络节点，分子之间的物理和功能联系作为网络边将其连接。由于涉及复杂的生化过程，复杂疾病被认为是这些复杂网络的系统紊乱导致的症状。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于网络拓扑参数的癌症生物分子标志物筛选方法及系统。利用基因表达数据和背景基因网络，构建正常与疾病两种状态下特异的基因相互作用网络，基于基因等生物分子在两个基因互作网络中所处位置的差异，挑选出网络拓扑参数差异变化显著的基因，从而筛选出作为候选的癌症生物标志物，实现了从复杂网络中寻找复杂疾病生物标志物，实验证明基于本方法筛选的生物标志物具有准确性与有效性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于网络拓扑参数的癌症生物分子标志物筛选方法，包括以下步骤：

获取基因间相互作用网络和基因芯片表达数据，整合得到具有相应基因表达数据的基因间相互作用网络；

根据基因表达数据，分别计算基因间相互作用网络中每条边两端的基因在肿瘤组与对照组中的相关性，对该网络的边进行选择与删减，留下相关性高的边，从而分别得到疾病状态和对照状态下特异的基因间相互作用网络；

选定网络拓扑参数，计算得到疾病状态和对照状态两基因间相互作用网络之间的网络拓扑参数差异变化基因，从而基于网络拓扑参数差异变化显著的基因，从基因间相互作用网络中得到网络拓扑参数差异变化网络；

对网络拓扑参数差异变化网络进行网络子模块挖掘；

对得到的差异网络模块进行特征选择，得出各模块中对疾病的两个状态具有辨别性的基因；

检测各模块中特征选择后的基因对正常与疾病样本的分类效果，根据分类效果筛选出差异网络模块，作为发现的生物分子标志物候选。

一个或多个实施例提供了一种基于网络拓扑参数的癌症生物分子标志物筛选系统，包括：

数据获取与整合模块，获取基因间相互作用网络和基因芯片表达数据，整合得到基于基因芯片表达数据的基因间相互作用网络；

疾病和对照网络生成模块，根据基于该基因表达数据，分别计算基因间相互作用网络中每条边两端的基因在肿瘤组与对照组中的相关性，对该网络的边进行选择和删减，得到疾病状态和对照状态下特异的基因间相互作用网络；

网络拓扑参数差异网络生成模块，选定网络拓扑参数，计算得到疾病状态和对照状态两基因间相互作用网络之间的网络拓扑参数差异变化基因，从而基于网络参数差异变化显著的基因，从基因间相互作用网络中得到网络拓扑参数差异变化网络；

差异网络模块挖掘模块，对网络拓扑参数差异变化网络进行网络子模块挖掘；

生物分子标志物筛选模块，对得到的差异网络模块进行特征选择，得出各模块中对正常与疾病两个状态具有辨别性的基因；检测各模块中特征选择后的基因对正常与疾病样本的分类效果，根据分类效果筛选出差异网络模块，作为发现的生物分子标志物候选。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的癌症生物分子标志物筛选方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的癌症生物分子标志物筛选方法。以上一个或多个技术方案存在以下有益效果：

本发明提出了一种根据基因等生物分子在基因间互作网络中处于不同的网络拓扑状态，挑选网络拓扑参数变化差异基因来筛选癌症生物标志物的方法。基因以及蛋白质、RNA、代谢物等生物分子之间内部或外部的相互作用，构成了生物分子复杂网络，其中基因等生物分子作为节点，分子之间的物理和功能联系作为边将其连接，本发明将基因以及蛋白质、RNA、代谢物等生物分子在癌症发生前后的状态变化表现为在拓扑关系网络中边的重连，通过生物分子在网络中拓扑参数的差异变化来筛选癌症生物分子标志物，在生物分子构成的复杂网络上研究疾病动态变化过程，实现了从复杂网络中筛选复杂疾病生物标志物，为癌症生物分子标志物的发现提供一条新的途径。

本发明构建了肿瘤组与对照组在两种状态下特异的两个人类基因间相互作用网络，根据基因在这两个网络中网络拓扑参数的差异变化来筛选关键基因作为候选的生物标志物。使用支持向量机分类器对聚类出的网络模块进行分类能力的挑选与检验，最终确定了33个基因作为潜在的HCC生物标志物。之后对这33个基因进行功能富集分析，发现功能集中在糖胺聚糖分解代谢与合成、免疫细胞迁移过程调节等与肝细胞癌发生发展密切相关的一系列生物过程中。同时，在另外三个独立数据集上做了二次验证，都得到了不低于0.9的分类精度值，表明本发明具有一定程度的准确性与有效性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中基于网络拓扑参数筛选癌症生物分子标志物的方法框架图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明的一个实施例以肝细胞癌为例，公开了一种基于网络拓扑参数差异变化的癌症生物分子标志物筛选方法，应当注意的是，下文中所使用的数据与具体统计学方法不是唯一的，应根据具体癌症种类进行具体分析使用。所述方法包括以下步骤：

步骤1：获取基因间相互作用网络和基因表达数据；

整合6个公开的基因间相互作用网络数据库中的人类基因间相互作用网络数据，包括Bind、BioGrid、HPRD、IntAct、MINT、STRING，所有的基因名均使用ENTREZID跟NCBIGenBank中最新的人类基因信息列表匹配得到。最终整合的人类基因间相互作用网络包含11160个基因和88279条边，其中最大连通分支包含10988个基因和88159条边，称为HUMAN-GGI网络。

基因表达数据集使用从基因表达综合数据库NCBI GEO(https://www.ncbi.nlm.nih.gov/)中存储ID为GSE25097的数据。该数据利用的是Affymetrix公司的GPL10687平台，样本组织来自于300例HCC冷冻组织，包含268个HCC肿瘤样本、243个癌旁组织样本、40个肝硬化样本和6个健康样本，本实施例仅使用了268个肿瘤样本和243个癌旁组织样本。对于获取的基因表达数据，执行以下操作：采用RMA算法(距离徙动算法)对原始芯片数据进行预处理，将芯片杂交信号转为基因表达数据；然后用基因ENTREZID匹配芯片探针名，多个探针对应同个基因ID的情况，保留IQR(Inter-Quartile Range)值最大的探针数据。最后得到的数据中包含19353个基因。

为了在之后的步骤中对差异模块生物标志物进行挑选，检测模块对疾病的分类评估效果，我们还选择了三个同品牌芯片平台得到的肝细胞癌相关的基因芯片表达数据，ID分别是GSE14520、GSE22058和GSE63898。与上述数据进行相同的数据预处理过程，模块挑选完成后本文还进行了模块基因在其它数据集中的独立验证，使用了同样是该品牌芯片平台的基因表达数据：GSE64041和GSE45436，以及TCGA中关于HCC的mRNA数据。表1即为本实施例所有使用到的数据。

表1本文中所有使用到的数据相关信息

步骤2：整合基因表达数据和基因间相互作用网络，得到基于该表达数据的GGI网络，称其为HCC-GGI网络；

因为芯片数据中包含的基因不一定存在于之前整理好的基因间相互作用网络中，所以需整合芯片基因和GGI网络，从而得到具有基因表达数据的GGI网络，称其为HCC-GGI网络，包含10173个基因和73544条边。

此时，肿瘤组与对照组的GGI网络是相同的，需要利用相应状态下的基因表达数据，得到两个状态特异的GGI网络。

步骤3：在肿瘤组与对照组中，分别计算HCC-GGI网络的每一条边两端的基因之间的样本表达皮尔逊相关系数。根据相关性的结果，去掉无相关性或相关性极弱的边，得到肿瘤组和对照组两状态下的特异GGI网络，称为肿瘤组(TUMOR-GGI)网络和对照组(NONTUMOR-GGI)网络。

步骤4：针对HUMAN-GGI网络计算网络拓扑参数，对于网络拓扑参数进行分层聚类，结合聚类结果，选定与基因间网络有关的网络拓扑参数，并且对TUMOR-GGI网络和NONTUMOR-GGI网络的网络拓扑参数变化进行分析。

复杂网络的统计拓扑参数反映了网络的结构特征和动力学特性。本实施例构建的网络节点与边较多，网络大，不宜使用计算复杂度高的拓扑参数。在此前提下，我们选择了46个网络拓扑参数。分别计算出HUMAN-GGI网络中每个基因节点的46个网络特征之后，对这些拓扑参数进行分层聚类。选用皮尔逊相关系数来度量每两拓扑参数间的距离。分层聚类将基于相同或相似原理定义的网络拓扑参数归于一类，从而可以从得到的类别中，选择拓扑参数进行使用。

利用网络中每个节点的拓扑参数作为该节点的特征，进行生物标志物的筛选。考虑到特征过多极易造成过拟合现象，在得到TUMOR-GGI网络和NONTUMOR-GGI网络后，我们筛选出与本实例肝细胞癌数据有关的网络拓扑参数用于后续实验。

不同的网络拓扑参数对于不同的复杂网络有不同的效应，为了选择对于本实例数据最有效最有代表性的网络拓扑参数，首先，我们分别取出TUMOR-GGI网络和NONTUMOR-GGI网络中最大的连通网络，分别包含7539个基因和32173条边，6238个基因和39934条边，共有5137个相同基因。计算出这两个最大连通网络的全部46个网络拓扑参数，组成向量，然后对向量每个对应位置贴上标签，肿瘤组拓扑参数数据处标0，对照组拓扑参数数据处标1。之后分别计算每个拓扑参数向量与标签向量间的互信息。在上述分层聚类得到的每个参数类别中，挑选出该类别中互信息较高的网络拓扑参数作为选定的网络拓扑参数，用于后续计算。

步骤5：计算得到肿瘤组网络和对照组网络之间网络参数差异变化显著的基因，基于网络参数差异基因简化HCC-GGI网络，得到DNP-GGI(Differential NetworkParameters-Gene Gene Interaction)网络。

构建好肿瘤组与对照组特异的TUMOR-GGI网络和NONTUMOR-GGI网络并分别计算好网络拓扑参数之后，每个基因节点都有若干个拓扑参数值。我们的目的是寻找两个网络中网络拓扑参数显著变化的基因节点，即网络参数差异基因。因此，我们利用fold change和非参数检验中的Wilcoxon's Sign Rank Test来计算。差异倍数定义为当FC<2时，表示差异不明显；2<FC<4时，表示差异明显；FC>4时，表示差异非常明显。威尔克森符号秩检验是非参数检验的一种，对数据总体分布不做假设，适用于分布不明和方差不齐的配对资料。首先对TUMOR-GGI网络和NONTUMOR-GGI网络的共同基因用差异倍数进行第一次挑选，然后将挑选出的基因在肿瘤组与对照组的拓扑参数值作为一个配对观察进行假设检验。为了比较基因在不同状态的两个网络中网络拓扑关系是否有显著差异，进行假设检验：

H0：该基因的网络拓扑参数值在肿瘤组与对照组状态下总体上是相同的；

H1：该基因的网络拓扑参数值在肿瘤组与对照组状态下总体上是不相同的。

分别计算每个拓扑参数在两个状态下的差值D，将差值的绝对值|D|从小到大排列并排出顺序定为秩R，差值为0的放弃排序，|D|相等的取平均秩，然后按照D的正负分成正秩R+和负秩R-，分别对R+和R-求和得到T+和T-。若拓扑参数数目设为n的话，取检验统计量W＝min(T+，T-)，根据检验统计量W和样本量n进行查表可得到在该零假设下的P值，若P值小于0.01则拒绝零假设，反之接受。

步骤6：对DNP-GGI网络进行差异网络模块挖掘。

对于得到的网络参数差异网络，DNP-GGI，本文中使用基于贪心的快速社区发现算法(Fast Greedy Community Detection)方法对DNP-GGI网络进行差异网络子模块挖掘。

步骤7：对得到的差异网络模块进行特征选择，选择模块中能对疾病进行分类的基因。本实施例中使用的特征选择方法是递归特征消除(RFE)。

得到多个差异网络模块之后，使用机器学习的方法检测差异网络模块对疾病的分类能力，若分类效果无差别，再对每个模块进行特征选择来减少每个差异网络模块的规模，以期能够选择差异网络模块中少量更能对疾病进行分类的基因。本实施例由于较多模块内包含基因过多，对于疾病的分类效果不甚理想，因此对每个网络差异模块进行特征选择。使用的特征选择方法为递归特征消除(RFE)，RFE每次训练结束后去掉若干对响应变量而言权重较低的特征，再在新的特征的基础上进行新一轮的学习训练，直到剩余的特征数量满足要求的特征数量。RFE中的机器学习模型使用随机森林。

步骤8：用机器学习方法支持向量机(SVM)分类器来检测差异网络模块基因对疾病的分类效果，以筛选出分类效果较好的模块作为发现的生物标志物候选。

差异网络模块的基因极有可能是与肝细胞癌有关的生物标志物，我们选用支持向量机分类器来检测差异网络模块基因对疾病的分类效果，以筛选出分类效果较好的模块作为生物标志物候选。本实施例将GSE25097芯片基因表达数据作为训练集，将GSE14520、GSE22058和GSE63898三个数据集作为测试集，对训练集与测试集进行相同的归一化操作，每次训练后都对测试集中的每个样本进行单独测试，以模拟每个患者单独做检测的过程。测试完所有测试集样本后，利用预测值作出ROC曲线展示分类结果。ROC曲线以灵敏度作为纵坐标，以特异度作为横坐标，可用来评价一个分类器的优劣。曲线越靠近左上角表示分类器分类效果越好。曲线下面的面积称为AUC，大小一般在0.5到1之间，AUC值越大说明模型越好。将所有模块的ROC曲线和AUC值进行比较，即能得到分类效果最好的差异网络模块。

功能富集分析能使我们了解到差异网络模块中的基因在生物通路、细胞组分和分子功能上的具体作用。为了观察模块生物标志物的泛化能力，在GSE64041和GSE45436等基因表达数据，以及TCGA-LIHC中的mRNA数据上对分类效果最好的差异网络模块进行二次独立验证。验证过程同上。

基于上述癌症生物分子标志物筛选方法，本发明的另一实施例提供了一种癌症生物分子标志物筛选系统，包括：

数据获取与整合模块，获取基因间相互作用网络和基因芯片表达数据，整合得到基于基因表达数据的基因间相互作用网络；

疾病和对照网络生成模块，根据基于该基因芯片表达数据，分别计算基因间相互作用网络中每条边两端的基因在肿瘤组与对照组中的相关性，对该网络的边进行选择和删减，得到疾病状态和对照状态下特异的基因间相互作用网络；

网络拓扑参数差异网络产生模块，选定网络拓扑参数，计算得到疾病状态和对照状态两基因间相互作用网络之间的网络拓扑参数差异变化基因，从而基于网络参数差异变化显著的基因，从基因间相互作用网络中得到网络拓扑参数差异变化网络；

差异子网络模块挖掘模块，对网络拓扑参数差异变化网络进行网络子模块挖掘；

基于上述癌症生物分子标志物筛选方法，本发明的另一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的癌症生物分子标志物筛选方法。

基于上述癌症生物分子标志物筛选方法，本发明的另一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的癌症生物分子标志物筛选方法。

以上系统、电子设备和计算机可读存储介质中涉及的各步骤与方法实施例相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

实验结果与讨论

对所有46个网络拓扑参数进行层次聚类后可大致聚为十个子类，聚类结果的每个子类中，网络拓扑参数都存在较强的相关性，表现出相同或类似的网络拓扑结构。提取皮尔逊相关性绝对值大于0.8的拓扑参数对构建网络，发现网络成簇情况与分层聚类十分接近。综合考查每个拓扑参数与标记的互信息、拓扑参数聚类和网络特性，我们最终选择了22个网络拓扑参数。

TUMOR-GGI网络和NONTUMOR-GGI网络分别包含7837个基因和32352条边，8423个基因和40064条边，两个网络中有7234个相同基因。

分别计算TUMOR-GGI网络和NONTUMOR-GGI网络的22个网络拓扑参数，其中foldchange大于2并且p_value<＝0.01的共有1264个基因。这些基因即为筛选得到的网络参数差异基因，是两个网络中网络拓扑参数差异较大的节点基因，反映了基因在疾病与健康两个状态下基因网络拓扑结构上的重连。将网络参数差异基因映射到HCC-GGI网络后，抽离出一个网络参数差异基因构建的紧密网络，称为DNP-GGI网络，包含971个基因和1956条边。

对DNP-GGI网络进行网络模块挖掘之后，可得58个网络模块，其中基因数目超过十个的有20个模块，共880个基因，称为MOD-GENE(Module Gene)。其中绝大多数网络模块在连接上较为密集，具有显而易见的成簇现象，还有些网络模块遍布在整个DNP-GGI网络中，分布较为分散但占据网络主要的脉络。对20个子网络模块，分别用递归特征消除(RFE)进行特征挑选，进一步挑选出的关键基因，称为RFE-GENE。每个差异网络模块的基因数目如表2所示。

表2 20个差异网络模块在RFE特征选择前后包含的基因数目，MOD-GENE(前)，RFE-GENE(后)

使用支持向量机分类器分别对20个差异网络模块的RFE-GENE进行训练和分类，得到ROC曲线和AUC值。多数模块在一个或两个数据集中有较好的ROC曲线和较高的AUC值，其中模块三在三个数据集中都有高于0.9的AUC值，平均AUC也达到0.98，说明模块三有较强的分类能力，可能能够作为HCC生物标志物模块，因此我们选择模块三中的33个基因作为本文最终的潜在HCC生物标志物。

对33个潜在HCC生物标志物基因进行GO功能富集分析。GO富集结果如表3所示。GO富集条目聚集在糖胺聚糖、氨基聚糖分解代谢与合成过程，白细胞、T细胞、淋巴细胞迁移过程的调节，炎症反应调节，类固醇、类维生素a、二萜类、萜类化合物、异戊二烯、二级醇、固醇代谢过程。这些生物过程都是与肝细胞癌紧密相关的。根据目前的研究，人肝癌细胞膜上表达的糖胺聚糖链在RANTES/CCL5通过CCR1对人肝癌细胞发挥趋化、迁移和侵袭作用的过程中发挥着重要的作用；类固醇激素受体的表达分析有助于更好地了解HCC的生物学特征；类维生素a与肝脏疾病之间存在关联，例如肝癌细胞系类维生素a活性的丧失、肝硬化和肝癌患者类维生素a储量的减少以及类维生素a信号的改变；二萜类与萜类化合物与肝癌之间可能存在一些相关性；而在肝癌发生发展过程中，机体会产生免疫反应，人体内的免疫细胞(包括白细胞、淋巴细胞、T细胞等)都会产生数量和状态的变化。

表3筛选出的33个潜在HCC生物标志物基因富集的GO生物过程功能条目

综合GO功能富集分析的结果与文献中关于发现的生物标记物基因的功能研究，我们可认为本文方法筛选出的潜在HCC生物标志物与肝癌的发生发展具有一定的关系，有作为肝癌生物标志物的可能。

为了验证筛选出的33个HCC生物标志物基因对于区分HCC疾病与对照样本的泛化能力，我们又选择了其它三个数据集进行二次验证，分别是GSE64041数据集中的60个癌症组织样本和相应的60个癌旁组织样本，GSE45436中的95个癌症组织样本和39个癌旁组织样本，以及TCGA-LIHC的来自377个病患的369个癌症组织样本和50个癌旁组织样本。

仍使用GSE25097基因表达芯片数据作为训练集来训练SVM分类器，以上三个数据集分别作为测试集进行分类评估，所有数据进行同样的归一化处理。在三个数据集中，得到的AUC值分别为0.95、0.96和0.90。同时在每个数据集中随机挑选50次33个随机基因进行分类验证，发现在三个数据集中随机基因得到的AUC均值都在0.5-0.6之间，上下波动方差在0.1-0.2之间。与本实验例挑选的33个潜在生物标志物基因得到的AUC相比具有较大差距。这进一步证明使用所提出方法的有效性，筛选出的33个基因有作为HCC生物标志物的可能性。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于网络拓扑参数的癌症生物分子标志物筛选方法，其特征在于，包括以下步骤：

获取基因间相互作用网络和基因芯片表达数据，整合得到基于基因表达数据的基因间相互作用网络；

根据基于该基因芯片表达数据，分别计算基因间相互作用网络中每条边两端的基因在肿瘤组与对照组中的相关性，对该网络的边进行选择和删减，得到疾病状态和对照状态下特异的基因间相互作用网络；

选定网络拓扑参数，计算得到疾病状态和对照状态两基因间相互作用网络之间的网络拓扑参数差异变化基因，从而基于网络参数差异变化显著的基因，从基因间相互作用网络中得到网络拓扑参数差异变化网络；

对网络拓扑参数差异变化网络进行网络子模块挖掘；

对得到的差异网络模块进行特征选择，得出各模块中对正常与疾病两个状态具有辨别性的基因；

2.如权利要求1所述的癌症生物分子标志物筛选方法，其特征在于，对于获取的基因芯片表达数据，还执行以下处理：

采用RMA算法将芯片杂交信号转为基因表达数据；

将人类基因ID匹配芯片探针名，当同个基因ID对应多个探针时，保留四分位距值最大的探针数据。

3.如权利要求1所述的癌症生物分子标志物筛选方法，其特征在于，疾病状态和对照状态基因间相互作用网络获取包括：

根据基因表达数据，分别计算基因间相互作用网络的每一条边两端的基因在肿瘤组与对照组中的皮尔逊相关系数；

删除相关系数小于设定阈值的边，得到疾病状态和对照状态基因间相互作用网络。

4.如权利要求1所述的癌症生物分子标志物筛选方法，其特征在于，筛选网络拓扑参数包括：

针对基于基因表达数据的基因间相互作用网络计算出网络拓扑参数，并对网络拓扑参数进行层次聚类；

分别提取疾病状态和对照状态基因间相互作用网络的最大连通子网络；

计算这两个最大连通网络的网络拓扑参数，并标记这些网络拓扑参数为疾病状态或对照状态；

分别计算每个网络拓扑参数与标签之间的互信息；

根据层次聚类结果和互信息的值，挑选出部分与表型相关的网络拓扑参数。

5.如权利要求1所述的癌症生物分子标志物筛选方法，其特征在于，对得到的差异网络模块进行特征选择包括：

对疾病状态和对照状态基因间相互作用网络的共同基因用差异倍数进行第一次挑选；

将挑选出的基因在肿瘤组与对照组的网络拓扑参数值作为一个配对观察进行假设检验。

6.如权利要求5所述的癌症生物分子标志物筛选方法，其特征在于，网络拓扑参数差异基因模块采用递归特征消除法进行分析。

7.如权利要求1所述的癌症生物分子标志物筛选方法，其特征在于，基于支持向量机分类器来检测差异网络模块基因对正常与疾病的分类效果，将所有模块通过支持向量机分类器得到的ROC曲线和AUC值进行比较，比较分类效果。

8.一种基于网络拓扑参数的癌症生物分子标志物筛选系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的癌症生物分子标志物筛选方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的癌症生物分子标志物筛选方法。