CN109841281A

CN109841281A - 基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法

Info

Publication number: CN109841281A
Application number: CN201711223597.6A
Authority: CN
Inventors: 赵杰; 李砺锋; 张超奇; 薛文华; 翟运开; 范智蕊; 张腾飞; 丁显飞; 宋晓琴; 沈志博; 马丙钧; 朱子家; 梁淑红
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2019-06-04
Anticipated expiration: 2037-11-29
Also published as: CN109841281B

Abstract

本发明属于肺腺癌预测技术领域，具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其包括数据重塑及分组、数据标准化、phase特异性基因提取、基因共表达相关性分析、无监督聚类分析、特异性和非特异性共表达网络分析、功能通路富集、显著变异通路识别、REE算法筛选早筛标识基因、基于早筛风险基因建立分类模型和生存分析验证等步骤。本发明方法可以实现对肺癌的早期诊断，同时识别出伴随肺癌进展而显著发生动态变化的基因标识。

Description

基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法

技术领域

本发明属于肺腺癌预测技术领域，具体涉及一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法。

背景技术

肺腺癌(lung adenocarcinoma)是肺癌的一种，属于非小细胞癌。不同于鳞状细胞肺癌，肺腺癌较容易发生于女性及不抽烟者。起源于支气管粘膜上皮，少数起源于大支气管的粘液腺。发病率比鳞癌和未分化癌低，发病年龄较小，女性相对多见。多数腺癌起源于较小的支气管，为周围型肺癌。早期一般没有明显的临床症状，往往在胸部X线检查时被发现。表现为圆形或椭圆形肿块，一般生长较慢，但有时早期即发生血行转移，淋巴转移则发生较晚。

对于肺腺癌的诊断检查，临床上常用的方法有以下几种：X线检查、支气管镜检查、放射性核素检查、细胞学检查、剖胸探查术、ECT检查、纵隔镜检查。但是上述诊断方法均不能满足对肺腺癌早期诊断的这种要求。

发明内容

本发明主要提供了一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，可以实现对肺癌的早期诊断，同时识别出伴随肺癌进展而显著发生动态变化的基因标识。其技术方案如下：

一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，包括以下步骤：

(1)数据重塑及分组：首先对肺癌数据根据样本临床信息进行分组，每个样本临床分级信息分为phaseI、phaseII、phaseIII、phaseIV四组；

(2)数据标准化：对数据进行标准化预处理，对于缺失值大于10％的基因和样本进行剔除，其余存在缺失值的样本用对应基因在其他样本中的均值进行替换，以正常对照control组作为对照组，计算每个基因在对照组中的均值和标准差，然后对所有样本实现Z-score标准化，基因在对照组中的表达服从均值为0，方差为1的标准正态分布，因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异，则基因i的表达值应服从正态分布，否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异，这种差异表达基因可能成为肺腺癌早期诊断的标志物；

(3)phase特异性基因提取：利用变异系数来评估基因在肺腺癌样本中的波动情况，变异系数通过公式1计算，

其中，mean为基因在所有肺腺癌样本中的表达均值，sd为对应的标准差，CV越大说明基因正向波动越显著，CV越小说明基因负向波动越显著，根据变异系数在所有基因中的分布，只筛选出变异系数在双尾25％的基因作为可能和肺腺癌相关的基因，剩下的50％基因则由于在0附近存在较小的波动，因此可以认为和肺腺癌不相关，为了识别在肺腺癌早期即发生差异表达的基因，利用limma算法对于基因在control组和early phase患者中的表达情况进行显著性评估，显著性阈值为0.05且|logfc|>1，识别出的早期肺腺癌相关基因标记为Δ0，同样的，为了识别出在中晚期发生差异表达的基因，对control组和late phase的肺腺癌样本进行比较分析，识别出中晚期肺腺癌相关基因标记为Δ1，而早期风险基因与中晚期风险基因的交集，则称为既能实现早期诊断肺腺癌的特征，又是伴随肺腺癌进展的重要临床指标，标记为Δ2；

(4)基因共表达相关性分析：考察了在control，early phase，late phase三个状态下，早期风险基因Δ0和中晚期风险基因Δ1，以及交集基因Δ2的表达相关性，采用pearson相关系数，大于0.5的认为是正相关，低于-0.5的认为是负相关；

(5)无监督聚类分析：用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵，并利用层次聚类法实现对样本和基因的无监督聚类；

(6)特异性和非特异性共表达网络分析：利用基因在control group、earlyphase、late phase三个阶段的共表达模式进行特异性网络构建，同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络；

(7)功能通路富集：利用交集基因Δ2进行功能富集分析，分析方法采用Fisher精确检验，获得的显著通路则为这些交集基因参与调控的功能；

(8)显著变异通路识别：假设我们利用交集基因通过富集共获得N个通路，首先识别每个通路基因库中差异表达的基因，利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重，通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P)，计算公式如下公式3所示：

计算过程中，首先将差异表达的基因Z值从大到小排序，Z值越大，基因的差异表达程度越高，假设通路P中包含k个差异表达基因，然后迭代的选取2个基因，3个基因….k个基因计算Z score均值，当迭代到第t步时(1<t<k)，计算t个基因的Z score均值为最大值，则对应的t个基因对于通路P的贡献最大，计算出通路P在疾病状态下的偏差得分A(P)；

(9)REE算法筛选早筛标识基因：利用recursive feature elimination(RFE)算法对基因进行特征选择，最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型；

(10)基于早筛风险基因建立分类模型：利用有监督分类算法支持向量机(SVM)构建诊断分类模型，模型初始化参数包括核函数采用rbf非线性核，gamma为0，其他参数均采用默认参数，结合gridsearch进行参数优化，求解最优参数组合，并用五倍交叉验证绘制ROC曲线，评价模型分类效能；

(11)生存分析验证：从TCGA数据库下载肺腺癌样本作为独立验证数据，并利用coxregression分析风险基因与肺腺癌样本overall survival整体生存期的相关性。

优选的，步骤(1)中数据分组时，从GEO数据库下载的GSE20189原始下载数据包括22277个基因和162个样本，经过和临床信息比较，control对照组样本81个，early phase即phase I患者28个，late phase即中晚期phase II－phase IV患者53个。

优选的，步骤(3)中根据limma算法识别出866个early phase相关差异表达基因，其中136个上调基因，730个下调基因，识别出913late phase相关差异表达基因，其中419个上调基因，494个下调基因，由此可知，在肺腺癌早期阶段下调基因占优势，而随着疾病进展，在中晚期阶段则体现出上调基因占优势，提示了随着肺腺癌进展，越来越多的基因发生上调高表达。

优选的，经步骤(4)基因共表达相关性分析后，发现从正常状态到早期和晚期三个阶段中有164个交集基因均体现出差异性。

优选的，步骤(6)中，网络构建用cytoscape软件实现，并利用network analysis插件进行网络拓扑性质分析，正常样本特异性网络体现了基因之间的固有互作关系，早期肺癌特异性网络体现了进入疾病初期基因之间共表达关系的异常，中晚期特异性网络体现了随着疾病进展，更多的基因关联发生变异，整个网络拓扑性质发生显著差异，利用交集基因Δ2构建非特异性网络，并进行拓扑性质分析，最后利用基因节点在网络中的degree度分布来评价基因的重要性，度越高，说明基因发生异常表达时影响的周围临近基因越多，所有交集基因的度均通过公式2的sigmoid函数转换为0-1的权重，不在网络中的基因权重默认为最小值，

优选的，步骤(8)中进行显著变异通路识别时，为了消除通路本身大小的影响，对A(P)打分进行校正，校正方法采用随机扰动原理，随机扰动过程如下：对于通路P，假设通路中包含K个蛋白，利用K个蛋白的P值利用逆累计分布函数转换为Z值，然后计算出A(P)，之后随机从通路P中提取K个蛋白，并重新计算一个A(P)’，以上过程重复10000次，获得随机背景分布，根据随机背景分布数据计算均值μ和标准差α，从而根据公式4计算校正后的A_corrected(P)，最后再通过CDF(cumulative distribution function)累计分布函数转换为P值，所有的P值均经过BH法FDR校正，选择显著性P值小于0.05的通路作为显著和表型相关的通路，

优选的，步骤(9)中利用recursive feature elimination算法对198个共享基因进行特征提取，最后筛选出12个基因作为诊断标识。

优选的，步骤(11)中将识别的12个标识基因发生异常表达的样本设为高风险组，未发生明显差异表达的样本设为低风险组，结合cox regression，显著性p值为0.03，说明两组样本在生存水平上存在显著差异。

采用上述方案，本发明具有以下优点：

(1)本发明方法比较了早期和中晚期不同肺癌阶段基因之间共表达相关性的变化，同时构建了这些基因之间的共表达相似性网络，从系统的角度比较了随着肺癌进展，由基因互作组成的细胞内环境发生了怎样的动态变化；

(2)研究中采用机器学习算法实现对biomarker的筛选，并建立诊断预测模型。由于研究中考虑的是基因的表达水平，因此在临床上可通过采集患者外周血通过检测试剂盒的形式检测受试者12个对应诊断标识的表达情况，从而模型实现自动分类预测，使得实现未来无创诊断，制定个性化治疗方案成为可能；

(3)文章中研究了基因之间的共表达相关性，但基因之间存在其他更复杂的互作类型，包括物理互作，遗传互作，基因融合等，这些不同类型的互作关系是否同样伴随肺癌进展发生动态变化，如果有，也许可以解释共表达相关性动态变化的生物学原理；

(4)通过对功能偏差水平的量化分析，证实了这些功能在不同肺癌分组中存在显著差异，那么通过定期监测患者对应的功能水平，或许可以实现对肺癌患者的动态监控，提前预测患者的疾病进展，甚至对预后进行评估；

(5)文章中建立诊断分类模型，但所用特征均为基因表达特征，如果可以结合其他诊断指标，如影像学资料，患者表征信息等，使提高无创检测的精度成为可能。

附图说明

图1为差异表达基因在早期和晚期肺腺癌中的分布图；

图2为早期和晚期交集基因图；

图3为164个基因在三个阶段共表达状态图；

图4为164个基因对三个阶段样本的聚类分析图；

图5为基因的特异性和非特异性共表达网络图；

图6为四个网络的拓扑性质分析图；

图7为早期基因功能富集分析图；

图8为晚期基因功能富集分析图；

图9为交集基因功能富集分析图；

图10为六个功能水平异常的通路功能动态变化图；

图11为其余六个功能水平异常的通路功能动态变化图；

图12为图10中六个通路在四个阶段均值分布箱形图；

图13为图11中六个通路在四个阶段均值分布箱形图；

图14为recursive feature elimination算法对198个基因进行优化的过程图；

图15为评估模型分类效能的ROC曲线图；

图16为标识基因的生存分析验证图。

具体实施方式

以下实施例中的实验方法如无特殊规定，均为常规方法，所涉及的实验试剂及材料如无特殊规定均为常规生化试剂和材料。

1.数据重塑并分组

我们首先对肺癌数据根据样本临床信息进行分组，每个样本临床分级信息，即phaseI,phaseII,phaseIII,phaseIV。根据样本分组，我们实现了将数据分为四部分，可以认为肺癌恶性程度随phase增加而发生近似线性增加。从GEO数据库下载的GSE20189原始下载数据包括22277个基因和162个样本。经过和临床信息比较，control对照组样本81个(标记为control)，早期phase I患者28个(标记为early phase)，中晚期phase II－phase IV患者53个(标记为late phase)。

2.数据标准化

首先对于数据进行标准化预处理，对于缺失值大于10％的基因和样本进行剔除，其余存在缺失值的样本用对应基因在其他样本中的均值进行替换。我们以正常对照control组作为对照组，计算每个基因在对照组中的均值和标准差，然后对所有样本实现Z-score标准化，基因在对照组中的表达服从均值为0，方差为1的标准正态分布。因此若基因i在正常健康样本以及早期或中晚期的肺腺癌样本中不存在差异，则基因i的表达值应服从正态分布，否则认为基因i在早期或中晚期肺癌样本中相对于健康人群存在明显差异，这种差异表达基因很可能成为肺腺癌早期诊断的标志物。

3.phase特异性基因提取

在进化过程中，大部分基因作为保守基因，并不会在疾病信号刺激下发生明显的差异表达，只有少数基因受到疾病刺激发生异常。可以假设如果基因和肺腺癌显著相关，那么应该早期或中晚期中体现出差异表达。因此我们利用变异系数(Coefficient ofVariation)来评估基因在肺腺癌样本中的波动情况。变异系数可以通过公式1计算。

mean为基因在所有肺腺癌样本中的表达均值，sd为对应的标准差。CV越大说明基因正向波动越显著，CV越小说明基因负向波动越显著。根据变异系数在所有基因中的分布，我们只筛选出变异系数在双尾25％的基因作为可能和肺腺癌相关的基因，而剩下的50％基因则由于在0附近存在较小的波动，因此可以认为和肺腺癌不相关。为了识别在肺腺癌早期即发生差异表达的基因，我们利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估，显著性阈值为0.05且|logfc|>1，识别出的早期肺腺癌相关基因标记为Δ0。同样的，为了识别出在中晚期发生差异表达的基因，我们对control组和latephase的肺腺癌样本进行比较分析，识别出中晚期肺腺癌相关基因标记为Δ1。而早期风险基因与中晚期风险基因的交集，则称为既能实现早期诊断肺腺癌的特征，又是伴随肺腺癌进展的重要临床指标，标记为Δ2。

利用早期early phase的肺腺癌样本和中晚期late phase肺腺癌样本与健康人群control组比较。根据limma算法识别出866个early phase相关差异表达基因，其中136个上调基因，730个下调基因；识别出913late phase相关差异表达基因，其中419个上调基因，494个下调基因。

两组差异表达基因在p值和logfc水平上的的分布情况如图1所示。图1中横轴为logfc，纵轴为以10为底经负对数转换后的p值。左图为early phase肺癌相关基因的分布，右图为late phase肺癌相关基因的分布。下调基因为图中左边深色三角点标记，上调基因为图中右边深色圆点标记。从图中可以观察出在早期阶段下调基因占优势，而随着疾病进展，在中晚期阶段则体现出上调基因占优势。提示了随着肺腺癌进展，越来越多的基因发生上调高表达。

early phase和late phase交集基因如图2所示。图2中早期上调，下调基因，晚期上调，下调基因用四种深度不同的颜色标记。我们发现早期和晚期肺癌相关基因中有108个共享的下调基因，以及90个共享的上调基因。说明这198个基因的表达水平在早期和晚期肺癌患者中均存在差异。在肺腺癌恶性进展过程中，这198个基因呈现出动态变化的表达趋势。一方面这种伴随疾病动态变化的表达模式可以作为临床指标来实现早期诊断，另一方面这些基因所调控的功能也很可能与癌症进展有关。

4.基因共表达相关性分析

由于在肺腺癌患者从健康状态转变为早期肺癌状态，在进展到中晚期状态的过程中，基因之间的相互作用随即发生变化，在生物学角度上，两个相互关联的基因在非疾病状态下有共同的生物学作用，相互协同或互作，在表达层面上，体现为共表达关系。然而在疾病状态下，基因的功能发生异常，这种共表达关系随之发生改变。因此我们考察了在control，early phase，late phase三个状态下，早期风险基因Δ0和中晚期风险基因Δ1，以及交集基因Δ2的表达相关性，采用pearson相关系数，大于0.5的认为是正相关，低于-0.5的认为是负相关。若一对基因在正常对照组中存在固有共表达相关性，在进入肺腺癌早期阶段或中晚期阶段后消失，则提示了这对基因的关联作用发生异常，而受到这对基因协同调节的下游功能很可能发生功能水平的变异；反之，若一对在正常样本中固有表达水平非相关的基因，在进入某个肺腺癌早期或中晚期阶段后体现出共表达相关性，那么就提示了这对基因原本分属两条并行通路，在肺癌进展过程中，其中一条通路功能失调，因此另一条通路作为补偿通路被启动，因而体现出了新的基因共表达关系。在早期和中晚期均体现出稳定共表达关系的基因则是那些伴随疾病进展始终维持关联的基因。因此识别出这些不同模式的共表达基因关系，对于解释肺腺癌进展的病理机制以及识别早期诊断标识具有重要意义。

具有功能一致性的基因往往体现出显著的共表达相关性。这种表达层面的相关性可以分为以下几种情况：协同作用，两个基因彼此刺激，当一个基因启动后会激活另一个基因，两个基因同步表达，强化了其参与调控的功能水平，在表达层面呈现出正相关；拮抗作用，两个基因彼此抑制或反馈，当一个基因激活后会抑制另一个基因的表达，通过反馈调节，使功能水平处于平衡状态。当这种反馈抑制消失，则功能失控，在表达层面体现出负相关；补偿作用：两个基因并行调控同一功能，通常情况下只有一个基因处于激活状态，只有当这个基因被阻断或抑制，另一个基因才被启动，代偿性的调控下游功能，表达层面体现出正相关。除了基因之间的interaction以外，基因之间的共表达相关性还受到其他小分子调控作用的影响，比如micRNA,ceRNA等。在癌症研究中，这种基因之间的共表达相关性则更为重要，因为基因之间的相关性会随着癌症进展而发生动态变化，这种动态变化一方面为癌症进展的病理机制提供依据，另一方面也是动态监控患者状态的重要特征。我们利用在早期和晚期肺癌中均稳定发生差异表达的交集基因在内部计算任意两个基因之间的相关系数。

表格1三个阶段的相关基因对数目

注：第一列为三个阶段以及三个阶段的交集；2-4列分别对应正相关，负相关，以及相关基因对总数。

表1中统计了早期和晚期特异基因中存在相关性的基因个数。大部分相关基因都呈现正相关，少数基因为负相关。同时我们发现从健康状态过渡到早期肺癌，在进展到晚期肺癌，过程中存在3015个交集的gene pairs。这些gene pair稳定的伴随肺癌发生和进展体现出表达相关性。3015个基因对涉及到164个基因，我们分别考察这164基因在三个阶段的共表达状态。

图3为164基因在三个阶段的共表达相关性。图3中每个色块对应两个基因的相关系数，接近左上和右下的深色区域代表正相关，接近右上和左下的浅色区域代表负相关。可以观察出交集的164个基因在3个阶段中体现出显著差异的表达模式。大部分基因之间仍以正相关为主，但任意两基因之间相关性的程度以及类型，则在不同阶段中并不一致。这一结果再次提示了，两基因之间的共表达相关性伴随肺腺癌进展而发生变化。

5.无监督聚类分析

用相关性分析构建早期风险基因和中晚期风险基因的交集基因Δ2之间的相关系数矩阵，并利用层次聚类法实现对样本和基因的无监督聚类。从无监督聚类的结果上，一方面可以验证在不同肺癌阶段中均体现差异表达的交集基因Δ2对于正常样本和肺腺癌样本的区分效果，另一方面可以观察出交集基因Δ2在不同肺癌阶段中的表达模式区别。例如在早期中一组基因高表达，而在中晚期中则转化为低表达，这种表达模式的转换也标志着在疾病进展过程中受这些基因调控的功能水平发生转换。聚类结果利用heatmap热图可视化。

由于从正常状态到早期和晚期三个阶段中164个交集基因均体现出差异性，是监控疾病进展的重要特征，因此我们利用交集的164个基因对三个阶段样本进行聚类分析。利用Pearson相关系数构建相关性矩阵，聚类方法采用层次聚类法，我们对所有样本实现无监督聚类分析，来考察这些基因对不同phase样本的区分效能。结果如图4所示。

图4中横轴为样本，纵轴为基因，我们用三种深度不同颜色来标记三个阶段的样本，白色为control组，深灰色为early phase组，浅灰色为late phase组。用浅色色块和深色色块来代表基因的表达模式，深色色块代表低表达，浅色色块代表高表达。可以直观的看出几乎所有的肺腺癌样本都被聚类在一起，而健康对照组的样本被聚类在一起，因此我们可以得出结论，基于164个交集基因可以有效区分正常对照样本和肺腺癌样本，但早期和中晚期的癌症样本混在一起不易区分。同时也发现在从正常状态转化为肿瘤状态的过程中，基因的表达模式发生明显变化。原本在对照组中体现高表达的基因在肺癌样本中变成低表达；反之亦然。同时我们还发现有一定比例的肺腺癌样本并没有和其他癌症样本聚类在一起，而是混在对照样本中。这说明在临床上，有些样本尽管被定义为肺癌患者，但是其分子水平仍和健康对照样本比较接近，这些样本有极大的可能可以得到更好的预后。

6.特异性和非特异性共表达网络分析

由于在疾病不同状态下，基因表达之间的相关性也不同，因此从系统网络的角度上来说，每个疾病分级所特异的系统网络，应该也会体现出显著差异的网络特征。我们基于风险基因之间的共表达关系构建正常状态，早期肺癌，中晚期肺癌三个状态下的特异网络，若两个基因存在共表达关系，则基因之间有边。由于在不同疾病状态下，基于基因共表达关系所构建的共表达网络，体现出显著不同的拓扑性质，提示了在不同恶性分级中，系统网络的信号传递效率显著不同，因此我们从6个描述网络连通性的拓扑性质来进行分析，分别是ASLP(平均最短路径)、Closeness Centrality(接近中心性)、Cluster Coefficient(聚类系数)、degree(度分布)。如果网络的边发生了缺失，即基因之间的共表达关系消失，则网络的平均最短路径增加，度，聚类系数，接近中心性减少，网络信号传递效能下降。

正常样本特异性网络体现了基因之间的固有互作关系；早期肺癌特异性网络体现了进入疾病初期基因之间共表达关系的异常；中晚期特异性网络体现了随着疾病进展，更多的基因关联发生变异，整个网络拓扑性质发生显著差异。因此不同状态下网络拓扑性质的改变提示了肺癌进展过程中可能发生的基因互作关系的变异，例如共表达关系的缺失。另一方面，交集基因Δ2由于在早期肺癌和中晚期肺癌中均稳定的发生差异，这些基因可以被认为是伴随肺癌进展始终体现差异表达。因此对于肺癌早期或中晚期，都有重要的临床监控和诊断意义。我们利用交集基因Δ2构建非特异性网络，并进行拓扑性质分析。

最后我们利用基因节点在网络中的degree度分布来评价基因的重要性，度越高，说明基因发生异常表达时影响的周围临近基因越多。所有交集基因的度均通过公式2的sigmoid函数转换为0-1的权重，不在网络中的基因权重默认为最小值。

我们分别利用基因在control group,early phase,late phase三个阶段的共表达模式进行特异性网络构建。同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络。网络中基因为节点，共表达相关性为边，若两个基因正相关，则边为红色，若为负相关，则边为绿色。网络构建用cytoscape软件实现，并利用network analysis插件进行网络拓扑性质分析。

图5为特异性和非特异性的共表达网络图。从A到D分别对应control specific,early phase specific,late phase specific,non specific网络。节点颜色越接近浅色，代表节点在网络中的度越低，节点颜色越接近深色，节点度越高。节点之间的边代表相关系数，相关性越强，边越粗。Control specific network包含93个节点，949条边；early phasespecific network包含64个节点，1443条边；late phase specific network包含89个节点，1393条边；nonspecific network包含164个节点，4949条边。可以清晰的观察到在每个网络中，有些基因聚集成簇。每个簇内的基因之间都体现出显著的共表达相关性，提示了这个簇内的基因可能具有功能一致性。我们利用network analysis插件对四个网络分别进行拓扑性质分析，结果如图6所示。

图6中展示了4个网络拓扑性质的分析，包括平均最短路径，节点度分布，接近中心性，聚类系数。平均最短路径衡量了一个基因到达网络中其他节点最短路径的平均状态，因此平均最短路径越短，说明网络越收敛，信号传递效率越高。度分布衡量了网络中一个基因相连临近节点的个数，度越高，说明基因可以影响的临近节点越多，信号传递效率越高。接近中心性(Closeness Centrality)，反映在网络中某一节点与其他节点之间的接近程度，接近中心性越小，网络收缩性越强，基因之间的距离越紧密。聚类系数是表示一个图形中相邻节点形成完全图的能力，聚类系数高，网络中可能存在连通分支等子模块。

从图6中可以分析出，三个特异性网络中肺腺癌early phase的变化最明显，体现在平均最短路径缩短，平均度增加，聚类系数和接近中心性均增加。这一系列网络拓扑特征说明在肺癌早期疾病信号刺激下，患者体内产生明显的应激反应来抵抗和代偿异常的分子功能。癌症早期阶段特异网络明显发生收缩，从而降低平均最短路径，增加聚类系数和接近中心性，整体上提高了网络信号传递的效能。然而随着肺癌进一步进展，发展到中晚期，这种早期的应激反应消失或不足以代偿功能异常，并体现为网络效能逐渐下降。非特异性网络的平均效能介于正常和疾病状态之间，同时由于非特异性网络中的节点和边更多，因此度分布相对更离散。

7.功能通路富集

为了从功能层面进一步分析不同疾病状态下特异的基因所参与的生物学功能，我们利用交集基因Δ2进行功能富集分析，分析方法采用Fisher精确检验，获得的显著通路则为这些交集基因参与调控的功能，由于这些基因在早期和中晚期肺癌中均体现出差异表达，同时具有共表达相关性的基因倾向于参与相同的生物学功能，因此我们推测，这些通路在肺癌早期和中晚期中都体现出功能异常，同时这些在不同阶段下存在功能水平异常的通路，则可以用于解释疾病进展的机制，同时这些通路可能包含了潜在的药物靶点或诊断标记物。

利用early phase,late phase特异基因集以及交集基因进行功能富集分析。分析方法采用Fisher精确检验，显著性阈值为p<0.05。我们统计了每个stage涉及到的通路所对应的显著性p值以及富集到对应通路中的基因个数，结果如图7-9所示。图7-9中A-C分别对应early phase specific genes,late phase specific genes,overlapped genes的通路富集结果。横轴为通路term，纵轴为负对数转换的p值。我们通过深蓝和浅蓝标记富集到通路中的基因个数。颜色越亮代表富集到通路中的基因越多，颜色越暗，说明富集的基因越少。通过观察发现，在early phase特异功能中涉及到的显著功能包括pathogenicEscherichia coli infection和ribosome biogenesis in eukaryotes。Late phase的特异功能集中在T/B cell receptor signaling pathway,carbon metabolism,Naturalkiller cell mediated cytotoxicity,Primary immunodeficiency和Primaryimmunodeficiency。交集基因集中在Primary immunodeficiency。功能富集分析提示了在肺腺癌从正常状态逐渐进展过程中，生物体内的免疫调控机制发生了显著变化。异常的免疫系统包括固有免疫，T/B淋巴细胞调控的特异性适应性免疫，natural killer调控的非特异性免疫，以及其他感染和炎症相关功能。这也进一步提示了免疫系统的异常是导致肺腺癌进展的重要诱因。同时结合网络拓扑性质在早期和晚期肺癌中的变化，我们推测在肺癌早期，集体免疫系统在应激反应过程中扮演重要角色。疾病初期启动固有免疫和适应性免疫来抵抗疾病信号导致的功能异常，因此系统网络的效能有短暂的升高。但随着疾病进展，免疫系统不足以代偿异常的功能。因此免疫系统的功能水平是决定肺腺癌进展风险的重要因素，也是早期诊断肺腺癌的重要标志。

8.显著变异通路识别

假设我们利用交集基因通过富集共获得N个通路。首先识别每个通路gene pool(基因库)中差异表达的基因，利用逆累积分布函数将ANOVA的P值转化为Z值并乘上基因的权重。通路P中差异表达的基因Z值由公式计算出通路的偏差得分A(P)。计算公式如下：

计算过程中，我们首先将差异表达的基因Z值从大到小排序，Z值越大，基因的差异表达程度越高。假设通路P中包含k个差异表达基因，然后迭代的选取2个基因，3个基因….k个基因计算Z score均值。当迭代到第t步时(1<t<k)，计算t个基因的Z score均值为最大值，则对应的t个基因对于通路P的贡献最大，我们计算出通路P在疾病状态下的偏差得分A(P)。

为了消除通路本身大小的影响，我们对A(P)打分进行校正，校正方法采用随机扰动原理。对于通路P，偏差得分A(P)，通过随机选取通路中k个基因集重新计算一个新的A(p),经过10000次随机过程后，我们统计出A(p)背景分布的均值μ和标准差，然后利用公式获得校正后A(P)，即A_corrected。

在计算通路P在疾病状态下偏差正常水平的打分时，需要考虑如下问题，第一，通路中差异表达的基因很多，但并不都对通路有明显影响，比如某些基因属于通路下游基因，这些基因的差异表达很可能是由于通路变化后，上游信号异常而引起的。相反，某些上游基因，重要的酶，转运蛋白等具有重要调控作用的基因，可能对于通路的影响更大。第二，不同通路的基因个数有显著差异，为了消除这种通路本身大小的影响，我们对打分进行随机扰动处理，随机扰动过程如下：

对于通路P，假设通路中包含K个蛋白，我们利用K个蛋白的P值利用逆累计分布函数转换为Z值，然后计算出A(P)，之后我们随机从通路P中提取K个蛋白，并重新计算一个A(P)’，以上过程重复10000次，获得随机背景分布，根据随机背景分布数据计算均值μ和标准差α，从而根据公式计算校正后的Acorrected(P)，最后再通过CDF(cumulativedistribution function)累计分布函数转换为P值，所有的P值均经过BH法FDR校正，选择显著性P值小于0.05的通路作为显著和表型相关的通路。

我们利用公式3对每个富集到的功能通路进行变异得分计算，为了考察这些功能水平的异常是否显著存在于正常组，早期肺癌，以及晚期肺癌内，我们对于每个通路在三组样本中的失衡得分进行方差分析校验。最后筛选出12个在方差分析中显著差异的功能，如表2所示：

表格2方差分析中功能差异

注：第一列为功能term，第二列为方差分析的显著性p值。

可以看出这12个通路在从健康人群过渡到肺癌患者过程中发生显著功能水平变异，p值小于0.05。

为了更直观的分析每个通路在三组样本中的失衡状态，我们利用散点图可视化12条通路的动态变化过程，如图10、11所示。图10、11中我们分别用深度不同的颜色来标记stage I-stageIV。根据通路在每个stage内的动态变化我们利用非參的线性拟合来观察其变化趋势。可以看出在stage i内通路变化不明显，并且在0附近波动；从stage ii开始通路产生明显的波动。

为了进一步明确每个通路在四个stage中失衡变异的方向，我们比较了每个通路在stage内的均值分布，通过boxplot可视化，如图12、13所示。

图12、13展示了12个通路在三组不同phase样本中的得分箱线图，图中分别展示了中值，置信区间。每一个箱图中，正常样本、早期肺癌、晚期肺癌样本分别由左至右依次表示。可以直观的看出，在大部分通路中，三组的得分线性变化，逐渐降低。提示了在肺癌进展过程中这些功能水平受到抑制，受到癌症侵袭状态下，免疫系统功能水平下降。而在Regulation.of.actin.cytoskeleton通路中则在早期肺癌先出现一个功能上调的趋势，而后随癌症进展，功能水平进一步下降。这有可能是在癌症刺激下机体的应激反应引起的。因此可以发现在肺癌早期，即发生了功能水平的异常，因此利用调控这些功能的基因作为诊断特征，可以实现对肺癌的早期诊断。

9.RFE算法筛选早筛标识基因

通过随机扰动识别出的显著功能通路在不同肺腺癌进展阶段中体现出功能水平的异常，进一步提示了参与调控这些功能通路的基因发挥了重要作用。在疾病信号刺激下，肺腺癌相关基因一方面自身发生表达水平上的差异，另一方面基因之间的共表达交互作用发生改变，进而影响下游功能通路的水平。这些参与调控的基因一方面可能成为潜在的肺癌治疗靶点，另一方面则会成为新的临床监控和诊断指标。为了准确识别最优的基因特征组合，我们利用recursive feature elimination(RFE)算法对基因进行特征选择，最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型。

我们发现利用early phase和late phase specific genes富集到的功能通路在肺癌早期和晚期相对于正常状态都发生了功能水平的变异。为了实现对肺癌的早期诊断，同时识别出伴随肺癌进展而显著发生动态变化的基因标识，我们利用recursive featureelimination算法对198个基因进行特征提取。最后筛选出12个基因作为诊断标识。

图14为rfe算法的优化过程，横轴为选择特征的个数，纵轴为对应的精度。当特征基因个数为12时，模型精度最高，因此我们最后利用这12个基因作为诊断标识训练模型。12个诊断标识基因分别为NUCB1、CKAP4、DSTN、SERTAD2、PRKAR2B、GMPR、ZNF91、COX20、KLF1、FNBP4、CEP350、TSPAN13。

10.基于早筛风险基因建立分类模型

为了利用筛选出的肺腺癌风险相关基因为特征区分正常样本，早期肺癌，以及中晚期肺癌样本，我们利用有监督分类算法支持向量机(SVM)构建诊断分类模型。模型初始化参数包括核函数采用rbf非线性核，gamma为0，其他参数均采用默认参数。结合gridsearch进行参数优化，求解最优参数组合，并用五倍交叉验证绘制ROC曲线，评价模型分类效能。

我们利用12个诊断标识基因作为特征，在每个样本中的表达值作为特征值，采用SVM支持向量机做分类模型。初始化，参数优化。初始化过程中我们设所有模型参数为默认参数，并在训练集中测试模型初始精度。参数优化过程利用了gridsearch算法，经过迭代寻找最优的参数组合。最后模型分类预测结果如下。

图15展示了通过ROC曲线评估模型分类效能。矩形框标志的曲线为未经优化的初始模型精度。菱形标志的曲线为经过特征选择和参数优化后模型的精度。三角形标志的曲线为采用五倍交叉验证法计算的平均精度。交叉验证的过程中每次随机打乱样本，取四份做训练，对一份预测，横轴为假阳性率，纵轴为真阳性率，最后模型的平均精度达到0.91。五倍交叉验证的平均精度和模型在训练集上优化的精度比较接近，说明模型没有发生明显过拟合。利用我们训练的预测模型可以实现对肺腺癌的早期预测，区分良恶性进展程度。同时从功能水平上分析既为研究肺腺癌进展的病理机制提供了新的思路，同时这些通路中的显著差异表达基因也可能成为新的诊断监控标志物或治疗靶点。

11.生存分析验证

为了进一步验证我们筛选的早期风险基因在临床上既可以实现对肺癌的早期诊断，又可以一定程度实现对患者预后的估计，从而对个性化治疗策略提供依据，我们从TCGA数据库下载肺腺癌样本作为独立验证数据，并利用cox regression分析风险基因与肺腺癌样本overall survival整体生存期的相关性。

我们从TCGA数据库下载肺腺癌样本作为独立数据进行生存分析验证。我们识别了12个标识基因，这些基因可以实现对早期肺癌患者的诊断预测，提示了这些基因在癌症早期受到疾病信号刺激发生明显变化。经过功能分析发现这些基因涉及固有免疫和适应性免疫系统，因此我们推测随着肺癌进展，患者免疫系统随之发生功能水平异常。为了考察这些基因是否通过干预患者免疫水平进而影响患者生存期预后，我们将这12个基因发生异常表达的样本设为高风险组，未发生明显差异表达的样本设为低风险组，结合cox regression，显著性p值为0.03，如图16所示，说明两组样本在生存水平上存在显著差异。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：包括以下步骤：

其中，mean为基因在所有肺腺癌样本中的表达均值，sd为对应的标准差，CV越大说明基因正向波动越显著，CV越小说明基因负向波动越显著，根据变异系数在所有基因中的分布，只筛选出变异系数在双尾25％的基因作为可能和肺腺癌相关的基因，剩下的50％基因则由于在0附近存在较小的波动，因此可以认为和肺腺癌不相关，为了识别在肺腺癌早期即发生差异表达的基因，利用limma算法对于基因在control组和earlyphase患者中的表达情况进行显著性评估，显著性阈值为0.05且|logfc|>1，识别出的早期肺腺癌相关基因标记为Δ0，同样的，为了识别出在中晚期发生差异表达的基因，对control组和late phase的肺腺癌样本进行比较分析，识别出中晚期肺腺癌相关基因标记为Δ1，而早期风险基因与中晚期风险基因的交集，则称为既能实现早期诊断肺腺癌的特征，又是伴随肺腺癌进展的重要临床指标，标记为Δ2；

(6)特异性和非特异性共表达网络分析：利用基因在control group、early phase、late phase三个阶段的共表达模式进行特异性网络构建，同时利用交集基因在所有样本中稳定的共表达关系构建非特异性网络；

(9)REE算法筛选早筛标识基因：利用recursive featureelimination(RFE)算法对基因进行特征选择，最后筛选出显著的肺癌风险相关基因用于训练诊断预测模型；

2.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(1)中数据分组时，从GEO数据库下载的GSE20189原始下载数据包括22277个基因和162个样本，经过和临床信息比较，control对照组样本81个，earlyphase即phase I患者28个，late phase即中晚期phase II－phase IV患者53个。

3.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(3)中根据limma算法识别出866个early phase相关差异表达基因，其中136个上调基因，730个下调基因，识别出913late phase相关差异表达基因，其中419个上调基因，494个下调基因，由此可知，在肺腺癌早期阶段下调基因占优势，而随着疾病进展，在中晚期阶段则体现出上调基因占优势，提示了随着肺腺癌进展，越来越多的基因发生上调高表达。

4.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：经步骤(4)基因共表达相关性分析后，发现从正常状态到早期和晚期三个阶段中有164个交集基因均体现出差异性。

5.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(6)中，网络构建用cytoscape软件实现，并利用networkanalysis插件进行网络拓扑性质分析，正常样本特异性网络体现了基因之间的固有互作关系，早期肺癌特异性网络体现了进入疾病初期基因之间共表达关系的异常，中晚期特异性网络体现了随着疾病进展，更多的基因关联发生变异，整个网络拓扑性质发生显著差异，利用交集基因Δ2构建非特异性网络，并进行拓扑性质分析，最后利用基因节点在网络中的degree度分布来评价基因的重要性，度越高，说明基因发生异常表达时影响的周围临近基因越多，所有交集基因的度均通过公式2的sigmoid函数转换为0-1的权重，不在网络中的基因权重默认为最小值，

6.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(8)中进行显著变异通路识别时，为了消除通路本身大小的影响，对A(P)打分进行校正，校正方法采用随机扰动原理，随机扰动过程如下：对于通路P，假设通路中包含K个蛋白，利用K个蛋白的P值利用逆累计分布函数转换为Z值，然后计算出A(P)，之后随机从通路P中提取K个蛋白，并重新计算一个A(P)’，以上过程重复10000次，获得随机背景分布，根据随机背景分布数据计算均值μ和标准差α，从而根据公式4计算校正后的A_corrected(P)，最后再通过CDF(cumulative distribution function)累计分布函数转换为P值，所有的P值均经过BH法FDR校正，选择显著性P值小于0.05的通路作为显著和表型相关的通路，

7.根据权利要求1所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(9)中利用recursivefeature elimination算法对198个共享基因进行特征提取，最后筛选出12个基因作为诊断标识，该12个诊断标识基因分别为NUCB1、CKAP4、DSTN、SERTAD2、PRKAR2B、GMPR、ZNF91、COX20、KLF1、FNBP4、CEP350、TSPAN13。

8.根据权利要求7所述的基于共表达相似性识别肺腺癌早期诊断标识及风险预测模型的构建方法，其特征在于：步骤(11)中将识别的12个标识基因发生异常表达的样本设为高风险组，未发生明显差异表达的样本设为低风险组，结合cox regression，显著性p值为0.03，说明两组样本在生存水平上存在显著差异。