CN113096810A

CN113096810A - 一种基于卷积神经网络的食管鳞癌患者生存风险预测方法

Info

Publication number: CN113096810A
Application number: CN202110473161.2A
Authority: CN
Inventors: 王妍; 朱传迁; 王延峰; 凌丹; 张桢桢; 孙军伟; 王英聪; 姜素霞; 王立东; 赵学科
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-07-09

Abstract

本发明提出了一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，其步骤为：首先，收集食管鳞癌患者的M种临床表型指标以及生存信息作为原始数据；其次，使用Kaplan‑Meier法及log‑rank法研究获得食管癌患者临床表型指标与生存期信息的关系；再利用单因素COX回归分析影响患者生存预后的临床表型指标；再通过Relief特征选择算法和Pearson相关性分析提取与患者生存风险相关性更强的临床表型指标；最后使用卷积神经网络利用相关性更强的临床表型指标构建食管鳞癌患者生存风险预测模型，进而判断患者预后生存风险的高低。本发明较为准确地预测食管鳞癌患者术后的生存状况，提高预后风险预测的能力，降低预后风险预测的成本。

Description

一种基于卷积神经网络的食管鳞癌患者生存风险预测方法

技术领域

本发明涉及癌症风险评估技术领域，特别是指一种基于卷积神经网络的食管鳞癌患者生存风险预测方法。

背景技术

食管癌是威胁全人类健康的主要恶性肿瘤之一，其发病率在全球恶性肿瘤中居第8位，死亡率居第6位，全世界每年死于食管癌的人数超过30万人，食管癌主要可分为食管腺癌和食管鳞癌。食管腺癌主要分布在以美国为主的欧美地区，食管鳞癌主要分布在以中国为主的亚洲地区。我国是全球食管癌高发地区之一，食管癌已成为了影响我国人民身体健康的重要疾病。

食管癌发病较为隐匿，早期症状不明显，临床发现的食管癌患者以中晚期患者居多，且患者的预后较差。根据相关统计，中晚期患者的5年整体生存率为15％-34％。目前，外科手术切除联合新辅助放疗和化疗是根治食管癌的首选及最有效的治疗手段。随着食管癌发病率逐渐升高，对癌症患者进行精准的预后预测逐渐成为研究的热点。利用食管鳞癌患者各类临床数据建模并对其进行预后预测能够帮助医生对患者进行更精准的诊断和治疗，对于食管癌患者的治疗有着积极重大的意义。

随着现代医学的不断发展，医疗数据不断增多，从这些信息数据中获取对研究有益的数据就变得非常重要。计算机辅助下的数据分析及建模技术越来越多的应用于癌症诊疗。疾病的风险评估模型是当前广泛应用的疾病高危人群评估工具。基于数据挖掘的智能诊疗是利用大量医学数据，通过相关算法进行数据的分析，构建疾病的风险评估模型。目前国内外已建立的食管鳞癌风险评估模型多以食管鳞癌发病风险预测模型为主，食管鳞癌预后风险评估模型较少且模型预测效果较差。食管鳞癌研究需要一种能够准确判断预后风险的方法。

发明内容

针对现有的背景技术中存在的不足，本发明提出了一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，解决了现有评估模型的预测效果差，不能帮助患者判断预后效果的技术问题。

本发明的技术方案是这样实现的：

一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，其步骤如下：

步骤一：获取食管鳞癌患者的M种临床表型指标、生存期信息和生存状态作为原始数据集；

步骤二：利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析，根据分析结果将M种临床表型指标分为有用临床表型指标和无用临床表型指标；

步骤三：利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析，得到了与步骤二相同的有用临床表型指标；

步骤四：根据各个有用临床表型指标和食管鳞癌患者的高低风险类别的相关性，采用Relief特征选择算法计算各个有用临床表型指标的权重值，并将权重值小于权重法阈值的临床表型指标移除，得到与食管鳞癌患者生存风险相关度高的临床表型指标；

步骤五：利用Pearson相关性分析法计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，剔除相关性强的临床表型指标，最终得到与食管鳞癌患者生存风险相关度更高的独立临床表型指标；

步骤六：使用卷积神经网络构建食管鳞癌患者生存风险预测模型，设置卷积神经网络结构参数，将步骤五中得到的独立临床表型指标作为卷积神经网络的输入，食管鳞癌患者风险等级作为卷积神经网络的输出，将食管鳞癌患者数据集分成训练集与测试集两部分，训练集用于食管鳞癌患者生存风险预测模型的训练，测试集用于评估食管鳞癌患者生存风险预测模型的优劣。

所述M种临床表型指标包括年龄、白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原、预后营养指数、身体质量指数和国际标准化比值；M＝18；

所述生存期信息是指生存时间，生存时间的范围为[0.26月，137.00月]；

所述生存状态是指截止到随访结束时患者健在或者患者死亡。

所述有用临床表型指标包括年龄、白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、活化部分凝血活酶时间、预后营养指数；无用临床表型指标包括淋巴细胞计数、血小板计数、身体质量指数、白蛋白、总蛋白和球蛋白。

采用Relief特征选择算法计算各个临床表型指标的权重值的方法为：

S4.1、从食管鳞癌患者的原始数据集中随机选择一个患者样本R，然后从与样本R风险类相同的样本中寻找最近邻样本H，称为Near Hit；

S4.2、从与样本R风险类不同的样本中寻找最近邻样本M，称为Near Miss；

S4.3、更新每个临床表型指标的权重值：如果样本R和Near Hit在某个特征上的距离小于样本R和Near Miss上的距离，降低该临床表型指标的权重；

S4.4、重复执行m次步骤S4.1至S4.3，得到各临床表型指标的平均权重。

所述与食管鳞癌患者生存风险相关度高的临床表型指标包括血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数和凝血酶原时间。

所述利用Pearson相关性分析法计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度的方法为：

计算每两个临床表型指标之间的Pearson相关系数：

其中，

是协方差，σ_x表示x的标准方差、σ_y表示y的标准方差，E(x)表示临床表型指标的均值，ρ_xy表示Pearson相关系数值，j＝1,2,…,N表示临床表型指标的个数，x、y分别表示不同的临床表型指标数值。

所述与食管鳞癌患者生存风险相关度更高的独立临床表型指标包括血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数和凝血酶原时间。

食管鳞癌患者生存风险预测模型的准确率计算方法为：

其中，Acc表示风险预测准确率，TP表示被正确地划分为高风险的个数，TN表示被错误地划分为高风险的个数，FN表示被错误地划分为低风险的个数，TN表示被正确地划分为低风险的个数。

与现有技术相比，本发明产生的有益效果为：本发明通过传统医学分析与Relief特征选择相结合，挑选出与患者生存状态有高相关的临床表型指标，然后使用卷积神经网络构建预后风险评估模型，合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测，帮助患者更好的判断预后效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的总体流程图；

图2本发明实施例提供的临床表型指标“白细胞计数”的Kaplan-Meier生存曲线分析图；

图3本发明实施例提供的临床表型指标Relief算法特征选择图；

图4本发明实施例提供的临床表型指标Pearson相关性分析图；

图5本发明实施例提供的卷积神经网络模型评价指标变化图；

图6本发明实施例提供的卷积神经网络模型测试集预测结果混淆矩阵图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，其步骤如下：

步骤一：获取食管鳞癌患者的M种临床表型指标、生存期信息和生存状态作为原始数据集；收集食管鳞癌患者的临床数据；临床数据来自郑州大学第一附属医院2007年至2018年的食管鳞癌手术的患者。病例选择标准为：患者确诊为食管鳞癌，治疗过程有完整的记录且患者术后随访时间至少6个月。最终得到2007年1月至2018年12月在郑州大学附属医院收治的食管鳞癌患者280例，其中男性患者173例(61.79％)，女性患者107例(38.21％)。患者的年龄分布为38岁至81岁，平均年龄为61.19岁，年龄数据的选择符合正态分布。数据为食管癌患者术前7天常规检查记录的临床表型指标表达量。

原始数据集包含280组样本数据，每组样本数据包括M种临床表型指标信息和生存期信息；所述M种临床表型指标的信息分别为年龄(Age)、白细胞计数(White Blood CellCount,WBCC)、淋巴细胞计数(Lymphocyte Count,LYC)、单核细胞计数(Monocyte Count,MOC)、中性粒细胞计数(Neutrophil Count,NEC)、红细胞计数(Erythrocyte Count,ERY)、血红蛋白浓度(Hemoglobin,HGB)、血小板计数(Thrombocyte Count,THC)、总蛋白(TotalProtein,TP)、白蛋白(Albumin,ALB)、球蛋白(Globulin,GLO)、凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、凝血酶时间(TT)、纤维蛋白原(FIB)、预后营养指数(PrognosisNutritional Index,PNI)、身体质量指数(BMI)、国际标准化比值(INR)。其中，M＝18；所述生存期信息是指生存时间，生存期的范围为[0.26月，137.00月]；生存状态是指截止到随访结束时患者的健在或者死亡的状态。

步骤二：利用Kaplan-Meier法和log-rank法分别对M种临床表型指标与生存期信息和生存状态进行关系分析，根据分析结果将M种临床表型指标分为有用临床表型指标和无用临床表型指标；所述有用临床表型指标包括年龄、白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、活化部分凝血活酶时间、预后营养指数；无用临床表型指标包括淋巴细胞计数、血小板计数、身体质量指数、白蛋白、总蛋白和球蛋白。

S2.1、根据X-tile软件分别计算每种临床表型指标的最佳临界值，并根据每种临床表型指标对应的最佳临界值将临床表型指标划分为高指标组和低指标组；然后将连续数值型临床表型指标进行二分类，分析血液指标与患者生存预后的相关性。根据X-tile软件计算出血液指标预测总生存期的最佳临界值如表1所示。并按照临界值，将每种连续数值型临床表型指标分为两组，即高指标组和低指标组，便于下一步的研究分析。高值指标组、低值指标组为定性划分，高指标组记为”1”，低指标组记为”0”。

表1最佳截断点数值表

使用X-tile软件计算出血液指标预测总生存期的最佳临界值的操作流程如下：

S2.1.1、新建文本文档，将原始数据集中的生存状态、生存期及第m种临床表型指标复制到文本文档中，其中，m＝1,2,…,M；

S2.1.2、打开X-tile软件点击Analyze，在“file”目录中选择“open”，选择打开步骤S21中已导入数据的文本文档；

S2.1.3、进行分析设置，选择“生存状态”数据，点击“Censor”下侧的“Load”，将“生存状态”数据导入“Censor”中，并将“input type”改为“AliveDead”；

S2.1.4、选择“生存期”数据，点击“Survival Time”下侧的“Load”，将“生存期”数据导入“Survival Time”中，并将“intertype”改为“Months”；

S2.1.5、选择“第m种临床表型指标”数据，点击“Marker1”下侧的“Load”，将“第m种临床表型指标”数据导入“Marker1”中；

S2.1.6、点击“do”操作，选择“Kaplan-Meier”—“Marker1”即可得到分解结果；

S2.1.7、点击“2PopX-tilePlot”所指的矩形图，X-tile软件自动输出第m种临床表型指标的最佳临界值，根据最佳临界值将第m种临床表型指标的数据集分为高指标组和低指标组；

S2.1.8、循环执行步骤S2.1.1至步骤S2.1.7，直至遍历所有临床表型指标。

以白细胞计数为例，使用X-tile软件计算出最佳临界值的操作流程如下：首先，新建文本文档，将所有患者样本中的生存状态、生存期及白细胞计数值复制到文本文档中。打开X-tile软件点击Analyze，在“file”目录中选择“open”，选择打开已导入数据的文本文档。然后进行分析设置，选择“生存状态”数据，点击“Censor”下侧的“Load”，将“生存状态”数据导入“Censor”中，并将“input type”改为“AliveDead”。选择“生存期”数据，点击“Survival Time”下侧的“Load”，将“生存期”数据导入“Survival Time”中，并将“intertype”改为“Months”。选择“白细胞计数值”数据，点击“Marker1”下侧的“Load”，将“白细胞计数值”数据导入“Marker1”中。然后点左上角的“do”，选择“Kaplan-Meier”—“Marker1”即可。出现分析结果图后，点击“2PopX-tilePlot”所指的矩形图，软件会自动找到最佳的二分类截断值，将白细胞计数值的数据集分为两部分。

S2.2、对于某一临床表型，将该临床表型数据二分类后，进行Kaplan-Meier法的步骤如下：将高指标组的食管鳞癌患者记为甲组，低指标组的食管鳞癌患者记为乙组，p为生存概率，指单位时段开始存活的个体到该时段结束时仍然存活的可能性；S(t)为生存率，指观察对象活过t个单位时间的概率。

以月为单位时间，则月生存概率的计算公式为：

当数据中无删失值，生存率的计算公式为：

当数据中有删失值，需分时段计算不同单位时间的生存概率p_i＝(i＝1,2,…,t)，然后利用概率乘法原理将p_i相乘得到t时刻生存率，即：

S(t)＝p₁×p₂×…×p_i；

绘制某一分组后临床表型数据的K-M生存曲线，根据计算出得不同时间点生存率，可以将随访时间作横坐标，生存率作纵坐标将各个时间点生存率连接在一起绘制该分组后临床表型数据的生存曲线，从生存曲线图中可以直观看出中位生存期。

S2.3、对于某一临床表型，将该临床表型数据二分类后，进行log-rank检验的步骤如下：将高指标组的食管鳞癌患者记为甲组，低指标组的食管鳞癌患者记为乙组，定义零和假设和备择假设：

H₀:两组患者生存曲线分布相同，

H₁:两组患者生存曲线分布不同，

α＝0.05；

当H₀成立时，两组的生存分布相同，将两组数据混合，计算合并的死亡概率，以此计算相应的期望死亡人数；两组在不同时间点期初观察例数m_1i、m_2i，其合计为M_i＝m_1i+m_2i，不同时间点两组的死亡人数为o_1i、o_2i，其合计为O_i＝o_1i+o_2i。

计算各组期望死亡人数S_1i和S_2i：

分别将两组各时间点期望死亡人数相加，得到S_k(k＝1,2)，则两组实际总死亡数为

如果两组各时间点生存率都相同，那么两组总的期望死亡数S_k和总的实际死亡数C_k相差不大；检验实际数与期望数差别大小的统计量χ²：

通过查χ²界值表得，若该χ²对应的显著性值P，将显著性值P小于0.05的临床表型指标作为有用临床表型指标，将显著性值P大于0.05的临床表型指标作为无用临床表型指标。

使用SPSS软件对划分后的M种临床表型指标与生存期信息和生存状态进行Kaplan-Meier生存分析及log-rank检验，得到每种临床表型指标的显著性值；使用食管鳞癌患者的二分类后的分类型临床表型指标，通过Kaplan-Meier生存分析及log-rank法研究获得食管鳞癌患者血液指标与生存预后的关系。

使用SPSS软件进行Kaplan-Meier生存分析及log-rank检验的操作步骤为：

S2.2.1、将划分后的M种临床表型指标、生存期信息和生存状态录入IBM SPSSStatistics数据编辑器中，选择“分析”→“生存分析”→“Kaplan-Meier”，进入选项设置界面；

S2.2.2、在选项设置界面中，选择主对话框设置：将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“第m种临床表型指标”数据分组后送入“因子”框中；

S2.2.3、“比较因子”选项设置，在“比较因子”界面的“检验统计”项目栏内选择“秩的对数”作为检验高指标组和低指标组组间生存分布是否相同的组间比较方法；

S2.2.4、在“选项”设置界面的“统计”项目栏中选择“平均值和中位数生存分析函数”，在“图”项目栏选择“生存分析函数”，点击“确定”，输出“第m种临床表型指标”的“生存函数曲线图”、“分析事件的平均值和中位数表”及“总体比较表”；

S2.2.5、从步骤S2.2.4中的“总体比较表”中得到第m种临床表型指标的显著性值；

S2.2.6、循环执行步骤S2.2.1至步骤S2.2.5，直至遍历所有临床表型指标。

以“白细胞计数”为例，使用SPSS软件进行Kaplan-Meier生存分析及log-rank检验的操作步骤：首先，将数据录入IBM SPSS Statistics数据编辑器中。然后，选择“分析”→“生存分析”→“Kaplan-Meier”，进入选项设置界面。在选项设置界面中，选择主对话框设置：将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数”数据分组后送入“因子”框中。“比较因子”选项设置，在“比较因子”界面的“检验统计”项目栏内选择“秩的对数”(log-rank检验)作为检验指标高值组和低值组组间生存分布是否相同的组间比较方法，其他按默认选项。在“选项”设置界面的“统计”项目栏中选择“平均值和中位数生存分析函数”，在“图”项目栏选择“生存分析函数”。其他按默认选项。点击“确定”，软件输出分析结果，可以得到有关临床表型“白细胞计数”的“生存函数曲线图”、“分析事件的平均值和中位数表”及“总体比较表”，如表2和表3所示。

结果分析：以“白细胞计数”指标为例。

表2分析时间的平均值和中位数表

“生存分析时间的平均值和中位数”表格给出了生存时间估计的结果，显示该指标高值组与低值组两组患者的平均生存时间的估算值、标准错误和估算值的95％置信区间，以及中位生存时间的估算值、标准错误和估算值的95％置信区间。

表3总体比较表

“总体比较表”给出高值组与低值组的组间的整体比较，结果显示对两组生存曲线整体比较的log-rank检验结果为显著性(P)＝0.018。按照log-rank检验的结果，可以认为两组患者的生存率有差异。

图2为临床表型指标“白细胞计数”的生存函数曲线图，直观地显示“白细胞计数”低值组患者的生存曲线高于“白细胞计数”高值组患者的生存曲线。

通过以上表2和表3信息可以得到最终结论为：“白细胞计数”指标的低值组患者的中位生存时间为67.251月，高值组患者的中位生存时间为56.146月。两组患者的生存曲线不同(log-rankP＝0.0018<0.05)，整体来看，两组患者的生存率有差异，低值组患者的预后生存效果要优于高值组患者。

Kaplan-Meier生存曲线可以直观的表现出临床表型指标的高值组和低值组患者的生存率或死亡率。再经过非参数检验方法log-rank检验，进行统计推断患者的临床表型指标与生存预后结果是否存在一定的关系。通过对各个临床表型指标的log-rank检验得到的P值结果如表4所示。

根据表4的结果显示，年龄、白细胞计数，单核细胞计数，中性粒细胞计数，红细胞计数，血红蛋白浓度，PT，INR，TT，FIB，APTT，预后营养指数的值越大患者生存时间更长(P<0.05)，而淋巴细胞计数，血小板计数，总蛋白，白蛋白，球蛋白,身体质量指数与食管癌患者的生存时间没有明显关系(P>0.05)。

表4Log-rank检验表

步骤三：利用单因素COX回归分别对M种临床表型指标与生存期信息和生存状态进行回归分析，得到了与步骤二相同的有用临床表型指标。具体方法为：

COX比例风险回归模型的基本形式为：

h(t,z)＝h₀(t)exp(β₁*z₁+β₂*z₂+…+β_p*z_p)；

其中，h(t,z)表示具有临床表型z的食管鳞癌患者在t时刻的风险函数，表示生存时间达到t的食管鳞癌患者在t时刻的瞬时风险率，h₀(t)称为基线风险函数，表示所有z都取值为0时的食管鳞癌患者在t时刻的瞬时风险率或死亡率；风险函数定义为具有临床表型z的食管鳞癌患者在生存了t时刻以后在t到t+Δt这一段很短时间内死亡概率与Δt之比的极限值，参数β_i'为总体回归系数，i'＝1,2,…,p。

对于COX比例风险回归模型，临床表型z₁使食管鳞癌患者的风险函数由h₀(t)增至h₀(t)exp(β₁)；则p个临床表型z₁,z₂,…,z_p的共同影响下的风险函数为h(t,z)＝h₀(t)·exp(β₁z₁)·exp(β₂z₂)…exp(β_pz_p)，使得食管鳞癌患者风险函数由h₀(t)exp(β₁)增至h(t,z)＝h₀(t)·exp(β₁z₁)·exp(β₂z₂)…exp(β_pz_p)。

任意两个患者风险函数之比，即相对危险度RR或风险比：

RR＝exp[β₁(z_i'1-z_j1)+β₂(z_i'2-z_j2)+…+β_p(z_i'p-z_jp)]；

比值RR保持一个恒定比例，与时间t无关，称为比例风险假定(PH假定)，基线风险函数h₀(t)与时间变化无关，从样本数据中求出回归系数，给定非零的z值时，患者的相对危险度为定值，即各个协变量与时间变量无关的相对危险度，模型中的回归系数利用部分似然函数用最大似然估计方法得到。

单因素COX回归分析的具体步骤如下：

S3.1、将原始数据集录入IBM SPSS Statistics数据编辑器中，选择“分析”→“生存分析”→“COX回归”，进入选项设置界面；

S3.2、在选项设置界面中，选择主对话框设置：将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“第m种临床表型指标”数据输入“协变量”框中→点击“方法”选择“输入”；

S3.3、在“图”选项设置要绘制生存曲线，在“图类型”项目栏中选择“生存分析”作为输出的图形；

S3.4、在“选项”设置中：选择“模型统计”项目栏中的“Exp(B)的置信区间”选项，选择“显示模型信息”项目栏中的“在最后一个步骤”选项，点击“确定”，输出“第m种临床表型指标”的“方程中的变量表”；

S3.5、从步骤S3.4中的“方程中的变量表”中得到第m种临床表型指标的显著性值；

S3.6、判断第m种临床表型指标的显著性值是否小于0.05，若是，将第m种临床表型指标作为有用临床表型指标，否则，将第m种临床表型指标作为无用临床表型指标；

S3.7、循环执行步骤S3.1至步骤S3.6，直至遍历所有临床表型指标。

以“白细胞计数”为例，使用SPSS软件进行单因素COX回归分析的操作步骤：首先，将数据录入IBM SPSS Statistics数据编辑器中。然后，选择“分析”→“生存分析”→“COX回归”，进入选项设置界面。在选项设置界面中，选择主对话框设置：将“生存期”数据送入“时间”框中→将“生存状态”数据送入“状态”框中→点击“定义事件”→定义表示事件已经发生的数值为1→将“白细胞计数”数据输入“协变量”框中→点击“方法”选择“输入”。在“图”选项设置要绘制生存曲线，在“图类型”项目栏中选择“生存分析”作为输出的图形，其他按默认选项。在“选项”设置中：选择“模型统计”项目栏中的“Exp(B)的置信区间”选项。选择“显示模型信息”项目栏中的“在最后一个步骤”选项，其他按默认选项。点击“确定”，软件输出分析结果，可以得到有关临床表型“白细胞计数”的“方程中的变量表”，如表5所示。

在构建单因素COX比例风险回归模型时，只纳入一种临床表型到COX比例回归模型中进行拟合，若模型显示该指标对结局事件的效应值有统计学显著性，则可以认为该指标对于结局事件是一个影响因素。

单因素COX比例风险回归模型结果分析：以“白细胞计数”指标为例。

表5方程中的变量表

指标“白细胞计数”的显著性水平P＝0.018<0.05，说明该因素能够显著影响患者术后的生存状况。HR及其95％置信区间：比如对于指标“白细胞计数”来说，Exp(B)＝1.304，说明高值组患者发生死亡风险的概率是低值组的1.304倍。

分别对所有的临床表型建立单因素COX回归模型，单因素分析发现年龄、白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、活化部分凝血活酶时间、预后营养指数这些临床表型是影响食管鳞癌患者的预后生存期的因素。

步骤四：根据各个有用临床表型指标和食管鳞癌患者的高低风险类别的相关性，采用Relief特征选择算法计算各个有用临床表型指标的权重值，并将权重值小于权重法阈值的临床表型指标移除，得到与食管鳞癌患者生存风险相关度高的临床表型指标；通过Relief算法根据各个临床表型指标和食管鳞癌患者的高低风险类别的相关性赋予临床表型指标不同的权重，移除权重值小于阈值的临床表型指标，得到与食管鳞癌患者生存风险相关度更高的临床表型指标。所述与食管鳞癌患者生存风险相关度高的临床表型指标包括血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数和凝血酶原时间。

采用Relief算法来计算各个临床表型指标的权重值。Relief算法中临床表型指标和患者的高低风险类别的相关性是基于临床表型指标对食管鳞癌患者样本的生存风险类别的区分能力。采用Relief特征选择算法计算各个临床表型指标的权重值的方法为：

S4.4、重复执行m次步骤S4.1至S4.3，得到各临床表型指标的平均权重。临床表型指标的权重越大，表示该临床表型指标的分类能力越强，反之，表示该临床表型指标分类能力越弱。

将食管鳞癌患者预后生存期大于L年的患者认定为低风险患者，预后生存期小于L年的患者认定为高风险患者。其中，L的取值为3。以食管鳞癌患者的高风险、低风险状态作为结局变量，通过Relief算法来计算各个临床表型指标与患者高风险、低风险的相关性大小。设定的Relief算法计算次数为20次，然后将多次计算得到的权重值取平均作为临床表型指标重要性的参考。权重阈值设置为0.01，即小于0.01的特征将被过滤掉，大于0.01的变量则被保留下来。分析结果如图2所示，横坐标表示各个指标的编号(1-12)，即包括了步骤四得到的临床表型指标。纵坐标表示权重值，权重值越大表明两者相关性越强。

根据MATLAB运行结果的分析，可以筛选得到7个重要临床表型指标：各个临床表型指标的权重值如表6所示，剔除权重值小于0.01的指标，最后得到的指标有血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数、凝血酶原时间七种。

表6患者临床表型指标权重表

编号	1	2	3	4	5	6
							指标	Age	WBCC	MOC	NEC	ERY	HGB
权重值	0.0396	0.007	-0.0009	-0.0065	0.0132	0.1436
							编号	7	8	9	10	11	12
指标	PT	INR	APTT	TT	FIB	PNI
							权重值	0.0157	0.0016	0.0513	0.0082	0.1135	0.2827

步骤五：利用Pearson相关性分析法计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，剔除相关性强的临床表型指标，最终得到与食管鳞癌患者生存风险相关度更高的独立临床表型指标；相关性分析，剔除变量中相关性较强的变量。

计算每两个临床表型指标之间的Pearson相关系数：

其中，

是协方差，σ_x表示x的标准方差、σ_y表示y的标准方差，E(x)表示临床表型指标的均值，ρ_xy表示Pearson相关系数值，i＝1,2,…,N表示临床表型指标的个数，x、y分别表示不同的临床表型指标数值。

Pearson相关系数是用协方差除以两个临床表型指标的标准差得到的，能反映两个临床表型指标的相关程度，Pearson是一个介于-1和1之间的值，当两个临床表型指标的线性关系增强时，相关系数趋于1或-1；当一个临床表型指标增大，另一个临床表型指标也增大时，表明它们之间是正相关的，相关系数大于0；如果一个临床表型指标增大，另一个临床表型指标却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。

对通过Relief特征选择算法筛选的变量进行Pearson相关性检验，七个临床表型指标的相关性分析如图3所示。所有临床表型指标的相关性系数均小于0.5，不用剔除任何一个临床表型指标，则最终选择的指标为：血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数、凝血酶原时间。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。其具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。具体的，卷积神经网络结构主要包括：输入层、卷积层、池化层、全连接层以及输出层。输入层用来输入数据，卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算是提取输入的不同特征，更多层的网络能从低级特征中迭代提取更复杂的特征。池化层分别作用于每个输入的特征并减小其大小。全连接层的每一个结点都与上一层的所有结点相连，用来把前面提取到的特征综合起来，将前面得到的分布式特征映射到样本标记空间中，将输出值送给分类器。输出层输出模型分类结果。

卷积神经网络训练过程中还需要引入激活函数，激活函数的引入是为了增加神经网络模型的非线性，加入激活函数之后，给神经元引入非线性因素，神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到非线性模型中去。

食管鳞癌患者临床表型数据为非图像非线性连续型数据，故选择一维卷积神经网络进行处理。一维卷积神经网络是指卷积核为一维的卷积神经网络。

使用一维卷积神经网络建立食管鳞癌患者生存风险预测模型的步骤为：

S6.1、首先，载入数据：载入食管鳞癌患者病例信息280个样本数据，每个样本数据均包含步骤五得到的临床表型指标以及患者生存信息。将这些数据存为.csv文件，在python平台上导入数据文件。

S6.2、通过利用python函数库中的“StratifiedShuffleSplit”函数，实现对数据集的打乱划分，得到训练集与测试集，并保证得到的训练集与测试集中的高风险与低风险患者所占比例都相同。训练集与测试集分别占数据集总数的80％和20％，这里选择其中的224个样本作为训练集，来进行训练模型，56个样本作为测试集，对训练好的模型进行测试。

S6.3、数据预处理，首先对结局变量设定标签，结局变量是指食管鳞癌患者的生存风险，生存风险的定义为，生存期大于3年定为低风险，生存期小于3年定为高风险，将高风险与低风险状态赋值，分别赋值为1和2。利用Python函数库中的“keras.utils.to_categorical”函数实现对食管鳞癌患者高低风险等级的热编码。热编码是将分类变量作为二进制向量表示。将食管鳞癌患者的风险等级高风险1，低风险2用热编码分别表示为[0,1]、[1,0]，使用热编码能够使得在评估模型效果，计算模型损失函数或者准确率的时候变得更加方便。数据输入卷积神经网络之前首先进行归一化，通过调用Python函数库中的“StandardScaler”归一化函数将划定好的训练集以及测试集进行归一化，这里的归一化是指将数据映射到[0,1]区间，防止训练时结果收敛慢、训练时间过长。

S6.4、设置卷积神经网络结构，使用Python的开源人工神经网络库Keras来搭建卷积神经网络，选择Keras库中的Sequential()模型搭建卷积神经网络结构，卷积神经网络的结构设置如下：添加一维卷积层：设置卷积核数目、卷积核的空域长度以及输入数据的维度，设置激活函数选择为“ReLU”。激活函数“ReLU”具有线性、非饱和的形式，能够克服训练网络过程中的梯度消失问题，并且可以加快训练速度。添加Flatten层，实现将多维的输入一维化。添加Dropout层，Dropout是指暂时丢弃一部分神经元及其连接，随机丢弃神经元可以防止过拟合，同时指数级高效地连接不同网络架构。设置Dropout比例为40％。添加三个全连接层，激活函数设置为“ReLU”。添加输出层，输出层的激活函数设置为“Sigmoid”。激活函数“Sigmoid”连续、光滑、严格单调，以(0，0.5)中心堆成，是一个良好的阈值函数，常用来做二分类预测。优化器选择为随机梯度下降(Stochastic Gradient Descent,SGD)，SGD是一种简单而有效的优化算法，用于查找使成本函数最小化的函数参数值。SGD对每个训练样本进行参数更新，每次执行都进行一次更新，且执行速度更快。频繁的更新使得参数间具有高方差，损失函数会以不同的强度波动，有助于发现新的和可能更优的局部最小值。

S6.5、模型评估参数选择为：准确率Accuracy以及损失函数Loss。

Accuracy是机器学习中最简单的一种评价模型好坏的指标，模型准确率的计算公式如下：

损失函数Loss选择为“binary_crossentropy”，“binary_crossentropy”称为交叉熵损失函数，常用于二分类问题，使用“binary_crossentropy”需要在卷积神经网络的最后一层添加激活函数“Sigmoid”进行配合使用。模型进行迭代优化的次数设置为30次，即当训练次数达到30次，结束模型的训练。

模型训练及预测：设置好卷积神经网络的结构及参数之后，使用训练集数据对卷积神经网络进行训练。从图4中可以看出，随着训练次数的增加，模型的预测准确率不断增大，损失函数Loss值不断减小，模型的预测效果越来越好，最终训练结束之后，模型的训练集准确率为88.57％，Loss值为0.1496。模型在测试集上的准确率为80.4％，Loss值为0.5632。利用训练获得的模型对测试集进行生存风险预测，输入食管癌患者临床表型指标，得到患者生存风险预测结果，对测试集的预测结果如图5所示，混淆矩阵参阅图6所示。测试集包含56个患者样本，正确预测45例，整体预测准确率为80.4％。

卷积神经网络在少量有限的样本下很好的将食管癌病例的风险等级分类出来，充分体现了卷积神经网络对食管鳞癌患者生存风险分类预测的有效性，以及在小样本、非线性、高位中的分类识别的独特优势。

为了进一步求证卷积神经网络在对食管鳞癌患者生存风险预测的有效性，使用相同的数据，通过BP神经网络，建立食管鳞癌患者生存风险预测模型，对比两种模型的预测效果。

表7风险预测模型对比

如表7所示，卷积神经网络建立的模型预测效果远好于BP神经网络建立的模型。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，其步骤如下：

2.根据权利要求1所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，所述M种临床表型指标包括年龄、白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原、预后营养指数、身体质量指数和国际标准化比值；M＝18；

3.根据权利要求2所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，所述有用临床表型指标包括年龄、白细胞计数、单核细胞计数、中性粒细胞计数、红细胞计数、血红蛋白浓度、凝血酶原时间、国际标准化比值、凝血酶时间、纤维蛋白原、活化部分凝血活酶时间、预后营养指数；无用临床表型指标包括淋巴细胞计数、血小板计数、身体质量指数、白蛋白、总蛋白和球蛋白。

4.根据权利要求2或3所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，采用Relief特征选择算法计算各个临床表型指标的权重值的方法为：

5.根据权利要求4所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，所述与食管鳞癌患者生存风险相关度高的临床表型指标包括血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数和凝血酶原时间。

6.根据权利要求5所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，所述利用Pearson相关性分析法计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度的方法为：

计算每两个临床表型指标之间的Pearson相关系数：

其中，

7.根据权利要求5或6所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，所述与食管鳞癌患者生存风险相关度更高的独立临床表型指标包括血红蛋白浓度、纤维蛋白原、活化部分凝血活酶时间、年龄、红细胞计数、预后营养指数和凝血酶原时间。

8.根据权利要求1所述的基于卷积神经网络的食管鳞癌患者生存风险预测方法，其特征在于，食管鳞癌患者生存风险预测模型的准确率计算方法为：