CN116130105A

CN116130105A - 一种基于神经网络的健康风险预测方法

Info

Publication number: CN116130105A
Application number: CN202310334736.1A
Authority: CN
Inventors: 许鑫; 白晨浩; 陈亚; 蔡平强; 吴天星; 钱琪杰
Original assignee: Jiangsu Yahuan Software Co ltd
Current assignee: Jiangsu Yahuan Software Co ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-05-16

Abstract

本发明公开了一种基于神经网络的健康风险预测方法，使用的经过k‑means算法优化过的SOM神经网络聚类算法，将食管癌患者的临床指标进行聚类分析，初步得到与生存期显著相关的几个临床指标，并通过COX多因素回归分析的验证，本发明通过传统医学分析与统计学Kendall相关系数相结合，挑选出与患者生存状态有更高相关的临床表型指标，然后使用卷积神经网络构建预后风险评估模型，合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测，帮助患者更好的判断预后效果。该方法解决了现有评估模型的预测效果差和不能帮助患者判断预后效果的技术问题，实现了能够准确判断健康的预后风险。

Description

一种基于神经网络的健康风险预测方法

技术领域

本发明涉及早期癌症风险评估技术领域，特别是指一种基于神经网络的食管早期鳞癌患者生存风险预测方法。

背景技术

食管癌是我国高发肿瘤，全球超半数新发病例发生在我国。不同于西方国家以“腺癌”为主，我国90％以上的食管癌病例为鳞状细胞癌。食管鳞癌患者发现时多为中晚期，整体预后差，5年总生存率约为20％，而分期较早的根治术后患者5年生存率也仅为40-59％。

随着现代医学的不断发展，医疗数据不断增多，从这些信息数据中获取对研究有益的数据就变得非常重要。计算机辅助下的数据分析及建模技术越来越多的应用于癌症诊疗。疾病的风险评估模型是当前广泛应用的疾病高危人群评估工具。基于数据挖掘的智能诊疗是利用大量医学数据，通过相关算法进行数据的分析，构建疾病的风险评估模型。目前国内外已建立的食管鳞癌风险评估模型多以食管鳞癌发病风险预测模型为主，食管鳞癌预后风险评估模型较少且模型预测效果较差。食管鳞癌研究需要一种能够准确判断预后风险的方法。

发明内容

本发明目的在于针对现有的背景技术中存在的不足，本发明提出了一种基于神经网络的健康风险预测方法，该方法解决了现有评估模型的预测效果差和不能帮助患者判断预后效果的技术问题，实现了能够准确判断健康的预后风险。本发明使用的经过k-means算法优化过的SOM神经网络聚类算法，将食管癌患者的临床指标进行聚类分析，初步得到与生存期显著相关的几个临床指标，并通过COX多因素回归分析的验证，该方法效果更好、显著性更强，且运算复杂度降低，节省大量不必要的试验时间。

本发明解决其技术问题所采用的技术方案是：一种基于神经网络的健康风险预测方法，该方法包括如下步骤：

步骤1：获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据，一共M种；

步骤2：将收集到的数据进行预处理，进行无量纲化以及异常值处理，生成合理的数据；

步骤3：将预处理后的数据集进行分层随机抽样，分为训练集以及测试集，比例为8：2；

步骤4：利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类，再用COX风险回归模型对聚类结果进行回归验证，初步得到对食管鳞癌影响较大的N种指标(N<M)；

步骤5：利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，剔除相关性低的临床表型指标，最终得到与食管鳞癌患者生存风险相关度更高的临床表型指标；

步骤6：使用卷积神经网络构建食管鳞癌患者生存风险预测模型，设置卷积神经网络结构参数，将上述步骤5中得到的相关性高的临床表型指标作为卷积神经网络的输入，食管鳞癌患者风险等级作为卷积神经网络的输出。

进一步地，本发明所述步骤1中的多维度数据包括患者的年龄、身高、体重以及临床指标信息分别为白细胞计数、淋巴细胞计数、单核细胞、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原；

所述生存期信息是指生存时间，生存期的范围为[0.26月，137.00月]。

所述生存状态是指截止到患者健在或者患者死亡。

进一步地，本发明所述步骤2中的数据预处理包括无量纲化以及异常值处理，为了提高模型的精度，需要把不同尺度的数据通过某种方法转换到同一尺度，这就是无量纲化

步骤2-1：数据归一化也就是无量纲化的一种，其将数据减去数据最小值后，再除以极差(最大值-最小值)，将数据都转换到[0,1]范围内，方便进行计算。数据归一化的公式如下：

其中χ¹是归一化后的结果，min是每个特征列中的最小值，max是每个特征列中的最大值。

步骤2-2：异常值处理：异常值是指不符合常理的数据，比如年龄为1000，血小板计数为0等。现实数据集中，由于粗心、疏忽、操作失误等原因，经常会产生异常值。识别和处理异常值非常重要，可以通过画箱线图的方式找到异常值。箱线图由上限、上四分位数、中位数、下四分位数、下限组成，其中上四分位数是将数据排序后第1/4个数，中位数是数据排序后最中间的数，下四分位数是数据排序后第3/4个数，上限为上四分位数+1.5倍四分位距，下限为下四分位数-1.5倍四分位距，其中四分位距等于上四分位数-下四分位数。超过上限或者低于下限的数值则为异常值。

进一步地，本发明所述步骤3中划分数据集采用分层随机抽样将数据集分为训练集以及测试集，其比例为8：2，训练集用于食管鳞癌患者生存风险预测模型的训练，测试集用于评估食管鳞癌患者生存风险预测模型的优劣。分层抽样的特点是将科学分组法与抽样法结合在一起，分组减小了各抽样层变异性的影响，抽样保证了所抽取的样本具有足够的代表性。

进一步地，本发明所述步骤4中利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类，然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M)，具体过程如下：

步骤4-1：利用随机数随机设定竞争层(也叫输出层，输出层是由36个神经元组成的二维平面阵列)和输入层之间的初始连接权重值的向量W_k＝{ω_1k,ω_2k,…ω_pk…ω_Mk}，设定最大学习循环次数T_max，设定学习率的初始值η，且η∈[0,1]，ω_pk为神经元k与第p种指标的连接权重值，i＝1,2,...M为第i组数据；

步骤4-2：将样本集(训练集+测试集)作为输入向量输入至输入层，输入向量为V，其中训练样本V_P＝{υ_p,1,υ_p,2,…υ_p,i…v_p,M}；

步骤4-3：计算竞争层的权值向量与输入向量的欧氏距离：选取一组训练样本，每一次训练数据会通过连接权重的大小，找到与该输入向量最近似的神经元作为优胜神经元k，定义D为输入向量与连接权重向量的距离，最近似的神经元也就是D最小对应的那个神经元：

D＝||V-W_k||

步骤4-4：对优胜神经元k的权重进行调整，优胜神经元周围的神经元与输入向量的连接权重也会一并更新：

其中，t为当前学习循环次数，t+1为下一次学习循环次数，ω_pk(t)为t次的权重值，ω_pk(t+1)为t+1次的权重值，学习率η(t)为神经元k与邻近中心v的邻近关系值，W_v为优胜神经元周围神经元与输入向量的连接权重；

步骤4-5：循环执行步骤5.2到步骤5.4，循环

次；

步骤4-6：将上面用SOM聚类算法得到的优胜神经元为初始聚类中心(质心)，根据聚类中心值，将每个指标赋给最相似的簇，采用的是余弦相似度函数计算相似度：

步骤4-7：得到k'个新的簇，每个样本都被分到k'个簇中的某一个簇，然后当前的质心就会失效，需要计算每个新簇的新质心，重新计算每个簇中对象的平均值，用此平均值作为新聚类中心；

步骤4-8：重复执行步骤5.6和步骤4-7：

次，至此得到M种指标的聚类结果，然后用COX风险回归模型对聚类结果进行回归验证特征筛选出与生存状态影响大的N种指标。这种就是先进行SOM算法再执行K-means算法进行聚类，这种聚类方式既保留了SOM网络自组织的特点，又吸收了K-means算法高效率的特点，同时弥补了两个算法各自的缺点。

进一步地，本发明所述步骤5中利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，筛选出相关度更高的指标，具体过程如下：

计算每两个临床表型指标之间的Kendall相关系数：

其中x，y分别表示不同的临床指标数值，i，j∈[0,N]表示临床指标的个数，sgn函数指出参数的正负号，正则返回1，负则返回-1。τ大于0.6即说明相关性较高，筛选出τ大于0.6的指标。

进一步地，本发明所述步骤6中使用卷积神经网络构建食管鳞癌患者生存风险预测模型，模型的准确率计算方法为：

其中，Accuracy表示风险预测准确率，TP表示被正确地划分为高风险的个数，TN表示被错误地划分为高风险的个数，FN表示被错误地划分为低风险的个数，TN表示被正确地划分为低风险的个数。

所述生存期的临界阈值为27.38月和67.39月，根据生存期的临界阈值将生存期划分为两个风险等级，高风险的生存期区间为[0，47.38月)，低风险的生存期大于47.39月。

有益效果：

1、本发明使用的经过k-means算法优化过的SOM神经网络聚类算法，将食管癌患者的临床指标进行聚类分析，初步得到与生存期显著相关的几个临床指标，并通过COX多因素回归分析的验证，本发明效果更好、显著性更强，且运算复杂度降低，节省大量不必要的试验时间。

2、本发明通过传统医学分析与统计学Kendall相关系数相结合，挑选出与患者生存状态有更高相关的临床表型指标，然后使用卷积神经网络构建预后风险评估模型，合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测，帮助患者更好的判断预后效果。

附图说明

图1为本发明的方法流程图。

图2为本发明箱形示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用来解释本发明，并不限定本发明。

如图1所示，本发明实施例提供了一种基于卷积神经网络的食管鳞癌患者生存风险预测方法，其步骤包括如下：

步骤1：获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据，作为原始数据集；原始数据集为300组数据，每组数据集包括M种多维度数据；所述M种多维度数据分别为患者的年龄、身高、体重以及白细胞计数(WBC count)、淋巴细胞计数(Lymphocyte count)、单核细胞(Monocyte count)、中性粒细胞计数(Neutrophilcount)、嗜酸粒细胞计数(Eosinophil count)、嗜碱粒细胞计数(Basophil count)、红细胞计数(Red blood cell count)、血红蛋白浓度(Hemoglobin concentration)、血小板计数(Platelet count)、总蛋白(Total protein)、白蛋白(Albumin)、球蛋白(Globulin)、凝血酶原时间(PT)、国际标准化比值(INR)、活化部分凝血活酶时间(APTT)、凝血酶时间(TT)、纤维蛋白原(FIB)；其中，M＝20；所述生存期信息是指生存时间，生存期的范围为[0.26月，137.00月]。

步骤2：将收集到的原始数据集进行数据预处理，数据预处理包括无量纲化以及异常值处理，为了提高模型的精度，需要把不同尺度的数据通过某种方法转换到同一尺度，这就是无量纲化。

步骤2-2：异常值是指不符合常理的数据，比如年龄为1000，血小板计数为0等。现实数据集中，由于粗心、疏忽、操作失误等原因，经常会产生异常值。识别和处理异常值非常重要，可以通过画箱线图的方式找到异常值。如图2所示，箱线图由上限、上四分位数、中位数、下四分位数、下限组成，其中上四分位数是将数据排序后第1/4个数，中位数是数据排序后最中间的数，下四分位数是数据排序后第3/4个数，上限为上四分位数+1.5倍四分位距，下限为下四分位数-1.5倍四分位距，其中四分位距等于上四分位数-下四分位数。超过上限或者低于下限的数值则为异常值。

步骤3：采用分层随机抽样将数据集分为训练集以及测试集，其比例为8：2，训练集用于食管鳞癌患者生存风险预测模型的训练，测试集用于评估食管鳞癌患者生存风险预测模型的优劣。分层抽样的特点是将科学分组法与抽样法结合在一起，分组减小了各抽样层变异性的影响，抽样保证了所抽取的样本具有足够的代表性。

其具体流程是把总体各单位分成两个或两个以上的相互独立的完全的组，从两个或两个以上的组中进行简单随机抽样，样本相互独立。总体各单位按主要标志加以分组，分组的标志与关心的总体特征相关。将300组数据按年龄分为6组，其中年龄为30岁以下的一组；年龄段为[30,39]一组；年龄段为[40，49]一组；年龄段为[50，59]一组；年龄段为[60，69]一组；年龄为70岁及以上的一组；对每个组中的数据集按8：2的比例进行随机抽样，从而获得用于食管鳞癌患者生存风险预测模型的训练集和测试集。

步骤4：利用k-means优化后的SOM算法对M(M＝20)种临床表型指标以及生成期信息和生成状态进行聚类，然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M)，具体过程如下：

步骤4-1：利用随机数随机设定竞争层(也叫输出层，输出层是由36个神经元组成的二维平面阵列)和输入层之间的初始连接权重值的向量W_k＝{ω_1k,ω_2k,…ω_pk…ω_Mk}，设定最大学习循环次数T_max＝50，设定学习率的初始值η，且η∈[0,1]，ω_pk为神经元k与第p种指标的连接权重值，i＝1,2,...M为第i组数据；

步骤4-2：将样本集(训练集+测试集)作为输入向量输入至输入层，输入向量为V，其中训练样本V_P＝{v_p,1,v_p,2,…v_p,i…v_p,M}；

D＝||V-W_k||

步骤4-5：循环执行步骤4.2到步骤4.4，循环

次；

步骤4-8：重复执行步骤4.6和4.7

次，至此得到20种指标的聚类结果。

这种就是先进行SOM算法再执行K-means算法进行聚类，这种聚类方式既保留了SOM网络自组织的特点，又吸收了K-means算法高效率的特点，同时弥补了两个算法各自的缺点。

利用COX风险回归模型对聚类结果进行回归验证，得到与食管癌患者生存期显著相关的N种指标；其中，N＝10；所述与生存期显著相关的10种指标信息分别为年龄、白细胞计数(WBC count)、淋巴细胞计数(Lymphocyte count)、单核细胞计数(Monocyte count)、中性粒细胞计数(Neutrophil count)、嗜酸粒细胞计数(Eosinophil count)、嗜碱粒细胞计数(Basophil count)、红细胞计数(Red blood cell count)、凝血酶原时间(PT)、国际标准化比值(INR)。

进行COX风险回归验证上述10种指标组合：具体地，以软件“MedCalc”为操作平台，将生存期作为时间，与生存期显著相关的10种指标作为协变量，用COX回归分析的假定检验方法，得到的模型综合得分如表1所示。COX回归分析法给出统计学检验的P值，通过P值判断结果。统计学根据显著性检验方法所得到的P值，一般以P<0.05为有统计学差异，P<0.01为有显著统计学差异，P<0.001为有极其显著的统计学差异。P值越小，10种指标与生存期的不相关性越小，即相关性越大。结果显示10种指标的整体得分的P值为0.0039远小于0.05，故这10种指标的组合跟患者的生存期是显著相关的。

表1 COX整体模型适配度

步骤5：利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，筛选出相关度更高的指标，具体过程如下：

计算每两个临床表型指标之间的Kendall相关系数：

对通过COX风险回归模型筛选的指标进行Kendall相关性验证，所有临床表型指标的相关性系数均大于0.6，不用剔除任何一个指标，则最终选择的指标为：年龄、白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、凝血酶原时间、国际标准化比值。

步骤6：使用卷积神经网络构建食管鳞癌患者生存风险预测模型，设置卷积神经网络结构参数，将步骤5中得到的指标作为卷积神经网络的输入，食管鳞癌患者风险等级作为卷积神经网络的输出，将食管鳞癌患者数据集分成训练集与测试集两部分，训练集用于食管鳞癌患者生存风险预测模型的训练，测试集用于评估食管鳞癌患者生存风险预测模型的优劣。

食管鳞癌患者临床表型数据为非图像非线性连续型数据，故选择一维卷积神经网络进行处理。使用卷积神经网络建立食管鳞癌患者生存风险预测模型的步骤为：

6.1设置卷积神经网络结构，使用Python的开源人工神经网络库Keras来搭建卷积神经网络，选择Keras库中的Sequential()模型搭建卷积神经网络结构。

6.2使用卷积神经网络构建食管鳞癌患者生存风险预测模型，模型的准确率计算方法为：

损失函数Loss选择为“binary_crossentropy”，“binary_crossentropy”称为交叉熵损失函数，常用于二分类问题，使用“binary_crossentropy”需要在卷积神经网络的最后一层添加激活函数“Sigmoid”进行配合使用。模型进行迭代优化的次数设置为30次，即当训练次数达到30次，结束模型的训练。

6.3模型训练及预测：设置好卷积神经网络的结构及参数之后，使用训练集数据对卷积神经网络进行训练。随着训练次数的增加，模型的预测准确率不断增大，损失函数Loss值不断减小，模型的预测效果越来越好，最终训练结束之后，模型的训练集准确率为88.63％，Loss值为0.1483。利用训练获得的模型对测试集进行生存风险预测，输入食管癌患者临床表型指标，得到患者生存风险预测结果，模型在测试集上的准确率为81.12％，Loss值为0.5624。

卷积神经网络在少量有限的样本下很好的将食管癌病例的风险等级分类出来，充分体现了卷积神经网络对食管鳞癌患者生存风险分类预测的有效性，以及在小样本、非线性、高位中的分类识别的独特优势。

上面是结合附图对本发明的实施方式作了详细说明，但本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于神经网络的健康风险预测方法，其特征在于，所述方法包括如下步骤：

步骤6：使用卷积神经网络构建食管鳞癌患者生存风险预测模型，设置卷积神经网络结构参数，将步骤5中得到的相关性高的临床表型指标作为卷积神经网络的输入，食管鳞癌患者风险等级作为卷积神经网络的输出。

2.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤1中的多维度数据包括患者的年龄、身高、体重以及临床指标信息分别为白细胞计数、淋巴细胞计数、单核细胞、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原；

所述生存期信息是指生存时间，生存期的范围为[0.26月，137.00月]；

所述生存状态是指截止到患者健在或者患者死亡。

3.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤2中的数据预处理包括无量纲化以及异常值处理，为了提高模型的精度，需要把不同尺度的数据通过某种方法转换到同一尺度，这就是无量纲化，包括：

步骤2-1：数据归一化也就是无量纲化的一种，其将数据减去数据最小值后，再除以极差(最大值-最小值)，将数据都转换到[0,1]范围内，方便进行计算，数据归一化的公式如下：

其中x¹是归一化后的结果，min是每个特征列中的最小值，max是每个特征列中的最大值；

步骤2-2：异常值处理：异常值是指不符合常理的数据，即年龄为1000，血小板计数为0，现实数据集中，由于粗心、疏忽、操作失误等原因，经常会产生异常值，识别和处理异常值非常重要，可以通过画箱线图的方式找到异常值，箱线图由上限、上四分位数、中位数、下四分位数、下限组成，其中上四分位数是将数据排序后第1/4个数，中位数是数据排序后最中间的数，下四分位数是数据排序后第3/4个数，上限为上四分位数+1.5倍四分位距，下限为下四分位数-1.5倍四分位距，其中四分位距等于上四分位数-下四分位数，超过上限或者低于下限的数值则为异常值。

4.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤3中划分数据集采用分层随机抽样将数据集分为训练集以及测试集，其比例为8：2，训练集用于食管鳞癌患者生存风险预测模型的训练，测试集用于评估食管鳞癌患者生存风险预测模型的优劣，分层抽样的特点是将科学分组法与抽样法结合在一起，分组减小了各抽样层变异性的影响，抽样保证了所抽取的样本具有足够的代表性。

5.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤4中利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类，然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M)，具体过程如下：

D＝||V-W_k||

步骤4-5：循环执行步骤5.2到步骤5.4，循环

次；

步骤4-8：重复执行步骤5.6和步骤4-7：

次，至此得到M种指标的聚类结果，然后用COX风险回归模型对聚类结果进行回归验证特征筛选出与生存状态影响大的N种指标。

6.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤5中利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度，筛选出相关度更高的指标，具体过程如下：

计算每两个临床表型指标之间的Kendall相关系数：

其中x，y分别表示不同的临床指标数值，i，j∈[0,N]表示临床指标的个数，sgn函数指出参数的正负号，正则返回1，负则返回-1，τ大于0.6即说明相关性较高，筛选出τ大于0.6的指标。

7.根据权利要求1所述的一种基于神经网络的健康风险预测方法，其特征在于，所述步骤6中使用卷积神经网络构建食管鳞癌患者生存风险预测模型，模型的准确率计算方法为：

其中，Accuracy表示风险预测准确率，TP表示被正确地划分为高风险的个数，TN表示被错误地划分为高风险的个数，FN表示被错误地划分为低风险的个数，TN表示被正确地划分为低风险的个数；