CN116130105A - 一种基于神经网络的健康风险预测方法 - Google Patents
一种基于神经网络的健康风险预测方法 Download PDFInfo
- Publication number
- CN116130105A CN116130105A CN202310334736.1A CN202310334736A CN116130105A CN 116130105 A CN116130105 A CN 116130105A CN 202310334736 A CN202310334736 A CN 202310334736A CN 116130105 A CN116130105 A CN 116130105A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- neural network
- indexes
- survival
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 230000036541 health Effects 0.000 title claims abstract description 16
- 230000004083 survival effect Effects 0.000 claims abstract description 63
- 206010041823 squamous cell carcinoma Diseases 0.000 claims abstract description 42
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 28
- 238000012795 verification Methods 0.000 claims abstract description 12
- 210000002569 neuron Anatomy 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 30
- 238000012360 testing method Methods 0.000 claims description 18
- 238000013058 risk prediction model Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 17
- 238000004820 blood count Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 210000003651 basophil Anatomy 0.000 claims description 7
- 210000003979 eosinophil Anatomy 0.000 claims description 7
- 210000003743 erythrocyte Anatomy 0.000 claims description 7
- 210000000265 leukocyte Anatomy 0.000 claims description 7
- 210000004698 lymphocyte Anatomy 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 210000000440 neutrophil Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 108010094028 Prothrombin Proteins 0.000 claims description 5
- 102100027378 Prothrombin Human genes 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 210000001616 monocyte Anatomy 0.000 claims description 5
- 229940039716 prothrombin Drugs 0.000 claims description 5
- 108010049003 Fibrinogen Proteins 0.000 claims description 4
- 102000008946 Fibrinogen Human genes 0.000 claims description 4
- 102000006395 Globulins Human genes 0.000 claims description 4
- 108010044091 Globulins Proteins 0.000 claims description 4
- 102000001554 Hemoglobins Human genes 0.000 claims description 4
- 108010054147 Hemoglobins Proteins 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 229940012952 fibrinogen Drugs 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 108090000623 proteins and genes Proteins 0.000 claims description 4
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 claims description 3
- 108010088751 Albumins Proteins 0.000 claims description 3
- 102000009027 Albumins Human genes 0.000 claims description 3
- 108090000190 Thrombin Proteins 0.000 claims description 3
- 108010000499 Thromboplastin Proteins 0.000 claims description 3
- 102000002262 Thromboplastin Human genes 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 229960004072 thrombin Drugs 0.000 claims description 3
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 claims description 2
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 claims description 2
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 claims description 2
- 238000004393 prognosis Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 10
- 208000000461 Esophageal Neoplasms Diseases 0.000 abstract description 8
- 206010030155 Oesophageal carcinoma Diseases 0.000 abstract description 8
- 201000004101 esophageal cancer Diseases 0.000 abstract description 8
- 238000012502 risk assessment Methods 0.000 abstract description 7
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000011119 multifactor regression analysis Methods 0.000 abstract description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于神经网络的健康风险预测方法,使用的经过k‑means算法优化过的SOM神经网络聚类算法,将食管癌患者的临床指标进行聚类分析,初步得到与生存期显著相关的几个临床指标,并通过COX多因素回归分析的验证,本发明通过传统医学分析与统计学Kendall相关系数相结合,挑选出与患者生存状态有更高相关的临床表型指标,然后使用卷积神经网络构建预后风险评估模型,合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测,帮助患者更好的判断预后效果。该方法解决了现有评估模型的预测效果差和不能帮助患者判断预后效果的技术问题,实现了能够准确判断健康的预后风险。
Description
技术领域
本发明涉及早期癌症风险评估技术领域,特别是指一种基于神经网络的食管早期鳞癌患者生存风险预测方法。
背景技术
食管癌是我国高发肿瘤,全球超半数新发病例发生在我国。不同于西方国家以“腺癌”为主,我国90%以上的食管癌病例为鳞状细胞癌。食管鳞癌患者发现时多为中晚期,整体预后差,5年总生存率约为20%,而分期较早的根治术后患者5年生存率也仅为40-59%。
随着现代医学的不断发展,医疗数据不断增多,从这些信息数据中获取对研究有益的数据就变得非常重要。计算机辅助下的数据分析及建模技术越来越多的应用于癌症诊疗。疾病的风险评估模型是当前广泛应用的疾病高危人群评估工具。基于数据挖掘的智能诊疗是利用大量医学数据,通过相关算法进行数据的分析,构建疾病的风险评估模型。目前国内外已建立的食管鳞癌风险评估模型多以食管鳞癌发病风险预测模型为主,食管鳞癌预后风险评估模型较少且模型预测效果较差。食管鳞癌研究需要一种能够准确判断预后风险的方法。
发明内容
本发明目的在于针对现有的背景技术中存在的不足,本发明提出了一种基于神经网络的健康风险预测方法,该方法解决了现有评估模型的预测效果差和不能帮助患者判断预后效果的技术问题,实现了能够准确判断健康的预后风险。本发明使用的经过k-means算法优化过的SOM神经网络聚类算法,将食管癌患者的临床指标进行聚类分析,初步得到与生存期显著相关的几个临床指标,并通过COX多因素回归分析的验证,该方法效果更好、显著性更强,且运算复杂度降低,节省大量不必要的试验时间。
本发明解决其技术问题所采用的技术方案是:一种基于神经网络的健康风险预测方法,该方法包括如下步骤:
步骤1:获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据,一共M种;
步骤2:将收集到的数据进行预处理,进行无量纲化以及异常值处理,生成合理的数据;
步骤3:将预处理后的数据集进行分层随机抽样,分为训练集以及测试集,比例为8:2;
步骤4:利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类,再用COX风险回归模型对聚类结果进行回归验证,初步得到对食管鳞癌影响较大的N种指标(N<M);
步骤5:利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度,剔除相关性低的临床表型指标,最终得到与食管鳞癌患者生存风险相关度更高的临床表型指标;
步骤6:使用卷积神经网络构建食管鳞癌患者生存风险预测模型,设置卷积神经网络结构参数,将上述步骤5中得到的相关性高的临床表型指标作为卷积神经网络的输入,食管鳞癌患者风险等级作为卷积神经网络的输出。
进一步地,本发明所述步骤1中的多维度数据包括患者的年龄、身高、体重以及临床指标信息分别为白细胞计数、淋巴细胞计数、单核细胞、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原;
所述生存期信息是指生存时间,生存期的范围为[0.26月,137.00月]。
所述生存状态是指截止到患者健在或者患者死亡。
进一步地,本发明所述步骤2中的数据预处理包括无量纲化以及异常值处理,为了提高模型的精度,需要把不同尺度的数据通过某种方法转换到同一尺度,这就是无量纲化
步骤2-1:数据归一化也就是无量纲化的一种,其将数据减去数据最小值后,再除以极差(最大值-最小值),将数据都转换到[0,1]范围内,方便进行计算。数据归一化的公式如下:
其中χ1是归一化后的结果,min是每个特征列中的最小值,max是每个特征列中的最大值。
步骤2-2:异常值处理:异常值是指不符合常理的数据,比如年龄为1000,血小板计数为0等。现实数据集中,由于粗心、疏忽、操作失误等原因,经常会产生异常值。识别和处理异常值非常重要,可以通过画箱线图的方式找到异常值。箱线图由上限、上四分位数、中位数、下四分位数、下限组成,其中上四分位数是将数据排序后第1/4个数,中位数是数据排序后最中间的数,下四分位数是数据排序后第3/4个数,上限为上四分位数+1.5倍四分位距,下限为下四分位数-1.5倍四分位距,其中四分位距等于上四分位数-下四分位数。超过上限或者低于下限的数值则为异常值。
进一步地,本发明所述步骤3中划分数据集采用分层随机抽样将数据集分为训练集以及测试集,其比例为8:2,训练集用于食管鳞癌患者生存风险预测模型的训练,测试集用于评估食管鳞癌患者生存风险预测模型的优劣。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。
进一步地,本发明所述步骤4中利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类,然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M),具体过程如下:
步骤4-1:利用随机数随机设定竞争层(也叫输出层,输出层是由36个神经元组成的二维平面阵列)和输入层之间的初始连接权重值的向量Wk={ω1k,ω2k,…ωpk…ωMk},设定最大学习循环次数Tmax,设定学习率的初始值η,且η∈[0,1],ωpk为神经元k与第p种指标的连接权重值,i=1,2,...M为第i组数据;
步骤4-2:将样本集(训练集+测试集)作为输入向量输入至输入层,输入向量为V,其中训练样本VP={υp,1,υp,2,…υp,i…vp,M};
步骤4-3:计算竞争层的权值向量与输入向量的欧氏距离:选取一组训练样本,每一次训练数据会通过连接权重的大小,找到与该输入向量最近似的神经元作为优胜神经元k,定义D为输入向量与连接权重向量的距离,最近似的神经元也就是D最小对应的那个神经元:
D=||V-Wk||
步骤4-4:对优胜神经元k的权重进行调整,优胜神经元周围的神经元与输入向量的连接权重也会一并更新:
其中,t为当前学习循环次数,t+1为下一次学习循环次数,ωpk(t)为t次的权重值,ωpk(t+1)为t+1次的权重值,学习率η(t)为神经元k与邻近中心v的邻近关系值,Wv为优胜神经元周围神经元与输入向量的连接权重;
步骤4-6:将上面用SOM聚类算法得到的优胜神经元为初始聚类中心(质心),根据聚类中心值,将每个指标赋给最相似的簇,采用的是余弦相似度函数计算相似度:
步骤4-7:得到k'个新的簇,每个样本都被分到k'个簇中的某一个簇,然后当前的质心就会失效,需要计算每个新簇的新质心,重新计算每个簇中对象的平均值,用此平均值作为新聚类中心;
步骤4-8:重复执行步骤5.6和步骤4-7:次,至此得到M种指标的聚类结果,然后用COX风险回归模型对聚类结果进行回归验证特征筛选出与生存状态影响大的N种指标。这种就是先进行SOM算法再执行K-means算法进行聚类,这种聚类方式既保留了SOM网络自组织的特点,又吸收了K-means算法高效率的特点,同时弥补了两个算法各自的缺点。
进一步地,本发明所述步骤5中利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度,筛选出相关度更高的指标,具体过程如下:
计算每两个临床表型指标之间的Kendall相关系数:
其中x,y分别表示不同的临床指标数值,i,j∈[0,N]表示临床指标的个数,sgn函数指出参数的正负号,正则返回1,负则返回-1。τ大于0.6即说明相关性较高,筛选出τ大于0.6的指标。
进一步地,本发明所述步骤6中使用卷积神经网络构建食管鳞癌患者生存风险预测模型,模型的准确率计算方法为:
其中,Accuracy表示风险预测准确率,TP表示被正确地划分为高风险的个数,TN表示被错误地划分为高风险的个数,FN表示被错误地划分为低风险的个数,TN表示被正确地划分为低风险的个数。
所述生存期的临界阈值为27.38月和67.39月,根据生存期的临界阈值将生存期划分为两个风险等级,高风险的生存期区间为[0,47.38月),低风险的生存期大于47.39月。
有益效果:
1、本发明使用的经过k-means算法优化过的SOM神经网络聚类算法,将食管癌患者的临床指标进行聚类分析,初步得到与生存期显著相关的几个临床指标,并通过COX多因素回归分析的验证,本发明效果更好、显著性更强,且运算复杂度降低,节省大量不必要的试验时间。
2、本发明通过传统医学分析与统计学Kendall相关系数相结合,挑选出与患者生存状态有更高相关的临床表型指标,然后使用卷积神经网络构建预后风险评估模型,合理、方便、有效的对食管鳞癌患者的预后风险等级进行预测,帮助患者更好的判断预后效果。
附图说明
图1为本发明的方法流程图。
图2为本发明箱形示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用来解释本发明,并不限定本发明。
如图1所示,本发明实施例提供了一种基于卷积神经网络的食管鳞癌患者生存风险预测方法,其步骤包括如下:
步骤1:获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据,作为原始数据集;原始数据集为300组数据,每组数据集包括M种多维度数据;所述M种多维度数据分别为患者的年龄、身高、体重以及白细胞计数(WBC count)、淋巴细胞计数(Lymphocyte count)、单核细胞(Monocyte count)、中性粒细胞计数(Neutrophilcount)、嗜酸粒细胞计数(Eosinophil count)、嗜碱粒细胞计数(Basophil count)、红细胞计数(Red blood cell count)、血红蛋白浓度(Hemoglobin concentration)、血小板计数(Platelet count)、总蛋白(Total protein)、白蛋白(Albumin)、球蛋白(Globulin)、凝血酶原时间(PT)、国际标准化比值(INR)、活化部分凝血活酶时间(APTT)、凝血酶时间(TT)、纤维蛋白原(FIB);其中,M=20;所述生存期信息是指生存时间,生存期的范围为[0.26月,137.00月]。
步骤2:将收集到的原始数据集进行数据预处理,数据预处理包括无量纲化以及异常值处理,为了提高模型的精度,需要把不同尺度的数据通过某种方法转换到同一尺度,这就是无量纲化。
步骤2-1:数据归一化也就是无量纲化的一种,其将数据减去数据最小值后,再除以极差(最大值-最小值),将数据都转换到[0,1]范围内,方便进行计算。数据归一化的公式如下:
其中χ1是归一化后的结果,min是每个特征列中的最小值,max是每个特征列中的最大值。
步骤2-2:异常值是指不符合常理的数据,比如年龄为1000,血小板计数为0等。现实数据集中,由于粗心、疏忽、操作失误等原因,经常会产生异常值。识别和处理异常值非常重要,可以通过画箱线图的方式找到异常值。如图2所示,箱线图由上限、上四分位数、中位数、下四分位数、下限组成,其中上四分位数是将数据排序后第1/4个数,中位数是数据排序后最中间的数,下四分位数是数据排序后第3/4个数,上限为上四分位数+1.5倍四分位距,下限为下四分位数-1.5倍四分位距,其中四分位距等于上四分位数-下四分位数。超过上限或者低于下限的数值则为异常值。
步骤3:采用分层随机抽样将数据集分为训练集以及测试集,其比例为8:2,训练集用于食管鳞癌患者生存风险预测模型的训练,测试集用于评估食管鳞癌患者生存风险预测模型的优劣。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。
其具体流程是把总体各单位分成两个或两个以上的相互独立的完全的组,从两个或两个以上的组中进行简单随机抽样,样本相互独立。总体各单位按主要标志加以分组,分组的标志与关心的总体特征相关。将300组数据按年龄分为6组,其中年龄为30岁以下的一组;年龄段为[30,39]一组;年龄段为[40,49]一组;年龄段为[50,59]一组;年龄段为[60,69]一组;年龄为70岁及以上的一组;对每个组中的数据集按8:2的比例进行随机抽样,从而获得用于食管鳞癌患者生存风险预测模型的训练集和测试集。
步骤4:利用k-means优化后的SOM算法对M(M=20)种临床表型指标以及生成期信息和生成状态进行聚类,然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M),具体过程如下:
步骤4-1:利用随机数随机设定竞争层(也叫输出层,输出层是由36个神经元组成的二维平面阵列)和输入层之间的初始连接权重值的向量Wk={ω1k,ω2k,…ωpk…ωMk},设定最大学习循环次数Tmax=50,设定学习率的初始值η,且η∈[0,1],ωpk为神经元k与第p种指标的连接权重值,i=1,2,...M为第i组数据;
步骤4-2:将样本集(训练集+测试集)作为输入向量输入至输入层,输入向量为V,其中训练样本VP={vp,1,vp,2,…vp,i…vp,M};
步骤4-3:计算竞争层的权值向量与输入向量的欧氏距离:选取一组训练样本,每一次训练数据会通过连接权重的大小,找到与该输入向量最近似的神经元作为优胜神经元k,定义D为输入向量与连接权重向量的距离,最近似的神经元也就是D最小对应的那个神经元:
D=||V-Wk||
步骤4-4:对优胜神经元k的权重进行调整,优胜神经元周围的神经元与输入向量的连接权重也会一并更新:
其中,t为当前学习循环次数,t+1为下一次学习循环次数,ωpk(t)为t次的权重值,ωpk(t+1)为t+1次的权重值,学习率η(t)为神经元k与邻近中心v的邻近关系值,Wv为优胜神经元周围神经元与输入向量的连接权重;
步骤4-6:将上面用SOM聚类算法得到的优胜神经元为初始聚类中心(质心),根据聚类中心值,将每个指标赋给最相似的簇,采用的是余弦相似度函数计算相似度:
步骤4-7:得到k'个新的簇,每个样本都被分到k'个簇中的某一个簇,然后当前的质心就会失效,需要计算每个新簇的新质心,重新计算每个簇中对象的平均值,用此平均值作为新聚类中心;
这种就是先进行SOM算法再执行K-means算法进行聚类,这种聚类方式既保留了SOM网络自组织的特点,又吸收了K-means算法高效率的特点,同时弥补了两个算法各自的缺点。
利用COX风险回归模型对聚类结果进行回归验证,得到与食管癌患者生存期显著相关的N种指标;其中,N=10;所述与生存期显著相关的10种指标信息分别为年龄、白细胞计数(WBC count)、淋巴细胞计数(Lymphocyte count)、单核细胞计数(Monocyte count)、中性粒细胞计数(Neutrophil count)、嗜酸粒细胞计数(Eosinophil count)、嗜碱粒细胞计数(Basophil count)、红细胞计数(Red blood cell count)、凝血酶原时间(PT)、国际标准化比值(INR)。
进行COX风险回归验证上述10种指标组合:具体地,以软件“MedCalc”为操作平台,将生存期作为时间,与生存期显著相关的10种指标作为协变量,用COX回归分析的假定检验方法,得到的模型综合得分如表1所示。COX回归分析法给出统计学检验的P值,通过P值判断结果。统计学根据显著性检验方法所得到的P值,一般以P<0.05为有统计学差异,P<0.01为有显著统计学差异,P<0.001为有极其显著的统计学差异。P值越小,10种指标与生存期的不相关性越小,即相关性越大。结果显示10种指标的整体得分的P值为0.0039远小于0.05,故这10种指标的组合跟患者的生存期是显著相关的。
表1 COX整体模型适配度
步骤5:利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度,筛选出相关度更高的指标,具体过程如下:
计算每两个临床表型指标之间的Kendall相关系数:
其中x,y分别表示不同的临床指标数值,i,j∈[0,N]表示临床指标的个数,sgn函数指出参数的正负号,正则返回1,负则返回-1。τ大于0.6即说明相关性较高,筛选出τ大于0.6的指标。
对通过COX风险回归模型筛选的指标进行Kendall相关性验证,所有临床表型指标的相关性系数均大于0.6,不用剔除任何一个指标,则最终选择的指标为:年龄、白细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、凝血酶原时间、国际标准化比值。
步骤6:使用卷积神经网络构建食管鳞癌患者生存风险预测模型,设置卷积神经网络结构参数,将步骤5中得到的指标作为卷积神经网络的输入,食管鳞癌患者风险等级作为卷积神经网络的输出,将食管鳞癌患者数据集分成训练集与测试集两部分,训练集用于食管鳞癌患者生存风险预测模型的训练,测试集用于评估食管鳞癌患者生存风险预测模型的优劣。
所述生存期的临界阈值为27.38月和67.39月,根据生存期的临界阈值将生存期划分为两个风险等级,高风险的生存期区间为[0,47.38月),低风险的生存期大于47.39月。
食管鳞癌患者临床表型数据为非图像非线性连续型数据,故选择一维卷积神经网络进行处理。使用卷积神经网络建立食管鳞癌患者生存风险预测模型的步骤为:
6.1设置卷积神经网络结构,使用Python的开源人工神经网络库Keras来搭建卷积神经网络,选择Keras库中的Sequential()模型搭建卷积神经网络结构。
6.2使用卷积神经网络构建食管鳞癌患者生存风险预测模型,模型的准确率计算方法为:
其中,Accuracy表示风险预测准确率,TP表示被正确地划分为高风险的个数,TN表示被错误地划分为高风险的个数,FN表示被错误地划分为低风险的个数,TN表示被正确地划分为低风险的个数。
损失函数Loss选择为“binary_crossentropy”,“binary_crossentropy”称为交叉熵损失函数,常用于二分类问题,使用“binary_crossentropy”需要在卷积神经网络的最后一层添加激活函数“Sigmoid”进行配合使用。模型进行迭代优化的次数设置为30次,即当训练次数达到30次,结束模型的训练。
6.3模型训练及预测:设置好卷积神经网络的结构及参数之后,使用训练集数据对卷积神经网络进行训练。随着训练次数的增加,模型的预测准确率不断增大,损失函数Loss值不断减小,模型的预测效果越来越好,最终训练结束之后,模型的训练集准确率为88.63%,Loss值为0.1483。利用训练获得的模型对测试集进行生存风险预测,输入食管癌患者临床表型指标,得到患者生存风险预测结果,模型在测试集上的准确率为81.12%,Loss值为0.5624。
卷积神经网络在少量有限的样本下很好的将食管癌病例的风险等级分类出来,充分体现了卷积神经网络对食管鳞癌患者生存风险分类预测的有效性,以及在小样本、非线性、高位中的分类识别的独特优势。
上面是结合附图对本发明的实施方式作了详细说明,但本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (7)
1.一种基于神经网络的健康风险预测方法,其特征在于,所述方法包括如下步骤:
步骤1:获取食管早期鳞癌患者的临床病理、实验室检查、生存期信息以及生存状态等多维度数据,一共M种;
步骤2:将收集到的数据进行预处理,进行无量纲化以及异常值处理,生成合理的数据;
步骤3:将预处理后的数据集进行分层随机抽样,分为训练集以及测试集,比例为8:2;
步骤4:利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类,再用COX风险回归模型对聚类结果进行回归验证,初步得到对食管鳞癌影响较大的N种指标(N<M);
步骤5:利用Kendall相关性分析法进一步地计算与食管鳞癌患者生存风险相关度高的临床表型指标之间的相关度,剔除相关性低的临床表型指标,最终得到与食管鳞癌患者生存风险相关度更高的临床表型指标;
步骤6:使用卷积神经网络构建食管鳞癌患者生存风险预测模型,设置卷积神经网络结构参数,将步骤5中得到的相关性高的临床表型指标作为卷积神经网络的输入,食管鳞癌患者风险等级作为卷积神经网络的输出。
2.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤1中的多维度数据包括患者的年龄、身高、体重以及临床指标信息分别为白细胞计数、淋巴细胞计数、单核细胞、中性粒细胞计数、嗜酸粒细胞计数、嗜碱粒细胞计数、红细胞计数、血红蛋白浓度、血小板计数、总蛋白、白蛋白、球蛋白、凝血酶原时间、国际标准化比值、活化部分凝血活酶时间、凝血酶时间、纤维蛋白原;
所述生存期信息是指生存时间,生存期的范围为[0.26月,137.00月];
所述生存状态是指截止到患者健在或者患者死亡。
3.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤2中的数据预处理包括无量纲化以及异常值处理,为了提高模型的精度,需要把不同尺度的数据通过某种方法转换到同一尺度,这就是无量纲化,包括:
步骤2-1:数据归一化也就是无量纲化的一种,其将数据减去数据最小值后,再除以极差(最大值-最小值),将数据都转换到[0,1]范围内,方便进行计算,数据归一化的公式如下:
其中x1是归一化后的结果,min是每个特征列中的最小值,max是每个特征列中的最大值;
步骤2-2:异常值处理:异常值是指不符合常理的数据,即年龄为1000,血小板计数为0,现实数据集中,由于粗心、疏忽、操作失误等原因,经常会产生异常值,识别和处理异常值非常重要,可以通过画箱线图的方式找到异常值,箱线图由上限、上四分位数、中位数、下四分位数、下限组成,其中上四分位数是将数据排序后第1/4个数,中位数是数据排序后最中间的数,下四分位数是数据排序后第3/4个数,上限为上四分位数+1.5倍四分位距,下限为下四分位数-1.5倍四分位距,其中四分位距等于上四分位数-下四分位数,超过上限或者低于下限的数值则为异常值。
4.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤3中划分数据集采用分层随机抽样将数据集分为训练集以及测试集,其比例为8:2,训练集用于食管鳞癌患者生存风险预测模型的训练,测试集用于评估食管鳞癌患者生存风险预测模型的优劣,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性。
5.根据权利要求1所述的一种基于神经网络的健康风险预测方法,其特征在于,所述步骤4中利用k-means优化后的SOM算法对M种临床表型指标以及生成期信息和生成状态进行聚类,然后用COX风险回归模型对聚类结果进行回归验证特征筛选出N种指标(N<M),具体过程如下:
步骤4-1:利用随机数随机设定竞争层(也叫输出层,输出层是由36个神经元组成的二维平面阵列)和输入层之间的初始连接权重值的向量Wk={ω1k,ω2k,…ωpk…ωMk},设定最大学习循环次数Tmax,设定学习率的初始值η,且η∈[0,1],ωpk为神经元k与第p种指标的连接权重值,i=1,2,...M为第i组数据;
步骤4-2:将样本集(训练集+测试集)作为输入向量输入至输入层,输入向量为V,其中训练样本VP={vp,1,vp,2,…vp,i…vp,M};
步骤4-3:计算竞争层的权值向量与输入向量的欧氏距离:选取一组训练样本,每一次训练数据会通过连接权重的大小,找到与该输入向量最近似的神经元作为优胜神经元k,定义D为输入向量与连接权重向量的距离,最近似的神经元也就是D最小对应的那个神经元:
D=||V-Wk||
步骤4-4:对优胜神经元k的权重进行调整,优胜神经元周围的神经元与输入向量的连接权重也会一并更新:
其中,t为当前学习循环次数,t+1为下一次学习循环次数,ωpk(t)为t次的权重值,ωpk(t+1)为t+1次的权重值,学习率η(t)为神经元k与邻近中心v的邻近关系值,Wv为优胜神经元周围神经元与输入向量的连接权重;
步骤4-6:将上面用SOM聚类算法得到的优胜神经元为初始聚类中心(质心),根据聚类中心值,将每个指标赋给最相似的簇,采用的是余弦相似度函数计算相似度:
步骤4-7:得到k'个新的簇,每个样本都被分到k'个簇中的某一个簇,然后当前的质心就会失效,需要计算每个新簇的新质心,重新计算每个簇中对象的平均值,用此平均值作为新聚类中心;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334736.1A CN116130105A (zh) | 2023-03-31 | 2023-03-31 | 一种基于神经网络的健康风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310334736.1A CN116130105A (zh) | 2023-03-31 | 2023-03-31 | 一种基于神经网络的健康风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116130105A true CN116130105A (zh) | 2023-05-16 |
Family
ID=86310273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310334736.1A Pending CN116130105A (zh) | 2023-03-31 | 2023-03-31 | 一种基于神经网络的健康风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116130105A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334334A (zh) * | 2023-09-28 | 2024-01-02 | 海南大学 | 一种健康风险预测方法、装置、设备及介质 |
CN118430803A (zh) * | 2024-04-22 | 2024-08-02 | 山东第一医科大学附属省立医院(山东省立医院) | 肝动脉栓塞化疗术后肿瘤再进展风险预测方法 |
-
2023
- 2023-03-31 CN CN202310334736.1A patent/CN116130105A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117334334A (zh) * | 2023-09-28 | 2024-01-02 | 海南大学 | 一种健康风险预测方法、装置、设备及介质 |
CN117334334B (zh) * | 2023-09-28 | 2024-05-03 | 海南大学 | 一种健康风险预测方法、装置、设备及介质 |
CN118430803A (zh) * | 2024-04-22 | 2024-08-02 | 山东第一医科大学附属省立医院(山东省立医院) | 肝动脉栓塞化疗术后肿瘤再进展风险预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Labati et al. | All-IDB: The acute lymphoblastic leukemia image database for image processing | |
CN106248559B (zh) | 一种基于深度学习的白细胞五分类方法 | |
CN116130105A (zh) | 一种基于神经网络的健康风险预测方法 | |
CN107066791A (zh) | 一种基于病人检验结果的辅助疾病诊断方法 | |
CN108717867A (zh) | 基于梯度迭代树的疾病预测模型建立方法及装置 | |
CN106022477A (zh) | 智能分析决策系统及方法 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN111554401A (zh) | 一种构建ai慢性肾病筛查模型的方法、慢性肾病筛查方法及系统 | |
CN108511056A (zh) | 基于脑卒中患者相似性分析的治疗方案推荐方法及系统 | |
CN116153495A (zh) | 一种食管癌患者免疫治疗预后生存预测方法 | |
CN114358169B (zh) | 一种基于XGBoost的结直肠癌检测系统 | |
WO2023197825A1 (zh) | 多癌种早筛模型构建方法以及检测装置 | |
CN110059568A (zh) | 基于深层卷积神经网络的多类白细胞自动识别方法 | |
CN112652361A (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
CN107480441B (zh) | 一种儿童脓毒性休克预后预测的建模方法及系统 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN117541095A (zh) | 一种农用地土壤环境质量类别划分的方法 | |
CN115910364A (zh) | 医学检验质控模型训练方法、医学检验质控方法及系统 | |
CN116259415A (zh) | 一种基于机器学习的患者服药依从性预测方法 | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 | |
CN117034110A (zh) | 一种基于深度学习的干细胞外泌体检测方法 | |
CN114999566B (zh) | 基于词向量表征和注意力机制的药物重定位方法及系统 | |
CN114764682B (zh) | 一种基于多机器学习算法融合的大米安全风险评估方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
Huang et al. | An efficient convolutional neural network-based diagnosis system for citrus fruit diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |