CN113903458A - 急性肾损伤早期预测方法及装置 - Google Patents
急性肾损伤早期预测方法及装置 Download PDFInfo
- Publication number
- CN113903458A CN113903458A CN202111246635.6A CN202111246635A CN113903458A CN 113903458 A CN113903458 A CN 113903458A CN 202111246635 A CN202111246635 A CN 202111246635A CN 113903458 A CN113903458 A CN 113903458A
- Authority
- CN
- China
- Prior art keywords
- stage
- prediction model
- kidney injury
- primary
- acute kidney
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- General Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Genetics & Genomics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明是关于一种急性肾损伤早期预测方法及装置,方法包括:构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集;对一级数据样本集和二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;使用一级训练数据集和二级训练数据集,利用支持向量机算法训练,分别训练得到一级和二级急性肾损伤早期预测模型;使用遗传算法对一级和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;使用一级测试数据集和二级测试数据集对优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
Description
技术领域
本发明涉及医学技术领域,尤其涉及一种急性肾损伤早期预测方法及装置。
背景技术
急性肾损伤(AKI)是肾移植、心脏术后、脓毒血症患者的一种常见且严重的并发症。目前实验室主要依靠血肌酐和尿量变化预测AKI的发生,但是血肌酐和尿量只有在肾功能明显受损时才有可能检测出变化,敏感性非常差,由于血清肌酐和尿量的变化具有滞后性和不稳定性,不能对AKI进行早期有效的预测和风险评估,因而患者不能得到及时治疗。近年来一些研究发现部分患者的其他尿液标志物的变化比血肌酐早,具有明显的时间优势。临床上应用较广泛的尿液分子标志物有:中性粒细胞明胶酶相关脂质运载蛋白(NGAL)、肾损伤分子1(KIM-1)、白介素18(IL-18)、肝型脂肪酸结合蛋白(L-FABP)、尿微量白蛋白(mAlb)、尿β2微球蛋白(β2-MG)、尿半胱氨酸蛋白酶抑制剂C(CysC)、尿N乙酰β-D氨基葡萄糖苷酶(NAG)、尿[TIMP-2]×[IGFBP-7]等,这些标志物单独或联合检测为早期识别AKI提供了一定的帮助,但是单一指标的临床价值有限,目前采用的联合检测方案多是以受试者工作曲线(ROC)或Logistic回归分析建立AKI模型,但是由于多数建模样本量较少,这些方法建立的预测模型的可靠性和准确性有待提高,因此最佳的预测模型仍在探索中。
目前已有AKI预测模型的缺点主要是:
(1)模型建立方法的选择:目前采用的联合检测方案多是以受试者工作曲线(ROC)或Logistic回归分析建立AKI模型,但是由于多数建模样本量较少,这些方法建立的预测模型的可靠性和准确性有待提高,因此最佳的预测模型仍在探索中。
(2)预测模型中有效变量的选择:
部分模型选择的检测指标无法在临床常规开展,纳入的指标多,检测成本较高,极大地限制了模型的应用。
(3)对AKI预测的时间滞后:
已建立的AKI预测只能预测AKI重症患者,对AKI的预测必须是早期(小于等于24小时),晚期(大于等于48小时)预测的话将会因为治疗不及时造成死亡率依然高居不下。
发明内容
为克服相关技术中存在的问题,本发明提供一种急性肾损伤早期预测方法及装置。
根据本发明实施例的第一方面,提供一种急性肾损伤早期预测方法,方法包括:
构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
在一个实施例中,优选地,所述方法还包括:
获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
在一个实施例中,优选地,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
在一个实施例中,优选地,使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型,包括:
分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
在一个实施例中,优选地,对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估之后,还包括:
使用适应度函数分别计算所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的适应度函数值;其中,所述适应度函数值的计算公式为:
根据本发明实施例的第二方面,提供一种急性肾损伤早期预测装置,所述装置包括:
构建模块,用于构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
确定模块,用于对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
训练模块,用于使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
优化模块,用于使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
评估模块,用于使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
在一个实施例中,优选地,所述装置还包括:
第一获取模块,用于获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
第一预测模块,用于根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
第二获取模块,用于当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
第二预测模块,用于根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
在一个实施例中,优选地,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
在一个实施例中,优选地,所述优化模块包括:
第一确定单元,用于分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
第二确定单元,用于确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
参数优化单元,用于使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
在一个实施例中,优选地,还包括:
计算模块,用于使用适应度函数分别计算所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的适应度函数值;其中,所述适应度函数值的计算公式为:
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,利用支持向量机模型解决急性肾损伤高纬度、小样本、非线性的模式识别问题,并利用遗传算法对支急性肾损伤早期预测模型进行优化,以提高AKI早期预测的准确性。同时本发明训练两个急性肾损伤早期预测模型,并使用两个急性肾损伤早期预测模型联合进行AKI早期预测,使正确率达到最高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种急性肾损伤早期预测方法的流程图。
图2是根据一示例性实施例示出的另一种急性肾损伤早期预测方法的流程图。
图3是根据一示例性实施例示出的一种急性肾损伤早期预测方法中步骤S104的流程图。
图4是根据一示例性实施例示出的一种分类精度示意图。
图5是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
图6是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
图7是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种急性肾损伤早期预测方法的流程图,如图1所示,该方法包括:
步骤S101,构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
在一个实施例中,优选地,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
急性肾损伤(AKI)相关样本数据为36位患者的5个时段(4小时、12小时、24小时、48小时以及72小时)的8种尿液分子标志物NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C、NAG数据样本,其中有29位确诊为阴性,7位确诊为阳性,样本数量非常少。
所谓阴性即为术后未出现AKI(肾功能严重损坏现象),后期康复的患者;阳性则相反,即为术后患AKI的患者。所谓的小样本是数据样本数量和函数集的VC维之比小于20的数据样本集,此处的样本数量为36,函数集的VC维为4时,36/4=9;函数集的VC维为8时,36/8≈5,都小于20,则可以将该急性肾损伤早期预测问题看做一个小样本、高维数、非线性的模式识别问题。
所有的数据样本集中都将阴性患者标注为-1,即未患病;将阳性患者标注为1即患病。以下是本发明所用的数据样本集:
(1)采用mAlb、β2-MG、CysC、NAG 4个标志物构建一级数据样本样本集。
①4小时、12小时、24小时、48小时、72小时五个时段的4维数据样本集;
4小时+12小时、4小时+24小时、4小时+48小时、4小时+72小时、12小时+24小时、12小时+48小时、12小时+72小时、24小时+48小时、24小时+72小时、48小时+72小时十个8维数据样本集;
4小时+12小时+24小时、4小时+12小时+48小时等十个12维数据样本集;
4小时+12小时+24小时+48小时、4小时+12小时+24小时+72小时等五个16维数据样本集;
4小时+12小时+24小时+48小时+72小时的20维数据样本集。
总共31个数据样本集。
②对不同时段的相同样本标志物取差值,即构建12小时-4小时、24小时-4小时、48小时-4小时、72小时-4小时、24小时-12小时等十个4维数据样本集;
(12小时-4小时)+(48小时-4小时)、(12小时-4小时)+(48小时-12小时)等四十五个8维数据样本集等。
总共有1023个数据样本集,样本集数量偏多,将在后续试验中进行取舍。
(2)采用AKI高危疾病组的血/尿液八个指标NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C、NAG构建二级数据样本集。
同(1)中的构建方式,构建五个8维数据样本集、十个16维数据样本集、十个24维数据样本集、五个32维数据样本集、一个40维样本集等总共31个数据样本集;构建不同时段的样本差值数据样本集1023个。
步骤S102,对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
以上2000多个数据样本集中的每个数据样本集都只包含36例样本实例,样本量非常少,需要对样本进行合理的处理和应用如下:
①数据样本集产生后,考虑到样本各参数的集中取值范围不同,参数大小不一,需要对数据进行归一化处理,这样做可以提高模型训练速度,增强计算稳定性。假设某一标志物的样本集为Xi={xi1,xi2,…,xi36},其中i={1,2,3,4},根据以下方程对样本集进行归一化:
xij'=αi*xij+βi(i=1,2,3,4,j=1,2,...3,6)
其中,α、β的计算公式如下(式中i={1,2,3,4}):
数据归一化完成后,需要对数据样本集进行分割,将数据样本集S分为训练数据集S1、测试数据集S2,S1∪S2=S。其中,训练数据集S1用于训练支持向量机模型,测试数据集S2用于训练所得的急性肾损伤早期预测支持向量机模型的预测和评估。为了可以充分利用仅有的少量的数据样本集,制定了具体的、适用的实验方案如下(36例样本中有29例负样本(阴性患者)、7例正样本(阳性患者)):
a.选取18例样本(14例负样本和4例正样本)作为训练数据样本集,剩余的18例样本(15例负样本和3例正样本)作为测试数据样本集,交叉验证;
b.循环选取36例样本中的1例作为测试数据样本集,剩余35例样本作为训练数据样本集,即采用留一交叉验证方法。
步骤S103,使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
步骤S104,使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
步骤S105,使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
图2是根据一示例性实施例示出的另一种急性肾损伤早期预测方法的流程图。
如图2所示,在一个实施例中,优选地,所述方法还包括:
步骤S201,获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
步骤S202,根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
步骤S203,当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
步骤S204,根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
图3是根据一示例性实施例示出的一种急性肾损伤早期预测方法中步骤S104的流程图。
如图3所示,在一个实施例中,优选地,上述步骤S104包括:
步骤S301,分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
步骤S302,确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
步骤S303,使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
遗传算法是一种具有较高优化性能的优化算法,它具有隐含的并行性和强大的全局搜索能力,可以通过很短的时间搜索到全局最优点。然而,遗传算法的优化性能受到初始种群规模、遗传代数、变异概率、交叉概率以及染色体位串长度L等五个参数的影响。
本发明对影响遗传算法优化性能的五个参数进行深入研究,利用性能较优的遗传算法对支持向量机模型参数进行优化,并将该方法与穷举法和人工调参法进行对比,验证该算法的有效性。
1.染色体位串长度L:由需要优化的参数的离散精度eps以及上下界max、min决定L的大小。对支持向量机分类性能影响越大的参数要求离散精度越高,反之精度则会越小。离散精度越高,位串越长,需要的计算时间就越多。实验中高离散精度取0.001,低离散精度取0.01。
对支持向量机的急性肾损伤早期预测模型参数进行优化之前需要首先确定模型参数的范围和精度,既而确定参数的编码位长。以径向基核函数(高斯核)为例,分别验证惩罚系数C和高斯核函数参数g对识别率的影响,结果如表1、表2所示。
表1惩罚系数C对识别率的影响
表2高斯核函数参数g对识别率的影响
表1和表2均采用的是相同的训练集和测试集。两表中的相对较优值所对应的C(1332.9)和g(138.9)的取值是根据大量的实验逐步缩小范围所获取得到的,仅做参考。表1、表2分别表示惩罚系数和核函数参数对SVM性能的影响,实验数据表明:惩罚系数C对SVM性能的敏感性较差,即惩罚系数既使发生很大的变动,对识别率的影响也不会很大;然而,核函数参数对SVM性能的影响却非常明显,既使很小的变动,也会产生很大的影响。
综上,实验中将惩罚系数C的离散精度为0.01,相比核函数参数的离散精度0.001,大了10倍;将惩罚系数C的范围设定为(1,500),核函数参数的范围设定为(0,200)。故C的编码位长见下式(1)、g编码位长见下式(2):
2.初始种群规模PopNum:PopNum越大,群体中所含有的模式就越多,群体的多样性就越丰富,搜索范围就越广,遗传算法的优化性能就越好,但是每代遗传操作占用的时间也会越长,使得收敛速度下降,运行效率降低。初始群体规模PopNum与染色体位串长度L有关。
3.遗传代数T:遗传代数的确定对遗传算法性能是否有决定性的作用,也是实验考虑的因素之一。
4.交叉概率Pc:交叉概率Pc控制着交叉算子使用的频率。Pc越大,群体中新的基因结构的引入越快,已获得的优良基因结构的丢失速度就越高,即高性能的模式遭到破坏的可能性就越大;然而,Pc过低则会导致遗传算法搜索阻滞,陷入迟钝状态。交叉算子是产生新个体的主要方法之一,因此交叉概率Pc应取较大值,从而保持群体多样性不变。一般Pc取值在0.25~0.99之间。实验中取交叉概率为0.4。
5.变异概率Pm:合适的变异概率Pm可以防止群体中重要的、单一基因的丢失。然而Pm过小会使基因位过早丢失的信息无法恢复;Pm过大可能会使群体中基因结构较好的个体变异掉,甚至使得遗传算法退化为随机搜索法。关于变异概率的选取各类文献和书刊的说法不一。
表3基于遗传算法的SVM象棋棋盘识别率(径向基核函数)
表3为初始种群数目和进化代数不同的情况下训练处的模型所对应的测试数据的正确识别率。表中的数据结果大致可以总结如下:
遗传算法的优化性能与遗传代数T没有太大的关系,本实验选取T=10;
当变异概率Pm=0.05时使得遗传算法的整体优化性能较优,较稳定;表明在采用本实验中设计的变异算子的情况下,Pm约为0.05时较为合适;
初始群体规模PopNum与染色体位串长度L有关,PopNum选取L<PopNum<2*L或者2*L<PopNum<3*L较合适,数据显示这样选取不仅使得遗传算法的优化性能较好,而且计算复杂度不会太高。本次实验在PopNum=100,得到的识别率最高,因此初始样本群数PopNum=2.5*(L1+L2)。故初始种群数目PopNum=2.5*(16+18)=85。
在一个实施例中,优选地,对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估之后,还包括:
使用适应度函数分别计算所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的适应度函数值;其中,所述适应度函数值的计算公式为:
采用支持向量机算法构建急性肾损伤早期预测模型,并用遗传算法对模型参数进行了优化。影响遗传算法优化性能的参数除了初始种群规模、遗传代数、变异概率、交叉概率以及染色体位串长度L等五个参数外,遗传算法优化性能的好坏同样受遗传算法适应度函数的影响。而适应度函数的设计同样需要关注,适应度函数是对每个个体的适应度评估,个体对应的适应度函数值越高就代表着该个体的性能较优,被遗传至下一代的概率越高,所以适应度函数值需要根据数据样本情况进行分析设计。
根据急性肾损伤诊断研究问题具体情况以及目前存在的样本数据正负样本样本量不均衡问题,设计了具体的、有针对性的适应度函数F,如下式:
通过图4分类精度图示对TS评分算法、正确识别率算法以及适应度函数进行直观的解释。
图4中矩形框表示全体样本,它被划分为4个子区域,其中区域A+D表示全体负样本,B+C区域表示全体正样本,C+D表示预报的全体正样本,A+B表示预报的全体负样本。则:
A区域表示实际为负样本并且预报为负样本的样本数量;
B区域表示实际为正样本但是预报为负样本的样本数量;
C区域表示实际为正样本并且预报为正样本的样本数量;
D区域表示实际为负样本但是预报为正样本的样本数量。
所以TS评分算法、正确识别率算法以及本节中所设计的适应度函数可以直观的表示为:
采用一级数据样本集和二级数据样本集,分别训练急性肾损伤早期诊断支持向量机模型,在训练模型的同时利用遗传算法对模型进行优化,并对优化后的模型进行评估。表4、5为对分别采用(18+18)交叉验证方法和留一交叉验证方法训练的支持向量机模型的评估结果汇总。
表4基于交叉验证方法的支持向量机模型评估结果(1)
表5基于交叉验证方法的支持向量机模型评估结果(2)
从实验数据中可以很明显的看出:
⑴对于48、72小时的数据样本集,无论是4个诊断标志物还是8个诊断标志物,最终训练得出模型都不理想,这也与医务人员的人工诊断相符合,而且,患者术后48小时才确诊已算晚期诊断,不利于治疗,死亡的可能性较大;
⑵在通过一级数据样本集训练的模型中,通过术后4小时的样本数据集所训练得到的模型相对较优,诊断正确率达到了83.33%;
⑶二级数据样本集建立的模型中,术后12小时的样本数据集所建立的模型相对较优,诊断正确率达到了88.89%。
根据以上⑵、⑶中的支持向量机模型对相应测试数据样本集的评估预报值,分析两个模型的互补性如表6所示。从表中可看出,一级模型和二级模型具有互补性,使得最终达到0个假阴性和3个假阳性这个较好的结果,诊断正确率达到了91.67%。这个结果之所以好,不仅是因为其诊断正确率得到了提高,主要原因是一级模型和二级模型的结合很大的减少了甚至消除了急性肾损伤的漏报个数,具有深远的意义。就急性肾损伤来讲,如果虚惊(即存在假阳性),只是会增加病人的住院费用,巩固病情,而不会造成其他的较为严重的影响,然而如果漏报(即存在假阴性),失去的将会是急性肾损伤患者的生命,所以结合一级急性肾损伤早期诊断支持向量机模型和二级急性肾损伤早期诊断支持向量机模型,会在患者术后12小时确诊,诊断正确率可以达到91.67%,而且漏报的可能性非常小。
表6一、二级模型对应测试数据样本集预报值(1)
综上,采用遗传算法优化后的急性肾损伤早期诊断支持向量机模型的诊断正确率达到了91.7%,较人工预测有了很大的突破。
图5是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
如图5所示,根据本发明实施例的第二方面,提供一种急性肾损伤早期预测装置,所述装置包括:
构建模块51,用于构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
确定模块52,用于对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
训练模块53,用于使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
优化模块54,用于使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
评估模块55,用于使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
图6是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
如图6所示,在一个实施例中,优选地,所述装置还包括:
第一获取模块61,用于获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
第一预测模块62,用于根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
第二获取模块63,用于当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
第二预测模块64,用于根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
在一个实施例中,优选地,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
图7是根据一示例性实施例示出的一种急性肾损伤早期预测装置的框图。
如图7所示,在一个实施例中,优选地,所述优化模块54包括:
第一确定单元71,用于分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
第二确定单元72,用于确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
参数优化单元73,用于使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
在一个实施例中,优选地,还包括:
计算模块,用于使用适应度函数分别计算所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的适应度函数值;其中,所述适应度函数值的计算公式为:
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种急性肾损伤早期预测方法,其特征在于,所述方法包括:
构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
3.根据权利要求1所述的方法,其特征在于,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
4.根据权利要求1所述的方法,其特征在于,使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型,包括:
分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
6.一种急性肾损伤早期预测装置,其特征在于,所述装置包括:
构建模块,用于构建急性肾损伤尿液分子标志物的一级数据样本集和二级数据样本集,其中,所述一级数据样本集中的每个样本数据包括4种尿液分子标志物,所述二级数据样本集中的每个样本数据包括8种尿液分子;
确定模块,用于对所述一级数据样本集和所述二级数据样本集进行归一化处理和分割,以确定一级训练数据集和一级测试数据集,和二级训练数据集和二级测试数据集;
训练模块,用于使用所述一级训练数据集和所述二级训练数据集,利用支持向量机算法训练,分别训练得到一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
优化模块,用于使用遗传算法对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行参数优化,以得到优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型;
评估模块,用于使用所述一级测试数据集和所述二级测试数据集对所述优化后的一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型进行验证评估。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第一获取模块,用于获取目标患者的急性肾损伤尿液分子标志物的一级检验数据;
第一预测模块,用于根据所述目标患者的一级检验数据和所述优化后的一级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第一预测结果;
第二获取模块,用于当所述第一预测结果显示不能确诊时,获取所述目标患者的急性肾损伤尿液分子标志物的二级检验数据;
第二预测模块,用于根据所述目标患者的二级检验数据和所述优化后的二级急性肾损伤早期预测模型对所述目标患者进行急性肾损伤早期预测,得到第二预测结果。
8.根据权利要求6所述的装置,其特征在于,所述一级数据样本集中的4种尿液分子标志物包括mAlb、β2-MG、CysC和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时;
所述二级数据样本集中的8种尿液分子标志物包括NGAL、IL-18、KIM-1、L-FABP、mAlb、β2-MG、Cys C和NAG,其采集时段包括术后4小时、术后12小时、术后24小时、术后48小时和术后72小时。
9.根据权利要求6所述的装置,其特征在于,所述优化模块包括:
第一确定单元,用于分别确定所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数范围和精度,以及参数范围的编码位长和所述精度编码位长;
第二确定单元,用于确定遗传算法的参数,其中,所述遗传算法的参数包括初始种群规模、遗传代数、变异概率、交叉概率和染色体位串长度;
参数优化单元,用于使用所述遗传算法分别对所述一级急性肾损伤早期预测模型和二级急性肾损伤早期预测模型的参数进行优化,以得到最优参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246635.6A CN113903458A (zh) | 2021-10-26 | 2021-10-26 | 急性肾损伤早期预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111246635.6A CN113903458A (zh) | 2021-10-26 | 2021-10-26 | 急性肾损伤早期预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113903458A true CN113903458A (zh) | 2022-01-07 |
Family
ID=79026157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111246635.6A Pending CN113903458A (zh) | 2021-10-26 | 2021-10-26 | 急性肾损伤早期预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903458A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115995298A (zh) * | 2023-03-21 | 2023-04-21 | 中国医学科学院阜外医院 | 心脏术后aki发生概率确定方法及系统、辅助决策系统 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392399A (zh) * | 2017-08-30 | 2017-11-24 | 桂林电子科技大学 | 一种基于改进遗传算法的svm卷烟感官质量预测方法 |
CN111508604A (zh) * | 2020-04-20 | 2020-08-07 | 深圳大学 | 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 |
CN112434466A (zh) * | 2020-11-20 | 2021-03-02 | 福建商学院 | 一种基于遗传支持向量机的河口盐度预报模型 |
-
2021
- 2021-10-26 CN CN202111246635.6A patent/CN113903458A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392399A (zh) * | 2017-08-30 | 2017-11-24 | 桂林电子科技大学 | 一种基于改进遗传算法的svm卷烟感官质量预测方法 |
CN111508604A (zh) * | 2020-04-20 | 2020-08-07 | 深圳大学 | 一种急性肾损伤患者死亡率预测方法、服务器及存储介质 |
CN112434466A (zh) * | 2020-11-20 | 2021-03-02 | 福建商学院 | 一种基于遗传支持向量机的河口盐度预报模型 |
Non-Patent Citations (1)
Title |
---|
任晓蓓: ""急性肾损伤早期诊断预测模型研究"", 《工学硕士学位论文》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115995298A (zh) * | 2023-03-21 | 2023-04-21 | 中国医学科学院阜外医院 | 心脏术后aki发生概率确定方法及系统、辅助决策系统 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
CN117373584B (zh) * | 2023-12-08 | 2024-03-12 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210383890A1 (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Martorell-Marugán et al. | Deep learning in omics data analysis and precision medicine | |
CA2894317C (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
CN113903458A (zh) | 急性肾损伤早期预测方法及装置 | |
CN106529207B (zh) | 一种与核糖核酸结合的蛋白质的预测方法 | |
WO2020170052A1 (en) | Disease-gene prioritization method and system | |
CN114974598B (zh) | 一种肺癌预后预测模型构建方法及肺癌预后预测系统 | |
CN112215259A (zh) | 基因选择方法和装置 | |
Akutekwe et al. | An optimized hybrid dynamic Bayesian network approach using differential evolution algorithm for the diagnosis of Hepatocellular Carcinoma | |
Fotis et al. | DeepSIBA: chemical structure-based inference of biological alterations using deep learning | |
Tang et al. | A deep learning approach to handling temporal variation in chronic obstructive pulmonary disease progression | |
Yaman et al. | MachineTFBS: Motif-based method to predict transcription factor binding sites with first-best models from machine learning library | |
Muflikhah et al. | Improving Performance for Diabetic Nephropathy Detection Using Adaptive Synthetic Sampling Data in Ensemble Method of Machine Learning Algorithms | |
Amin et al. | Developing a machine learning based prognostic model and a supporting web-based application for predicting the possibility of early diabetes and diabetic kidney disease | |
CN118114125B (zh) | 基于增量学习的miRNA及其异构体家族信息识别方法 | |
CN115828093B (zh) | 组学样本的分析方法、装置、电子设备及存储介质 | |
Li et al. | Prediction of splice site using support vector machine with feature selection | |
US20230116904A1 (en) | Selecting a cell line for an assay | |
MESSA et al. | Genetic algorithm-driven auto-encoders: unraveling complex patterns in Parkinson's and breast cancer data | |
Chen | Deep Learning Methods for High-Resolution Functional Annotation and Discovery of Novel Connections Between Gene Sets | |
Guo | Protein contact distance and structure prediction driven by deep learning | |
Zhou | Integrating web data miningand machine learningalgorithms to predict progression free survival and overall survival in multiple myeloma patients | |
Fuchs | Predicting Protein Interaction Sites through Machine Learning and Data Aggregation | |
Kariotis | Unsupervised machine learning of high dimensional data for patient stratification | |
Pradhan et al. | GA-ANN based dominant gene prediction in microarray dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220107 |