CN113674862A - 一种基于机器学习的急性肾功能损伤发病预测方法 - Google Patents
一种基于机器学习的急性肾功能损伤发病预测方法 Download PDFInfo
- Publication number
- CN113674862A CN113674862A CN202110772449.XA CN202110772449A CN113674862A CN 113674862 A CN113674862 A CN 113674862A CN 202110772449 A CN202110772449 A CN 202110772449A CN 113674862 A CN113674862 A CN 113674862A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- aki
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000001154 acute effect Effects 0.000 title claims abstract description 17
- 230000006378 damage Effects 0.000 title claims abstract description 17
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 208000027418 Wounds and injury Diseases 0.000 title claims abstract description 16
- 208000014674 injury Diseases 0.000 title claims abstract description 16
- 230000003907 kidney function Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000012360 testing method Methods 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000004140 cleaning Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 11
- 238000013075 data extraction Methods 0.000 claims abstract description 10
- 201000011040 acute kidney failure Diseases 0.000 claims description 48
- 238000002790 cross-validation Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000013503 de-identification Methods 0.000 claims description 5
- 238000012847 principal component analysis method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000011946 reduction process Methods 0.000 claims description 2
- 238000013399 early diagnosis Methods 0.000 description 6
- 230000002427 irreversible effect Effects 0.000 description 4
- 206010061481 Renal injury Diseases 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013058 risk prediction model Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 208000020832 chronic kidney disease Diseases 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
一种基于机器学习的急性肾功能损伤发病预测方法,它涉及医学计算机技术领域。所述方法包括:数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。
Description
技术领域
本发明涉及医学计算机技术领域,具体涉及一种基于机器学习的急性肾功能损伤发病预测方法。
背景技术
急性肾功能损伤广泛分布于临床各个科室,是急、重、复杂病例的常见并发症,院内病死率高,医疗资源消耗大,且存活者远期病死率和慢性肾脏病发生率均显著升高。当前决定AKI病患预后的关键是“早”——早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤。
随着大数据时代的发展,机器学习得到了广泛的应用,在数据挖掘、自然语言处理、图像识别处理等领域取得了令人瞩目的成果。由于机器学习具有特征提取,建立复杂模型的能力,因此可以将其引入临床医学数据分析中,通过机器学习算法建立相关模型,对电子病例数据进行分析,预测患者的患病风险,进而做到早发现、早诊断、早干预,一定程度上可以避免疾病的发生。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于机器学习的急性肾功能损伤发病预测方法,以解决上述背景技术中提出的问题,本发明建立急性肾功能损伤风险预测模型,用于预测是否有发生急性肾功能损伤的风险,从而做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
为实现上述目的,本发明采用以下技术方案是:它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估,所述数据提取,是将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;所述数据预处理,是对AKI数据库进行数据标记、数据清洗、数据离散化等工作,方便后续对数据的使用;所述数据分组,是将预处理后的数据按一定比例,随机的分为训练集和测试集,训练集用于训练预测模型,测试集用于计算预测模型的验证和评估;所述特征提取,其本质是一个降维的过程,将AKI数据进行特征的提取,减少变量的数量,用于后续预测模型的建立,可以加快模型训练的速度;所述预测模型训练,是将经过特征提取的结果作为模型的输入,是否患有AKI作为模型的输出,训练模型从而得到AKI预测模型;所述模型的验证和评估,是将测试集作为模型的输入,预测是否会发生AKI,并与真实结果进行比较,从而对模型进行验证和评估。
进一步的,所述的数据提取SQL数据库对电子病历进行筛选,根据专家给定的纳入标准提取AKI患者的数据得到实验组数据,并通过统计学的方法进行相应的提取得到对照组数据。
进一步的,所述的数据提取将对提取后的数据进行匿名化和去标识化处理,包含患者的隐私。
进一步的,所述的数据预处理对提取的数据进行一系列预先处理,包括:数据标记、数据清洗、数据离散化,数据标记是对实验组和对照组的数据进行标记,实验组为发生AKI患者的数据,标记为1,对照组为未发生AKI患者的数据,标记为0;数据清洗是对数据进行审查和校验的过程,包括补全缺失数据、纠正数据中的错误、删除脏数据等;数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,方便进行后续的操作。
进一步的,所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。
进一步的,所述的特征提取通过主成分分析的方法对训练集数据进行降维,并使用同样的方法对测试集数据降维,加快后续模型的训练速度,主成分分析,是一种使用最广泛的数据降维算法,主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
进一步的,所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入,是否发生AKI作为模型的输出,进行预测模型的训练,使用的模型有多层感知器与Adaboost算法,多层感知器是一种前馈人工神经网络模型,将输入的多个数据集映射到单一的输出的数据集上,通过计算预测结果和真实结果的均方误差作为损失函数,即:
并使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的,其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;Adaboost算法即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。
进一步的,所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证;并使用常用的评价指标:准确率、精度、召回率等作为模型的评估,所述“k折交叉验证”,是将数据等比例的分成k份,然后每次选择其中的k-1个子集的并集作为训练集,余下的1个子集作为测试集;这样就可以获得k组训练-测试集,从而可以进行k次训练和测试,返回k次测试结果的均值,可以有效评估模型的泛化能力;所述准确率,是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
所述召回率,是覆盖面大度量,召回率越接近1,模型预测效果越好。
本发明的工作原理:首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。
采用上述技术方案后,本发明有益效果为:本发明将机器学习的方法运用到临床医学中,建立AKI风险预测模型,用于预测是否有发生急性肾功能损伤的风险,做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1的一种基于机器学习的急性肾功能损伤发病预测方法的流程图;
图2是本发明实施例1的“k折交叉验证”法说明图;
图3是本发明实施例1的模型训练中多层感知器网络模型。
具体实施方式
本发明提供了一种基于机器学习的急性肾功能损伤发病预测方法,建立急性肾功能损伤风险预测模型,用于预测是否有发生急性肾功能损伤的风险,从而做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤。
下面结合附图1-图3和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提出了一种基于机器学习的急性肾功能损伤发病预测方法。所述方法包括:数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。该方法通过机器学习算法对电子病历进行分析,从而预测发生急性肾功能损伤的风险,可用于临床医学辅助治疗,做到早发现、早诊断、早干预,从而降低医疗资源的消耗率,节约人力和财务成本。
本实例使用的特征提取方法为主成分分析法;预测模型有两种,分别为:多层感知器和Adaboost算法;同时,使用交叉验证的方法对模型进行验证,并通过计算准确率、精度、召回率等对模型进行评估。
基于机器学习的急性肾功能损伤发病预测方法,具体步骤如下:
1)将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;
实验组是通过专家给出的诊断标准,使用SQL数据库从电子病历中筛选得到的,对照组是通过对实验组的分析,使用统计学的方法筛选得到与实验组相对应的数据;
在筛选得到AKI数据后,先对患者信息的匿名化和去标识化,保护患者的隐私,具体操作为:删除与实验不相关的信息,例如姓名,家庭住址等;将生日及其他日期信息进行时间漂移,即去标识化处理。在完成匿名化和去标识化操作后,得到了AKI数据库,用于后续的训练预测。
2)对AKI数据库进行数据标记、数据清洗、数据离散化等操作。
数据标记是将AKI数据库的实验组和对照组进行标记,实验组为患有AKI患者的数据,记为1;对照组为正常患者的数据,记为0。
数据清洗是对数据进行审查和校验的过程,包括发现并纠正数据中的错误,去除无效的数据,对关键的缺失值进行填补等操作。
数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,一方面可以消除不同指标的量纲对结果的影响,另一方面是为特征提取做准备。
3)由于使用“k折交叉验证”方法进行模型的训练,因此,在特征提取之前,需要将数据集分为训练集和测试集两部分,其中训练集是用于对模型进行训练,测试集用于测试已经训练好的模型;“k折交叉验证”法如图2所示。
所谓“k折交叉验证”法,是通过对k个不同分组训练的结果进行平均来减少方差,其步骤为:
第一步,不重复抽样将原始数据随机分为k份;
第二步,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
第三步,重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集;在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
第四步,计算k组测试结果的平均值作为模型精度的估计,并作为当前k折交叉验证下模型的性能指标。
4)特征提取是将一些原始的输入数据维度减少或者将原始的特征进行重新组合以便于后续的使用;在该过程中,使用主成分分析将AKI数据中的训练集进行特征提取,降低数据维度,加快模型的训练时间。
例如,训练集Xtrain={x1,x2,…,xn},需要降到k维;则主成分分析法的主要步骤为:
第一步,去平均值,即每一维特征减去各自的平均值;
第二步,计算协方差矩阵
第三步,用特征值分解方法求协方差矩阵的特征值与特征向量;
第四步,对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P;
第五步,将数据转换为k个特征向量构建的新空间中,即:
Ytrain=PXtrain
所得结果Ytrain即为Xtrain降到k维后的特征。
同理,测试集也需要通过主成分分析法进行特征提取,进而用于后续的模型验证中;测试集Xtest={x1,x2,…,xn}可以通过上述训练集训练过程中的特征向量矩阵P,直接得到k维的特征Ytest,即:
Ytest=PXtest
5)将k维的特征数据作为预测模型的输入,是否AKI作为预测模型的输出,进行模型的预测;在该过程中,主要考虑使用多层感知器和Adaboost两种方法作为预测模型,对预测模型进行训练。
多层感知器,是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上,其网络模型如图2所示。在多层感知器中,层与层之间均为全连接层,最底层为输入层,中间为隐藏层,最后为输出层;在训练过程中,使用ReLU作为激活函数:
f(x)=max(0,x)
通过计算预测结果和真实结果的均方误差作为损失函数,即:
其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;同时,使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的。
另一种模型训练的方法是Adaboost,即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。其步骤为:
第一步,初始化训练数据的权值分布;每一个训练样本最开始都被赋予相同的权重1/N,即:
第二步,进行多轮迭代,用t=1,2,…,T表示迭代的第几轮,对样本权重进行归一化处理,即
使用具有权值分布pt的训练数据集学习,得到基本分类器ht(x),计算ht(x)在训练数据集上的分类误差率:
计算βt,
权重更新:
第三步,最终分类器为:
6)在使用训练集对模型进行训练后,可使用测试集对模型进行验证和评估;在步骤4)中,已经得到特征提取后的测试集结果,将该测试集作为预测模型的输入,将预测结果和真实的结果进行对比,计算以下指标对模型进行评估:
准确率是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
精度是反映被分类器判定的正例中真正的正例样本的比重;
召回率是覆盖面大度量,召回率越接近1,模型预测效果越好。
本发明的工作原理:首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。
采用上述技术方案后,本发明有益效果为:本发明将机器学习的方法运用到临床医学中,建立AKI风险预测模型,用于预测是否有发生急性肾功能损伤的风险,做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估,所述数据提取,是将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;所述数据预处理,是对AKI数据库进行数据标记、数据清洗、数据离散化等工作,方便后续对数据的使用;所述数据分组,是将预处理后的数据按一定比例,随机的分为训练集和测试集,训练集用于训练预测模型,测试集用于计算预测模型的验证和评估;所述特征提取,其本质是一个降维的过程,将AKI数据进行特征的提取,减少变量的数量,用于后续预测模型的建立,可以加快模型训练的速度;所述预测模型训练,是将经过特征提取的结果作为模型的输入,是否患有AKI作为模型的输出,训练模型从而得到AKI预测模型;所述模型的验证和评估,是将测试集作为模型的输入,预测是否会发生AKI,并与真实结果进行比较,从而对模型进行验证和评估。
2.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据提取SQL数据库对电子病历进行筛选,根据专家给定的纳入标准提取AKI患者的数据得到实验组数据,并通过统计学的方法进行相应的提取得到对照组数据。
3.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据提取将对提取后的数据进行匿名化和去标识化处理,包含患者的隐私。
4.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据预处理对提取的数据进行一系列预先处理,包括:数据标记、数据清洗、数据离散化,数据标记是对实验组和对照组的数据进行标记,实验组为发生AKI患者的数据,标记为1,对照组为未发生AKI患者的数据,标记为0;数据清洗是对数据进行审查和校验的过程,包括补全缺失数据、纠正数据中的错误、删除脏数据等;数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,方便进行后续的操作。
5.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。
6.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的特征提取通过主成分分析的方法对训练集数据进行降维,并使用同样的方法对测试集数据降维,加快后续模型的训练速度,主成分分析,是一种使用最广泛的数据降维算法,主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
7.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入,是否发生AKI作为模型的输出,进行预测模型的训练,使用的模型有多层感知器与Adaboost算法,多层感知器是一种前馈人工神经网络模型,将输入的多个数据集映射到单一的输出的数据集上,通过计算预测结果和真实结果的均方误差作为损失函数,即:
并使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的,其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;Adaboost算法即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。
8.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证;并使用常用的评价指标:准确率、精度、召回率等作为模型的评估,所述“k折交叉验证”,是将数据等比例的分成k份,然后每次选择其中的k-l个子集的并集作为训练集,余下的1个子集作为测试集;这样就可以获得k组训练-测试集,从而可以进行k次训练和测试,返回k次测试结果的均值,可以有效评估模型的泛化能力;所述准确率,是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
所述召回率,是覆盖面大度量,召回率越接近1,模型预测效果越好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772449.XA CN113674862A (zh) | 2021-07-08 | 2021-07-08 | 一种基于机器学习的急性肾功能损伤发病预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772449.XA CN113674862A (zh) | 2021-07-08 | 2021-07-08 | 一种基于机器学习的急性肾功能损伤发病预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113674862A true CN113674862A (zh) | 2021-11-19 |
Family
ID=78538730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772449.XA Pending CN113674862A (zh) | 2021-07-08 | 2021-07-08 | 一种基于机器学习的急性肾功能损伤发病预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674862A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595211A (zh) * | 2022-01-25 | 2022-06-07 | 杭州新中大科技股份有限公司 | 一种基于深度学习的产品数据清洗方法及系统 |
CN115458158A (zh) * | 2022-09-23 | 2022-12-09 | 深圳大学 | 一种针对脓毒症患者的急性肾损伤预测系统 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
-
2021
- 2021-07-08 CN CN202110772449.XA patent/CN113674862A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595211A (zh) * | 2022-01-25 | 2022-06-07 | 杭州新中大科技股份有限公司 | 一种基于深度学习的产品数据清洗方法及系统 |
CN115458158A (zh) * | 2022-09-23 | 2022-12-09 | 深圳大学 | 一种针对脓毒症患者的急性肾损伤预测系统 |
CN115458158B (zh) * | 2022-09-23 | 2023-09-15 | 深圳大学 | 一种针对脓毒症患者的急性肾损伤预测系统 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
CN117373584B (zh) * | 2023-12-08 | 2024-03-12 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
CN109785976B (zh) | 一种基于Soft-Voting的痛风病分期预测系统 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN107292330B (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN109615014B (zh) | 一种基于kl散度优化的3d物体数据分类系统与方法 | |
CN110109835B (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
CN113674862A (zh) | 一种基于机器学习的急性肾功能损伤发病预测方法 | |
CN111126482B (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN110674850A (zh) | 一种基于注意力机制的图像描述生成方法 | |
CN111275113A (zh) | 基于代价敏感混合网络的偏斜类时间序列异常检测方法 | |
CN106951778A (zh) | 一种面向复杂流数据事件分析的入侵检测方法 | |
US20230148321A1 (en) | Method for artificial intelligence (ai) model selection | |
CN112687349A (zh) | 一种降低辛烷值损失模型的构建方法 | |
CN115858785A (zh) | 一种基于大数据的敏感数据识别方法及系统 | |
CN113158777A (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
Nair et al. | A life cycle on processing large dataset-LCPL | |
CN117315379B (zh) | 面向深度学习的医学影像分类模型公平性评估方法及装置 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN113643756A (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116089801A (zh) | 一种基于多重置信度的医疗数据缺失值修复的方法 | |
CN115310606A (zh) | 基于数据集敏感属性重构的深度学习模型去偏方法及装置 | |
CN114240929A (zh) | 一种色差检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |