CN113674862A - 一种基于机器学习的急性肾功能损伤发病预测方法 - Google Patents

一种基于机器学习的急性肾功能损伤发病预测方法 Download PDF

Info

Publication number
CN113674862A
CN113674862A CN202110772449.XA CN202110772449A CN113674862A CN 113674862 A CN113674862 A CN 113674862A CN 202110772449 A CN202110772449 A CN 202110772449A CN 113674862 A CN113674862 A CN 113674862A
Authority
CN
China
Prior art keywords
data
model
training
aki
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110772449.XA
Other languages
English (en)
Inventor
于强
霍晓智
毛永辉
赵班
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Space Science Center of CAS
Beijing Hospital
Original Assignee
National Space Science Center of CAS
Beijing Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Space Science Center of CAS, Beijing Hospital filed Critical National Space Science Center of CAS
Priority to CN202110772449.XA priority Critical patent/CN113674862A/zh
Publication of CN113674862A publication Critical patent/CN113674862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Abstract

一种基于机器学习的急性肾功能损伤发病预测方法,它涉及医学计算机技术领域。所述方法包括:数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。

Description

一种基于机器学习的急性肾功能损伤发病预测方法
技术领域
本发明涉及医学计算机技术领域,具体涉及一种基于机器学习的急性肾功能损伤发病预测方法。
背景技术
急性肾功能损伤广泛分布于临床各个科室,是急、重、复杂病例的常见并发症,院内病死率高,医疗资源消耗大,且存活者远期病死率和慢性肾脏病发生率均显著升高。当前决定AKI病患预后的关键是“早”——早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤。
随着大数据时代的发展,机器学习得到了广泛的应用,在数据挖掘、自然语言处理、图像识别处理等领域取得了令人瞩目的成果。由于机器学习具有特征提取,建立复杂模型的能力,因此可以将其引入临床医学数据分析中,通过机器学习算法建立相关模型,对电子病例数据进行分析,预测患者的患病风险,进而做到早发现、早诊断、早干预,一定程度上可以避免疾病的发生。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于机器学习的急性肾功能损伤发病预测方法,以解决上述背景技术中提出的问题,本发明建立急性肾功能损伤风险预测模型,用于预测是否有发生急性肾功能损伤的风险,从而做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
为实现上述目的,本发明采用以下技术方案是:它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估,所述数据提取,是将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;所述数据预处理,是对AKI数据库进行数据标记、数据清洗、数据离散化等工作,方便后续对数据的使用;所述数据分组,是将预处理后的数据按一定比例,随机的分为训练集和测试集,训练集用于训练预测模型,测试集用于计算预测模型的验证和评估;所述特征提取,其本质是一个降维的过程,将AKI数据进行特征的提取,减少变量的数量,用于后续预测模型的建立,可以加快模型训练的速度;所述预测模型训练,是将经过特征提取的结果作为模型的输入,是否患有AKI作为模型的输出,训练模型从而得到AKI预测模型;所述模型的验证和评估,是将测试集作为模型的输入,预测是否会发生AKI,并与真实结果进行比较,从而对模型进行验证和评估。
进一步的,所述的数据提取SQL数据库对电子病历进行筛选,根据专家给定的纳入标准提取AKI患者的数据得到实验组数据,并通过统计学的方法进行相应的提取得到对照组数据。
进一步的,所述的数据提取将对提取后的数据进行匿名化和去标识化处理,包含患者的隐私。
进一步的,所述的数据预处理对提取的数据进行一系列预先处理,包括:数据标记、数据清洗、数据离散化,数据标记是对实验组和对照组的数据进行标记,实验组为发生AKI患者的数据,标记为1,对照组为未发生AKI患者的数据,标记为0;数据清洗是对数据进行审查和校验的过程,包括补全缺失数据、纠正数据中的错误、删除脏数据等;数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,方便进行后续的操作。
进一步的,所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。
进一步的,所述的特征提取通过主成分分析的方法对训练集数据进行降维,并使用同样的方法对测试集数据降维,加快后续模型的训练速度,主成分分析,是一种使用最广泛的数据降维算法,主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
进一步的,所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入,是否发生AKI作为模型的输出,进行预测模型的训练,使用的模型有多层感知器与Adaboost算法,多层感知器是一种前馈人工神经网络模型,将输入的多个数据集映射到单一的输出的数据集上,通过计算预测结果和真实结果的均方误差作为损失函数,即:
Figure BDA0003154267580000031
并使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的,其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;Adaboost算法即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。
进一步的,所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证;并使用常用的评价指标:准确率、精度、召回率等作为模型的评估,所述“k折交叉验证”,是将数据等比例的分成k份,然后每次选择其中的k-1个子集的并集作为训练集,余下的1个子集作为测试集;这样就可以获得k组训练-测试集,从而可以进行k次训练和测试,返回k次测试结果的均值,可以有效评估模型的泛化能力;所述准确率,是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
Figure BDA0003154267580000041
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
Figure BDA0003154267580000042
所述召回率,是覆盖面大度量,召回率越接近1,模型预测效果越好。
Figure BDA0003154267580000043
本发明的工作原理:首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。
采用上述技术方案后,本发明有益效果为:本发明将机器学习的方法运用到临床医学中,建立AKI风险预测模型,用于预测是否有发生急性肾功能损伤的风险,做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1的一种基于机器学习的急性肾功能损伤发病预测方法的流程图;
图2是本发明实施例1的“k折交叉验证”法说明图;
图3是本发明实施例1的模型训练中多层感知器网络模型。
具体实施方式
本发明提供了一种基于机器学习的急性肾功能损伤发病预测方法,建立急性肾功能损伤风险预测模型,用于预测是否有发生急性肾功能损伤的风险,从而做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤。
下面结合附图1-图3和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提出了一种基于机器学习的急性肾功能损伤发病预测方法。所述方法包括:数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。该方法通过机器学习算法对电子病历进行分析,从而预测发生急性肾功能损伤的风险,可用于临床医学辅助治疗,做到早发现、早诊断、早干预,从而降低医疗资源的消耗率,节约人力和财务成本。
本实例使用的特征提取方法为主成分分析法;预测模型有两种,分别为:多层感知器和Adaboost算法;同时,使用交叉验证的方法对模型进行验证,并通过计算准确率、精度、召回率等对模型进行评估。
基于机器学习的急性肾功能损伤发病预测方法,具体步骤如下:
1)将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;
实验组是通过专家给出的诊断标准,使用SQL数据库从电子病历中筛选得到的,对照组是通过对实验组的分析,使用统计学的方法筛选得到与实验组相对应的数据;
在筛选得到AKI数据后,先对患者信息的匿名化和去标识化,保护患者的隐私,具体操作为:删除与实验不相关的信息,例如姓名,家庭住址等;将生日及其他日期信息进行时间漂移,即去标识化处理。在完成匿名化和去标识化操作后,得到了AKI数据库,用于后续的训练预测。
2)对AKI数据库进行数据标记、数据清洗、数据离散化等操作。
数据标记是将AKI数据库的实验组和对照组进行标记,实验组为患有AKI患者的数据,记为1;对照组为正常患者的数据,记为0。
数据清洗是对数据进行审查和校验的过程,包括发现并纠正数据中的错误,去除无效的数据,对关键的缺失值进行填补等操作。
数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,一方面可以消除不同指标的量纲对结果的影响,另一方面是为特征提取做准备。
3)由于使用“k折交叉验证”方法进行模型的训练,因此,在特征提取之前,需要将数据集分为训练集和测试集两部分,其中训练集是用于对模型进行训练,测试集用于测试已经训练好的模型;“k折交叉验证”法如图2所示。
所谓“k折交叉验证”法,是通过对k个不同分组训练的结果进行平均来减少方差,其步骤为:
第一步,不重复抽样将原始数据随机分为k份;
第二步,每一次挑选其中1份作为测试集,剩余k-1份作为训练集用于模型训练;
第三步,重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集;在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标;
第四步,计算k组测试结果的平均值作为模型精度的估计,并作为当前k折交叉验证下模型的性能指标。
4)特征提取是将一些原始的输入数据维度减少或者将原始的特征进行重新组合以便于后续的使用;在该过程中,使用主成分分析将AKI数据中的训练集进行特征提取,降低数据维度,加快模型的训练时间。
例如,训练集Xtrain={x1,x2,…,xn},需要降到k维;则主成分分析法的主要步骤为:
第一步,去平均值,即每一维特征减去各自的平均值;
Figure BDA0003154267580000071
第二步,计算协方差矩阵
Figure BDA0003154267580000072
第三步,用特征值分解方法求协方差矩阵的特征值与特征向量;
第四步,对特征值从大到小排序,选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P;
第五步,将数据转换为k个特征向量构建的新空间中,即:
Ytrain=PXtrain
所得结果Ytrain即为Xtrain降到k维后的特征。
同理,测试集也需要通过主成分分析法进行特征提取,进而用于后续的模型验证中;测试集Xtest={x1,x2,…,xn}可以通过上述训练集训练过程中的特征向量矩阵P,直接得到k维的特征Ytest,即:
Ytest=PXtest
5)将k维的特征数据作为预测模型的输入,是否AKI作为预测模型的输出,进行模型的预测;在该过程中,主要考虑使用多层感知器和Adaboost两种方法作为预测模型,对预测模型进行训练。
多层感知器,是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上,其网络模型如图2所示。在多层感知器中,层与层之间均为全连接层,最底层为输入层,中间为隐藏层,最后为输出层;在训练过程中,使用ReLU作为激活函数:
f(x)=max(0,x)
通过计算预测结果和真实结果的均方误差作为损失函数,即:
Figure BDA0003154267580000081
其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;同时,使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的。
另一种模型训练的方法是Adaboost,即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。其步骤为:
给定一个训练集{(x1,y1),(x2,y2),…,(xN,yN)},其中,
Figure BDA0003154267580000082
yi∈Y={0,+1};
第一步,初始化训练数据的权值分布;每一个训练样本最开始都被赋予相同的权重1/N,即:
Figure BDA0003154267580000083
第二步,进行多轮迭代,用t=1,2,…,T表示迭代的第几轮,对样本权重进行归一化处理,即
Figure BDA0003154267580000091
使用具有权值分布pt的训练数据集学习,得到基本分类器ht(x),计算ht(x)在训练数据集上的分类误差率:
Figure BDA0003154267580000092
计算βt
Figure BDA0003154267580000093
权重更新:
Figure BDA0003154267580000094
第三步,最终分类器为:
Figure BDA0003154267580000095
6)在使用训练集对模型进行训练后,可使用测试集对模型进行验证和评估;在步骤4)中,已经得到特征提取后的测试集结果,将该测试集作为预测模型的输入,将预测结果和真实的结果进行对比,计算以下指标对模型进行评估:
准确率是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
Figure BDA0003154267580000096
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
精度是反映被分类器判定的正例中真正的正例样本的比重;
Figure BDA0003154267580000101
召回率是覆盖面大度量,召回率越接近1,模型预测效果越好。
Figure BDA0003154267580000102
本发明的工作原理:首先从电子病历中提取关于AKI的实验组和对照组,建立AKI数据库;对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作;将处理后的数据按一定的比例,随机分为训练集和测试集两部分;对训练集数据进行特征提取,降低数据维度,加快模型的训练速度;同样使用训练集,将特征提取后影响因素作为模型的输入,是否患有AKI作为模型的输出,训练模型;将测试集根据上述训练集特征提取的方法进行特征提取,送入训练的模型中进行结果的预测,对模型进行验证和评估。
采用上述技术方案后,本发明有益效果为:本发明将机器学习的方法运用到临床医学中,建立AKI风险预测模型,用于预测是否有发生急性肾功能损伤的风险,做到早发现、早诊断、早干预,以避免发生不可逆的肾脏损伤,具有较大的市场推广价值。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估,所述数据提取,是将与AKI相关的数据从电子病历中筛选提取,建立AKI数据库,其中包含实验组和对照组两组数据,实验组为患有AKI患者的数据,对照组为正常患者的数据;所述数据预处理,是对AKI数据库进行数据标记、数据清洗、数据离散化等工作,方便后续对数据的使用;所述数据分组,是将预处理后的数据按一定比例,随机的分为训练集和测试集,训练集用于训练预测模型,测试集用于计算预测模型的验证和评估;所述特征提取,其本质是一个降维的过程,将AKI数据进行特征的提取,减少变量的数量,用于后续预测模型的建立,可以加快模型训练的速度;所述预测模型训练,是将经过特征提取的结果作为模型的输入,是否患有AKI作为模型的输出,训练模型从而得到AKI预测模型;所述模型的验证和评估,是将测试集作为模型的输入,预测是否会发生AKI,并与真实结果进行比较,从而对模型进行验证和评估。
2.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据提取SQL数据库对电子病历进行筛选,根据专家给定的纳入标准提取AKI患者的数据得到实验组数据,并通过统计学的方法进行相应的提取得到对照组数据。
3.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据提取将对提取后的数据进行匿名化和去标识化处理,包含患者的隐私。
4.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据预处理对提取的数据进行一系列预先处理,包括:数据标记、数据清洗、数据离散化,数据标记是对实验组和对照组的数据进行标记,实验组为发生AKI患者的数据,标记为1,对照组为未发生AKI患者的数据,标记为0;数据清洗是对数据进行审查和校验的过程,包括补全缺失数据、纠正数据中的错误、删除脏数据等;数据离散化是根据专家给定的指标的阈值或标准值,对数据进行离散化处理,方便进行后续的操作。
5.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。
6.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的特征提取通过主成分分析的方法对训练集数据进行降维,并使用同样的方法对测试集数据降维,加快后续模型的训练速度,主成分分析,是一种使用最广泛的数据降维算法,主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。
7.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入,是否发生AKI作为模型的输出,进行预测模型的训练,使用的模型有多层感知器与Adaboost算法,多层感知器是一种前馈人工神经网络模型,将输入的多个数据集映射到单一的输出的数据集上,通过计算预测结果和真实结果的均方误差作为损失函数,即:
Figure FDA0003154267570000021
并使用梯度下降法将损失函数反馈给输入,进而达到更新权重的目的,其中,N为样本总数量,xi为第i个样本的输入,yi为第i个样本的真实结果,h(xi)为通过多层感知器后得到的第i个样本的输出结果,即预测结果;Adaboost算法即给定训练集,寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多,其主要核心是从弱学习算法出发,反复学习,得到一系列弱分类器,然后组合这些弱分类器,构成一个强分类器。
8.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法,其特征在于:所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证;并使用常用的评价指标:准确率、精度、召回率等作为模型的评估,所述“k折交叉验证”,是将数据等比例的分成k份,然后每次选择其中的k-l个子集的并集作为训练集,余下的1个子集作为测试集;这样就可以获得k组训练-测试集,从而可以进行k次训练和测试,返回k次测试结果的均值,可以有效评估模型的泛化能力;所述准确率,是描述分类器总体分类的准确程度,一般情况下,准确率越高,模型预测效果越好;
Figure FDA0003154267570000031
其中,TP表示被正确分类的正例个数,TN表示被正确分类的负例个数,FP表示被错误分类的负例个数,FN表示被错误分类的正例个数;所述精度,是反映被分类器判定的正例中真正的正例样本的比重;
Figure FDA0003154267570000032
所述召回率,是覆盖面大度量,召回率越接近1,模型预测效果越好。
Figure FDA0003154267570000033
CN202110772449.XA 2021-07-08 2021-07-08 一种基于机器学习的急性肾功能损伤发病预测方法 Pending CN113674862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772449.XA CN113674862A (zh) 2021-07-08 2021-07-08 一种基于机器学习的急性肾功能损伤发病预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772449.XA CN113674862A (zh) 2021-07-08 2021-07-08 一种基于机器学习的急性肾功能损伤发病预测方法

Publications (1)

Publication Number Publication Date
CN113674862A true CN113674862A (zh) 2021-11-19

Family

ID=78538730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772449.XA Pending CN113674862A (zh) 2021-07-08 2021-07-08 一种基于机器学习的急性肾功能损伤发病预测方法

Country Status (1)

Country Link
CN (1) CN113674862A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595211A (zh) * 2022-01-25 2022-06-07 杭州新中大科技股份有限公司 一种基于深度学习的产品数据清洗方法及系统
CN115458158A (zh) * 2022-09-23 2022-12-09 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN117373584A (zh) * 2023-12-08 2024-01-09 北京大学第一医院 一种急性肾损伤的动态预测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595211A (zh) * 2022-01-25 2022-06-07 杭州新中大科技股份有限公司 一种基于深度学习的产品数据清洗方法及系统
CN115458158A (zh) * 2022-09-23 2022-12-09 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN115458158B (zh) * 2022-09-23 2023-09-15 深圳大学 一种针对脓毒症患者的急性肾损伤预测系统
CN117373584A (zh) * 2023-12-08 2024-01-09 北京大学第一医院 一种急性肾损伤的动态预测方法及系统
CN117373584B (zh) * 2023-12-08 2024-03-12 北京大学第一医院 一种急性肾损伤的动态预测方法及系统

Similar Documents

Publication Publication Date Title
CN109036553B (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN109785976B (zh) 一种基于Soft-Voting的痛风病分期预测系统
CN105975573B (zh) 一种基于knn的文本分类方法
CN107292330B (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN109615014B (zh) 一种基于kl散度优化的3d物体数据分类系统与方法
CN110109835B (zh) 一种基于深度神经网络的软件缺陷定位方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN111275113A (zh) 基于代价敏感混合网络的偏斜类时间序列异常检测方法
CN106951778A (zh) 一种面向复杂流数据事件分析的入侵检测方法
US20230148321A1 (en) Method for artificial intelligence (ai) model selection
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN115858785A (zh) 一种基于大数据的敏感数据识别方法及系统
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
Nair et al. A life cycle on processing large dataset-LCPL
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116089801A (zh) 一种基于多重置信度的医疗数据缺失值修复的方法
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN114240929A (zh) 一种色差检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination