CN113674862A

CN113674862A - 一种基于机器学习的急性肾功能损伤发病预测方法

Info

Publication number: CN113674862A
Application number: CN202110772449.XA
Authority: CN
Inventors: 于强; 霍晓智; 毛永辉; 赵班
Original assignee: National Space Science Center of CAS; Beijing Hospital
Current assignee: National Space Science Center of CAS; Beijing Hospital
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-11-19

Abstract

一种基于机器学习的急性肾功能损伤发病预测方法，它涉及医学计算机技术领域。所述方法包括：数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。首先从电子病历中提取关于AKI的实验组和对照组，建立AKI数据库；对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作；将处理后的数据按一定的比例，随机分为训练集和测试集两部分；对训练集数据进行特征提取，降低数据维度，加快模型的训练速度；同样使用训练集，将特征提取后影响因素作为模型的输入，是否患有AKI作为模型的输出，训练模型；将测试集根据上述训练集特征提取的方法进行特征提取，送入训练的模型中进行结果的预测，对模型进行验证和评估。

Description

一种基于机器学习的急性肾功能损伤发病预测方法

技术领域

本发明涉及医学计算机技术领域，具体涉及一种基于机器学习的急性肾功能损伤发病预测方法。

背景技术

急性肾功能损伤广泛分布于临床各个科室，是急、重、复杂病例的常见并发症，院内病死率高，医疗资源消耗大，且存活者远期病死率和慢性肾脏病发生率均显著升高。当前决定AKI病患预后的关键是“早”——早发现、早诊断、早干预，以避免发生不可逆的肾脏损伤。

随着大数据时代的发展，机器学习得到了广泛的应用，在数据挖掘、自然语言处理、图像识别处理等领域取得了令人瞩目的成果。由于机器学习具有特征提取，建立复杂模型的能力，因此可以将其引入临床医学数据分析中，通过机器学习算法建立相关模型，对电子病例数据进行分析，预测患者的患病风险，进而做到早发现、早诊断、早干预，一定程度上可以避免疾病的发生。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于机器学习的急性肾功能损伤发病预测方法，以解决上述背景技术中提出的问题，本发明建立急性肾功能损伤风险预测模型，用于预测是否有发生急性肾功能损伤的风险，从而做到早发现、早诊断、早干预，以避免发生不可逆的肾脏损伤，具有较大的市场推广价值。

为实现上述目的，本发明采用以下技术方案是：它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估，所述数据提取，是将与AKI相关的数据从电子病历中筛选提取，建立AKI数据库，其中包含实验组和对照组两组数据，实验组为患有AKI患者的数据，对照组为正常患者的数据；所述数据预处理，是对AKI数据库进行数据标记、数据清洗、数据离散化等工作，方便后续对数据的使用；所述数据分组，是将预处理后的数据按一定比例，随机的分为训练集和测试集，训练集用于训练预测模型，测试集用于计算预测模型的验证和评估；所述特征提取，其本质是一个降维的过程，将AKI数据进行特征的提取，减少变量的数量，用于后续预测模型的建立，可以加快模型训练的速度；所述预测模型训练，是将经过特征提取的结果作为模型的输入，是否患有AKI作为模型的输出，训练模型从而得到AKI预测模型；所述模型的验证和评估，是将测试集作为模型的输入，预测是否会发生AKI，并与真实结果进行比较，从而对模型进行验证和评估。

进一步的，所述的数据提取SQL数据库对电子病历进行筛选，根据专家给定的纳入标准提取AKI患者的数据得到实验组数据，并通过统计学的方法进行相应的提取得到对照组数据。

进一步的，所述的数据提取将对提取后的数据进行匿名化和去标识化处理，包含患者的隐私。

进一步的，所述的数据预处理对提取的数据进行一系列预先处理，包括：数据标记、数据清洗、数据离散化，数据标记是对实验组和对照组的数据进行标记，实验组为发生AKI患者的数据，标记为1，对照组为未发生AKI患者的数据，标记为0；数据清洗是对数据进行审查和校验的过程，包括补全缺失数据、纠正数据中的错误、删除脏数据等；数据离散化是根据专家给定的指标的阈值或标准值，对数据进行离散化处理，方便进行后续的操作。

进一步的，所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。

进一步的，所述的特征提取通过主成分分析的方法对训练集数据进行降维，并使用同样的方法对测试集数据降维，加快后续模型的训练速度，主成分分析，是一种使用最广泛的数据降维算法，主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

进一步的，所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入，是否发生AKI作为模型的输出，进行预测模型的训练，使用的模型有多层感知器与Adaboost算法，多层感知器是一种前馈人工神经网络模型，将输入的多个数据集映射到单一的输出的数据集上，通过计算预测结果和真实结果的均方误差作为损失函数，即：

并使用梯度下降法将损失函数反馈给输入，进而达到更新权重的目的，其中，N为样本总数量，x_i为第i个样本的输入，y_i为第i个样本的真实结果，h(x_i)为通过多层感知器后得到的第i个样本的输出结果，即预测结果；Adaboost算法即给定训练集，寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多，其主要核心是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个强分类器。

进一步的，所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证；并使用常用的评价指标：准确率、精度、召回率等作为模型的评估，所述“k折交叉验证”，是将数据等比例的分成k份，然后每次选择其中的k－1个子集的并集作为训练集，余下的1个子集作为测试集；这样就可以获得k组训练－测试集，从而可以进行k次训练和测试，返回k次测试结果的均值，可以有效评估模型的泛化能力；所述准确率，是描述分类器总体分类的准确程度，一般情况下，准确率越高，模型预测效果越好；

其中，TP表示被正确分类的正例个数，TN表示被正确分类的负例个数，FP表示被错误分类的负例个数，FN表示被错误分类的正例个数；所述精度，是反映被分类器判定的正例中真正的正例样本的比重；

所述召回率，是覆盖面大度量，召回率越接近1，模型预测效果越好。

本发明的工作原理：首先从电子病历中提取关于AKI的实验组和对照组，建立AKI数据库；对建立的数据库进行数据标记、数据清洗、数据离散化等数据预处理工作；将处理后的数据按一定的比例，随机分为训练集和测试集两部分；对训练集数据进行特征提取，降低数据维度，加快模型的训练速度；同样使用训练集，将特征提取后影响因素作为模型的输入，是否患有AKI作为模型的输出，训练模型；将测试集根据上述训练集特征提取的方法进行特征提取，送入训练的模型中进行结果的预测，对模型进行验证和评估。

采用上述技术方案后，本发明有益效果为：本发明将机器学习的方法运用到临床医学中，建立AKI风险预测模型，用于预测是否有发生急性肾功能损伤的风险，做到早发现、早诊断、早干预，以避免发生不可逆的肾脏损伤，具有较大的市场推广价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1的一种基于机器学习的急性肾功能损伤发病预测方法的流程图；

图2是本发明实施例1的“k折交叉验证”法说明图；

图3是本发明实施例1的模型训练中多层感知器网络模型。

具体实施方式

本发明提供了一种基于机器学习的急性肾功能损伤发病预测方法，建立急性肾功能损伤风险预测模型，用于预测是否有发生急性肾功能损伤的风险，从而做到早发现、早诊断、早干预，以避免发生不可逆的肾脏损伤。

下面结合附图1-图3和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示，本发明的实施例1提出了一种基于机器学习的急性肾功能损伤发病预测方法。所述方法包括：数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估。该方法通过机器学习算法对电子病历进行分析，从而预测发生急性肾功能损伤的风险，可用于临床医学辅助治疗，做到早发现、早诊断、早干预，从而降低医疗资源的消耗率，节约人力和财务成本。

本实例使用的特征提取方法为主成分分析法；预测模型有两种，分别为：多层感知器和Adaboost算法；同时，使用交叉验证的方法对模型进行验证，并通过计算准确率、精度、召回率等对模型进行评估。

基于机器学习的急性肾功能损伤发病预测方法，具体步骤如下：

1)将与AKI相关的数据从电子病历中筛选提取，建立AKI数据库，其中包含实验组和对照组两组数据，实验组为患有AKI患者的数据，对照组为正常患者的数据；

实验组是通过专家给出的诊断标准，使用SQL数据库从电子病历中筛选得到的，对照组是通过对实验组的分析，使用统计学的方法筛选得到与实验组相对应的数据；

在筛选得到AKI数据后，先对患者信息的匿名化和去标识化，保护患者的隐私，具体操作为：删除与实验不相关的信息，例如姓名，家庭住址等；将生日及其他日期信息进行时间漂移，即去标识化处理。在完成匿名化和去标识化操作后，得到了AKI数据库，用于后续的训练预测。

2)对AKI数据库进行数据标记、数据清洗、数据离散化等操作。

数据标记是将AKI数据库的实验组和对照组进行标记，实验组为患有AKI患者的数据，记为1；对照组为正常患者的数据，记为0。

数据清洗是对数据进行审查和校验的过程，包括发现并纠正数据中的错误，去除无效的数据，对关键的缺失值进行填补等操作。

数据离散化是根据专家给定的指标的阈值或标准值，对数据进行离散化处理，一方面可以消除不同指标的量纲对结果的影响，另一方面是为特征提取做准备。

3)由于使用“k折交叉验证”方法进行模型的训练，因此，在特征提取之前，需要将数据集分为训练集和测试集两部分，其中训练集是用于对模型进行训练，测试集用于测试已经训练好的模型；“k折交叉验证”法如图2所示。

所谓“k折交叉验证”法，是通过对k个不同分组训练的结果进行平均来减少方差，其步骤为：

第一步，不重复抽样将原始数据随机分为k份；

第二步，每一次挑选其中1份作为测试集，剩余k-1份作为训练集用于模型训练；

第三步，重复第二步k次，这样每个子集都有一次机会作为测试集，其余机会作为训练集；在每个训练集上训练后得到一个模型，用这个模型在相应的测试集上测试，计算并保存模型的评估指标；

第四步，计算k组测试结果的平均值作为模型精度的估计，并作为当前k折交叉验证下模型的性能指标。

4)特征提取是将一些原始的输入数据维度减少或者将原始的特征进行重新组合以便于后续的使用；在该过程中，使用主成分分析将AKI数据中的训练集进行特征提取，降低数据维度，加快模型的训练时间。

例如，训练集X_train＝{x₁,x₂,…,x_n}，需要降到k维；则主成分分析法的主要步骤为：

第一步，去平均值，即每一维特征减去各自的平均值；

第二步，计算协方差矩阵

第三步，用特征值分解方法求协方差矩阵的特征值与特征向量；

第四步，对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P；

第五步，将数据转换为k个特征向量构建的新空间中，即：

Y_train＝PX_train

所得结果Y_train即为X_train降到k维后的特征。

同理，测试集也需要通过主成分分析法进行特征提取，进而用于后续的模型验证中；测试集X_test＝{x₁,x₂,…,x_n}可以通过上述训练集训练过程中的特征向量矩阵P，直接得到k维的特征Y_test，即：

Y_test＝PX_test

5)将k维的特征数据作为预测模型的输入，是否AKI作为预测模型的输出，进行模型的预测；在该过程中，主要考虑使用多层感知器和Adaboost两种方法作为预测模型，对预测模型进行训练。

多层感知器，是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上，其网络模型如图2所示。在多层感知器中，层与层之间均为全连接层，最底层为输入层，中间为隐藏层，最后为输出层；在训练过程中，使用ReLU作为激活函数：

f(x)＝max(0,x)

通过计算预测结果和真实结果的均方误差作为损失函数，即：

其中，N为样本总数量，x_i为第i个样本的输入，y_i为第i个样本的真实结果，h(x_i)为通过多层感知器后得到的第i个样本的输出结果，即预测结果；同时，使用梯度下降法将损失函数反馈给输入，进而达到更新权重的目的。

另一种模型训练的方法是Adaboost，即给定训练集，寻找比较粗糙的分类规则(弱分类器)要比寻找精确的分类规则要简单得多，其主要核心是从弱学习算法出发，反复学习，得到一系列弱分类器，然后组合这些弱分类器，构成一个强分类器。其步骤为：

给定一个训练集{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中，

y_i∈Y＝{0,+1}；

第一步，初始化训练数据的权值分布；每一个训练样本最开始都被赋予相同的权重1/N，即：

第二步，进行多轮迭代，用t＝1,2,…,T表示迭代的第几轮，对样本权重进行归一化处理，即

使用具有权值分布p^t的训练数据集学习，得到基本分类器h_t(x)，计算h_t(x)在训练数据集上的分类误差率：

计算β_t，

权重更新：

第三步，最终分类器为：

6)在使用训练集对模型进行训练后，可使用测试集对模型进行验证和评估；在步骤4)中，已经得到特征提取后的测试集结果，将该测试集作为预测模型的输入，将预测结果和真实的结果进行对比，计算以下指标对模型进行评估：

准确率是描述分类器总体分类的准确程度，一般情况下，准确率越高，模型预测效果越好；

精度是反映被分类器判定的正例中真正的正例样本的比重；

召回率是覆盖面大度量，召回率越接近1，模型预测效果越好。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：它包含数据提取、数据预处理、数据分组、特征提取、预测模型训练、模型的验证和评估，所述数据提取，是将与AKI相关的数据从电子病历中筛选提取，建立AKI数据库，其中包含实验组和对照组两组数据，实验组为患有AKI患者的数据，对照组为正常患者的数据；所述数据预处理，是对AKI数据库进行数据标记、数据清洗、数据离散化等工作，方便后续对数据的使用；所述数据分组，是将预处理后的数据按一定比例，随机的分为训练集和测试集，训练集用于训练预测模型，测试集用于计算预测模型的验证和评估；所述特征提取，其本质是一个降维的过程，将AKI数据进行特征的提取，减少变量的数量，用于后续预测模型的建立，可以加快模型训练的速度；所述预测模型训练，是将经过特征提取的结果作为模型的输入，是否患有AKI作为模型的输出，训练模型从而得到AKI预测模型；所述模型的验证和评估，是将测试集作为模型的输入，预测是否会发生AKI，并与真实结果进行比较，从而对模型进行验证和评估。

2.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的数据提取SQL数据库对电子病历进行筛选，根据专家给定的纳入标准提取AKI患者的数据得到实验组数据，并通过统计学的方法进行相应的提取得到对照组数据。

3.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的数据提取将对提取后的数据进行匿名化和去标识化处理，包含患者的隐私。

4.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的数据预处理对提取的数据进行一系列预先处理，包括：数据标记、数据清洗、数据离散化，数据标记是对实验组和对照组的数据进行标记，实验组为发生AKI患者的数据，标记为1，对照组为未发生AKI患者的数据，标记为0；数据清洗是对数据进行审查和校验的过程，包括补全缺失数据、纠正数据中的错误、删除脏数据等；数据离散化是根据专家给定的指标的阈值或标准值，对数据进行离散化处理，方便进行后续的操作。

5.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的数据分组是将数据按一定比例随机的分为训练集和测试集两个数据集。

6.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的特征提取通过主成分分析的方法对训练集数据进行降维，并使用同样的方法对测试集数据降维，加快后续模型的训练速度，主成分分析，是一种使用最广泛的数据降维算法，主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。

7.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的预测模型训练是将通过特征提取后的训练集数据作为模型的输入，是否发生AKI作为模型的输出，进行预测模型的训练，使用的模型有多层感知器与Adaboost算法，多层感知器是一种前馈人工神经网络模型，将输入的多个数据集映射到单一的输出的数据集上，通过计算预测结果和真实结果的均方误差作为损失函数，即：

8.根据权利要求1所述的一种基于机器学习的急性肾功能损伤发病预测方法，其特征在于：所述的模型的验证和评估使用“k折交叉验证”的方式进行模型的验证；并使用常用的评价指标：准确率、精度、召回率等作为模型的评估，所述“k折交叉验证”，是将数据等比例的分成k份，然后每次选择其中的k－l个子集的并集作为训练集，余下的1个子集作为测试集；这样就可以获得k组训练－测试集，从而可以进行k次训练和测试，返回k次测试结果的均值，可以有效评估模型的泛化能力；所述准确率，是描述分类器总体分类的准确程度，一般情况下，准确率越高，模型预测效果越好；