CN109871866B

CN109871866B - 用于医院内感染预测的模型训练方法、装置、设备及介质

Info

Publication number: CN109871866B
Application number: CN201910017312.6A
Authority: CN
Inventors: 邓根强; 祝苗苗; 朱岁松
Original assignee: SHENZHEN NANSHAN DISTRICT PEOPLE'S HOSPITAL
Current assignee: SHENZHEN NANSHAN DISTRICT PEOPLE'S HOSPITAL
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2023-04-07
Anticipated expiration: 2039-01-08
Also published as: CN109871866A

Abstract

本发明适用计算机技术领域，提供了一种用于医院内感染预测的模型训练方法、装置、设备及介质，该方法包括：根据由患有院内感染的第一感染训练样本组成的第一训练样本集，使用生成对抗网络模型的生成器生成对应的第二感染训练样本，根据第一训练样本集和由第二感染训练样本构成的第二训练样本集，通过主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过迭代训练使得高斯过程概率模型的预测精度值达到预设精度要求，从而提高用于医院内感染预测的模型训练收敛速度，且提高了院内感染预测的准确性，进而使得医生能及时对患者进行感染防御，降低患者由于院内感染所造成的金钱和健康损失。

Description

用于医院内感染预测的模型训练方法、装置、设备及介质

技术领域

本发明属于计算机技术领域，尤其涉及一种用于医院内感染预测的模型训练方法、装置、设备及介质。

背景技术

医院内感染又称医院获得性感染或医院感染，是患者在入院48小时后发生在医院内的一切感染，全国二、三级医院感染的发生率基线约4-6％，而发生医院感染的后果可能会造成每年数十亿人民币的经济损失，患者病死率上升，间接的社会资源浪费更是不可估量。

目前，对于住院病人院内感染的判断大多是出现了相应的症状之后，由主治医师初步判定，再由院各科做最后判定，以进行诊断，这种方式主要依靠医生的临床知识和经验，诊断效率低，且无法做到有效防范院内感染的发生，进而无法有效保障就医患者的人身和财产安全。

发明内容

本发明的目的在于提供一种用于医院内感染预测的模型训练方法、装置、设备及介质，旨在解决由于现有技术无法提供一种有效的用于医院内感染预测的模型，导致医院内感染预测的准确率低的问题。

一方面，本发明提供了一种用于医院内感染预测的模型训练方法，所述方法包括下述步骤：

从预设的医院信息系统中抽取患有院内感染的样本数据，得到对应的第一感染训练样本；

根据由所述第一感染训练样本构成的第一训练样本集，使用预先训练好的生成对抗网络模型的生成器生成对应的第二感染训练样本；

根据所述第一训练样本集和由所述第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过所述迭代训练使得所述高斯过程概率模型的预测精度值达到预设的精度要求。

另一方面，本发明提供了一种用于医院内感染预测的模型训练装置，所述装置包括：

第一样本抽取单元，用于从预设的医院信息系统中抽取患有院内感染的样本数据，得到对应的第一感染训练样本；

第二样本生成单元，用于根据由所述第一感染训练样本构成的第一训练样本集，使用预先训练好的生成对抗网络模型的生成器生成对应的第二感染训练样本；以及

模型预测训练单元，用于根据所述第一训练样本集和由所述第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过所述迭代训练使得所述高斯过程概率模型的预测精度值达到预设的精度要求。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述用于医院内感染预测的模型训练方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述用于医院内感染预测的模型训练方法所述的步骤。

本发明根据由患有院内感染的第一感染训练样本组成的第一训练样本集，使用生成对抗网络模型的生成器生成对应的第二感染训练样本，根据第一训练样本集和由第二感染训练样本构成的第二训练样本集，通过主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过迭代训练使得高斯过程概率模型的预测精度值达到预设精度要求，从而提高用于医院内感染预测的模型训练收敛速度，且提高了院内感染预测的准确性，进而使得医生能及时对患者进行感染防御，降低患者由于院内感染所造成的金钱和健康损失。

附图说明

图1是本发明实施例一提供的用于医院内感染预测的模型训练方法的实现流程图；

图2是本发明实施例二提供的对高斯过程概率模型进行院内感染预测的迭代训练的实现流程图；

图3是本发明实施例三提供的用于医院内感染预测的模型训练装置的结构示意图；

图4是本发明实施例三提供的用于医院内感染预测的模型训练装置的优选结构示意图；以及

图5是本发明实施例四提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的用于医院内感染预测的模型训练方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，从预设的医院信息系统中抽取患有院内感染的样本数据，得到对应的第一感染训练样本。

本发明实施例适用于医学计算处理平台、设备或系统，例如，个人计算机、服务器等。在预设的医院信息系统(Hospital Information System，HIS)数据库中存储的所有数据属性中确定数据抽取属性，根据确定的数据抽取属性，利用SQL语句从HIS数据库中抽取患有院内感染的样本数据，抽取出的所有样本数据即为基础带标记的第一感染训练样本，也即正类样本，其中，数据抽取属性包括：年龄、住院次数、住院天数、是否抢救病人、是否月内再次入院、总花费、病人血型、是否手术、是否并发症、是否药物过敏、疾病分型等。

在从医院信息系统中抽取患有院内感染的样本数据时，优选地，将抽取出的样本数据进行预处理，得到对应的第一感染训练样本，从而降低第一感染训练样本中的噪声，提高第一感染训练样本的可用性。

在将抽取出的样本数据进行预处理时，优选地，通过下述步骤实现对样本数据的预处理：

1)对样本数据进行缺失值处理，具体地，在患有院内感染的样本数据中，若同一数据属性对应的数值缺失的样本数据数量大于第一数量阈值时，则将数值缺失的数据属性对应的样本数据进行删除，若同一数据属性对应的数值缺失的样本数据数量小于第二数量阈值时，则取其前后三个其它样本数据中对应数据属性的正常数值的平均值，以该平均值进行缺失值填充；

2)对缺失值处理后得到的样本数据进行异常值处理，具体地，通过四分位距(Interquartile Range，IQR)的方法判断样本数据中各数据属性对应的数值是否小于第一异常值(Q_L-1.5IQR)或者大于第二异常值异常(Q_U+1.5IQR)，若存在异常数值，则将异常数值从该样本数据中删除，或者取若干其它样本数据中对应数据属性的正常数值的平均值，将异常数值替换为该平均值，或者将该异常数值视为缺失值，利用拉格朗日插值法进行数据拟合，以填补该异常数值，其中IQR＝F^-1(0.75)-F^-1(0.25)，下四分位数Q_L＝F^-1(0.25)表示样本数据中各数据属性对应的所有数值由小到大排列后第25％的数值，上四分位数Q_U＝F^-1(0.75)表示样本数据中各数据属性对应的所有数值由小到大排列后第75％的数值；

3)将连续性的样本数据进行等值离散化处理，以使得所有样本数据统一化；

4)通过正太标准化(Z-score标准化)方法将等值离散化处理后得到的样本数据进行归一化处理；

5)将归一化处理后得到的样本数据进行数据降维，得到对应的第一感染训练样本，例如，将样本数据缩小到二维空间，使得得到的第一感染训练样本可以可视化，进而可以直观了解第一感染训练样本的大致分布。

通过上述步骤1)-步骤5)实现对患有院内感染的样本数据的预处理，从而降低得到的第一感染训练样本中的噪声，提高第一感染训练样本的可用性和可靠性。

在步骤S102中，根据由第一感染训练样本构成的第一训练样本集，使用预先训练好的生成对抗网络模型的生成器生成对应的第二感染训练样本。

在本发明实施例中，生成对抗网络(Generative Adversarial Nets，GAN)模型包括生成器和判别器，生成器用于生成新的数据样本以模拟真实数据样本的潜在分布，判别器用于判别输入数据是真实数据还是生成的样本。将第一训练样本集输入到预先训练好的GAN模型的生成器中，生成与第一训练样本集同类的、对应的第二感染训练样本，即第二感染训练样本为正类样本，以通过第二感染训练样本模拟患有院内感染的样本数据的潜在分布，解决由于HIS数据库中患有院内感染的样本数据远小于没有患院内感染的负类样本数据，导致患有院内感染的样本数据的数据量不足，引起后续用于模型训练的数据集不平衡而导致预测准确率下降的问题。

在使用预先训练好的生成对抗网络模型的生成器生成对应的第二感染训练样本之前，优选地，构建生成器的目标函数

根据目标函数对生成器进行优化训练，其中，n是用于训练该生成器的样本个数，P_G(xⁱ；θ)是生成器根据输入的第i个训练样本x_i生成同部分(即与x_i的类别(正类或者负类)一致)的概率，θ为待优化的生成器的参数，从而使得生成器生成的第二感染训练样本可以最大程度接近原始的第一感染训练样本分布。

在根据目标函数对生成器进行优化训练时，优选地，通过最大化目标函数L，对生成器进行优化训练，具体地，通过

拟合生成器生成的生成数据的分布，使得生成数据的期望分布P_G尽量接近于原始的训练数据x的真实分布P_data，其中，θ^*是优化训练后得到的最佳生成器的参数，从而使得生成器生成的第二感染训练样本可以最大程度接近原始的第一感染训练样本分布。

在步骤S103中，根据第一训练样本集和由第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过迭代训练使得高斯过程概率模型的预测精度值达到预设的精度要求。

在本发明实施例中，根据第一训练样本集和第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测迭代训练，直至高斯过程概率模型的预测精度值满足预设的精度要求，表示通过高斯过程概率模型可以准确预测出患者发生院内感染的概率，则停止院内感染预测训练，其中，第二训练样本集由第二感染训练样本组成。

在本发明实施例中，根据由患有院内感染的第一感染训练样本组成的第一训练样本集，使用生成对抗网络模型的生成器生成对应的第二感染训练样本，根据第一训练样本集和由第二感染训练样本构成的第二训练样本集，通过主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过迭代训练使得高斯过程概率模型的预测精度值达到预设精度要求，从而提高用于医院内感染预测的模型训练收敛速度，且提高了院内感染预测的准确性，进而使得医生能及时对患者进行感染防御，降低患者由于院内感染所造成的金钱和健康损失。

实施例二：

图2示出了本发明实施例二提供的对高斯过程概率模型进行院内感染预测的迭代训练的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，通过第一训练样本集对高斯过程概率模型进行院内感染预测训练，并记录院内感染预测训练后的高斯过程概率模型的预测精度值。

在本发明实施例中，将第一训练样本集输入到高斯过程(Gaussian Process，简称GP)概率模型中，对高斯过程概率模型进行院内感染预测训练，以使得训练后的高斯过程概率模型可以准确预测出患者发生院内感染的概率，有助于医生及时对患者进行感染防御，并记录院内感染预测训练后的高斯过程概率模型的预测精度值，同时保存对应的高斯过程概率模型。

在步骤S202中，当预测精度值未达到精度要求时，使用高斯过程概率模型对第二训练样本集中的每个第二感染训练样本进行院内感染预测，得到对应的院内感染概率。

在本发明实施例中，当预测精度值没有达到预设的精度要求时，使用高斯过程概率模型对第二训练样本集中的每个第二感染训练样本进行院内感染预测，分别得到对应的院内感染概率。

在步骤S203中，根据院内感染概率，使用预设的基于不确定性的样本选择策略从第二训练样本集中选择预设数量个第二感染训练样本。

在本发明实施例中，在使用基于不确定性的样本选择策略从第二训练样本集中选择预设数量个第二感染训练样本时，优选地，通过下述步骤实现从第二训练样本集中选择预设数量个第二感染训练样本：

2)根据预设的相似性分数计算函数

计算第二训练样本集里每个第二感染训练样本与第一训练样本集里每个第一感染训练样本的相似度，取计算得到各第二感染训练样本与每个第一感染训练样本的相似度中的最大值作为对应的第二感染训练样本的相似性分数T(X₁,X₂)，n为样本向量X₁、X₂的维度，x_1i为X₁的第i个维度的向量，x_2i为X₂的第i个维度的向量，X₁是第二训练样本集U里的一个第二感染训练样本、X₂是第一训练样本集D里一个第一感染训练样本；

3)根据每个第二感染训练样本的不确定性分数和相似性分数，使用预设的综合分数计算函数Fscore＝α(1-T(x,D))+(1-α)U(x)得到对应的第二感染训练样本x的综合分数Fscore，α是已经选出的第二感染训练样本的样本数量占通过生成对抗网络模型生成的全部样本数量的比例，第一次迭代时α为0，所以综合分数只考虑不确定性分数，随着越来越多的第二感染训练样本被选出加入到第一训练样本集，相似性分数所起的作用也越大；

4)按照综合分数的高低，从第二训练样本集里选出预设数量个(batch size)第二感染训练样本。

通过上述步骤1)～4)使得选出的第二感染训练样本中包含更多的信息量，根据这些信息量可以很好的分辨出第二训练样本集中哪些第二感染训练样本的质量比较好，哪些第二感染训练样本是噪音，从而提高用于院内感染预测训练的第一感染训练样本的数据质量，进而提升高斯过程概率模型的预测准确率。

又一优选地，将每次迭代选择的第二感染训练样本的数量(batch size)设置为10，从而提高了高斯过程概率模型的训练收敛速度。

在步骤S204中，将选择出的第二感染训练样本加入第一训练样本集中，更新第一训练样本集，并相应的更新第二训练样本集。

在本发明实施例中，将选择出的第二感染训练样本加入第一训练样本集中，对第一训练样本集进行更新，同时，从第二训练样本集中删掉选择出的第二感染训练样本，对第二训练样本集进行更新，将更新后的第一训练样本集和第二训练样本集用于下一轮高斯过程概率模型的院内感染预测训练和第二感染训练样本选择。

在本发明实施例中，当高斯过程概率模型的预测精度值没有达到精度要求时，使用高斯过程概率模型对第二训练样本集中的第二感染训练样本进行院内感染预测，得到对应的院内感染概率，根据院内感染概率，使用基于不确定性的样本选择策略从第二训练样本集中选择预设数量个第二感染训练样本，并将选出的第二感染训练样本加入到第一训练样本集中，以用于下一轮高斯过程概率模型的院内感染预测训练，直至高斯过程概率模型的预测精度值达到精度要求，从而通过使用信息量更大的第二感染训练样本对第一训练样本集进行扩充，提高了用于院内感染预测训练的第一感染训练样本的数据质量，进而提升高斯过程概率模型的预测准确率。

实施例三：

图3示出了本发明实施例三提供的用于医院内感染预测的模型训练装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

第一样本抽取单元31，用于从预设的医院信息系统中抽取患有院内感染的样本数据，得到对应的第一感染训练样本；

第二样本生成单元32，用于根据由第一感染训练样本构成的第一训练样本集，使用预先训练好的生成对抗网络模型的生成器生成对应的第二感染训练样本；以及

模型预测训练单元33，用于根据第一训练样本集和由第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过迭代训练使得高斯过程概率模型的预测精度值达到预设的精度要求。

如图4所示，优选地，第一样本抽取单元31包括：

样本预处理单元311，用于将抽取出的样本数据进行预处理，得到第一感染训练样本。

模型预测训练单元33包括：

预测训练单元331，用于通过第一训练样本集对高斯过程概率模型进行院内感染预测训练，并记录院内感染预测训练后的高斯过程概率模型的预测精度值；

样本感染预测单元332，用于当预测精度值未达到精度要求时，使用高斯过程概率模型对第二训练样本集中的每个第二感染训练样本进行院内感染预测，得到对应的院内感染概率；

样本选择单元333，用于根据院内感染概率，使用预设的基于不确定性的样本选择策略从第二训练样本集中选择预设数量个第二感染训练样本；以及

样本集更新单元334，用于将选择出的第二感染训练样本加入第一训练样本集中，更新第一训练样本集，并相应的更新第二训练样本集。

进一步优选地，样本选择单元333包括：

第一分数获得单元3331，用于根据院内感染概率，使用预设的不确定性分数计算函数得到第二训练样本集中的每个第二感染训练样本对应的不确定性分数；

第二分数获得单元3332，用于根据预设的相似性分数计算函数计算每个第二感染训练样本与第一训练样本集中的每个第一感染训练样本的相似度，得到每个第二感染训练样本对应的相似性分数；

第三分数获得单元3333，用于根据不确定性分数和相似性分数，使用预设的综合分数计算函数得到每个第二感染训练样本对应的综合分数；以及

样本选择子单元3334，用于根据综合分数，从第二训练样本集中选择预设数量个第二感染训练样本。

在本发明实施例中，用于医院内感染预测的模型训练装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。具体地，各单元的实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例四：

图5示出了本发明实施例四提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述用于医院内感染预测的模型训练方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备5中处理器50执行计算机程序52时实现用于医院内感染预测的模型训练方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述用于医院内感染预测的模型训练方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于医院内感染预测的模型训练方法，其特征在于，所述方法包括下述步骤：

根据所述第一训练样本集和由所述第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过所述迭代训练使得所述高斯过程概率模型的预测精度值达到预设的精度要求；

在通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练的步骤，包括：

通过所述第一训练样本集对所述高斯过程概率模型进行院内感染预测训练，并记录院内感染预测训练后的所述高斯过程概率模型的预测精度值；

当所述预测精度值未达到所述精度要求时，使用所述高斯过程概率模型对所述第二训练样本集中的每个第二感染训练样本进行院内感染预测，得到对应的院内感染概率；

根据所述院内感染概率，使用预设的基于不确定性的样本选择策略从所述第二训练样本集中选择预设数量个第二感染训练样本；

将选择出的所述第二感染训练样本加入所述第一训练样本集中，更新所述第一训练样本集，并相应的更新所述第二训练样本集；

使用预设的基于不确定性的样本选择策略从所述第二训练样本集中选择预设数量个第二感染训练样本的步骤，包括：

根据所述院内感染概率，使用预设的不确定性分数计算函数得到所述第二训练样本集中的每个第二感染训练样本对应的不确定性分数；

根据预设的相似性分数计算函数计算所述每个第二感染训练样本与所述第一训练样本集中的每个第一感染训练样本的相似度，得到所述每个第二感染训练样本对应的相似性分数；

根据所述不确定性分数和所述相似性分数，使用预设的综合分数计算函数得到所述每个第二感染训练样本对应的综合分数；

根据所述综合分数，从所述第二训练样本集中选择预设数量个第二感染训练样本。

2.如权利要求1所述的方法，其特征在于，从预设的医院信息系统中抽取患有院内感染的样本数据的步骤，包括：

将抽取出的所述样本数据进行预处理，得到所述第一感染训练样本。

3.一种用于医院内感染预测的模型训练装置，其特征在于，所述装置包括：

模型预测训练单元，用于根据所述第一训练样本集和由所述第二感染训练样本构成的第二训练样本集，通过预设的主动学习算法对高斯过程概率模型进行院内感染预测的迭代训练，直至通过所述迭代训练使得所述高斯过程概率模型的预测精度值达到预设的精度要求；

所述模型预测训练单元包括：

预测训练单元，用于通过所述第一训练样本集对所述高斯过程概率模型进行院内感染预测训练，并记录院内感染预测训练后的所述高斯过程概率模型的预测精度值；

样本感染预测单元，用于当所述预测精度值未达到所述精度要求时，使用所述高斯过程概率模型对所述第二训练样本集中的每个第二感染训练样本进行院内感染预测，得到对应的院内感染概率；

样本选择单元，用于根据所述院内感染概率，使用预设的基于不确定性的样本选择策略从所述第二训练样本集中选择预设数量个第二感染训练样本；以及

样本集更新单元，用于将选择出的所述第二感染训练样本加入所述第一训练样本集中，更新所述第一训练样本集，并相应的更新所述第二训练样本集；

所述样本选择单元包括：

第一分数获得单元，用于根据所述院内感染概率，使用预设的不确定性分数计算函数得到所述第二训练样本集中的每个第二感染训练样本对应的不确定性分数；

第二分数获得单元，用于根据预设的相似性分数计算函数计算所述每个第二感染训练样本与所述第一训练样本集中的每个第一感染训练样本的相似度，得到所述每个第二感染训练样本对应的相似性分数；

第三分数获得单元，用于根据所述不确定性分数和所述相似性分数，使用预设的综合分数计算函数得到所述每个第二感染训练样本对应的综合分数；以及

样本选择子单元，用于根据所述综合分数，从所述第二训练样本集中选择预设数量个第二感染训练样本。

4.如权利要求3所述的装置，其特征在于，所述第一样本抽取单元包括：

样本预处理单元，用于将抽取出的所述样本数据进行预处理，得到所述第一感染训练样本。

5.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述方法的步骤。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。