CN114822857A

CN114822857A - 重复入院的预测方法、计算设备及存储介质

Info

Publication number: CN114822857A
Application number: CN202110064808.6A
Authority: CN
Inventors: 康延妮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-07-29

Abstract

本申请实施例提供一种重复入院的预测方法、计算设备及存储介质。在本申请实施例中，获取待预测病人的入院信息；确定入院信息对应的特征信息；将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院，从而能够自动地且较为准确地预测待预测病人后续是否会因为相同疾病再入院，以提高病人的治愈率，减少再入院率。

Description

重复入院的预测方法、计算设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种重复入院的预测方法、预测模型生成方法、计算设备及存储介质。

背景技术

降低再入院率是每个医院都在努力追求的目标，因为这不仅符合患者的利益，更能体现医院的技术和信誉。有研究表明，出院患者中有22％的再入院者是潜在可避免的再入院患者，那么要实现总体再入院率的降低，则有效降低可避免的再入院率则显得尤为重要。

发明内容

本申请的多个方面提供一种重复入院的预测方法、预测模型生成方法、计算设备及存储介质，用以能够快速且较为准确地预测再入院的病人。

本申请实施例提供一种重复入院的预测方法，包括：获取待预测病人的入院信息；确定所述入院信息对应的特征信息；将所述特征信息输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院。

本申请实施例还提供一种重复入院的预测模型生成方法，包括：获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的所述历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于所述第一历史特征值以及所述第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

本申请实施例还提供一种计算设备，包括：存储器、处理器以及通信组件；所述存储器，用于存储计算机程序；所述通信组件，用于获取待预测病人的入院信息；所述处理器，用于确定所述入院信息对应的特征信息；将所述特征信息输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院。

本申请实施例还提供一种计算设备，包括：存储器、处理器以及通信组件；所述存储器，用于存储计算机程序；所述通信组件，用于获取多个病人的历史入院信息；所述处理器，用于执行所述计算机程序，以用于：确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的所述历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于所述第一历史特征值以及所述第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器实现上述方法中的步骤。

在本申请实施例中，获取待预测病人的入院信息；确定入院信息对应的特征信息；将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院，从而能够自动地且较为准确地预测待预测病人后续是否会因为相同疾病再入院，以提高病人的治愈率，减少再入院率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例的重复入院的预测系统的结构示意图；

图2为本申请一示例性实施例的重复入院的预测方法的流程示意图；

图3为本申请一示例性实施例的SHAP解释的示意图；

图4为本申请一示例性实施例的重复入院的预测模型生成方法的流程示意图；

图5为本申请一示例性实施例提供的重复入院的预测装置的结构示意图；

图6为本申请一示例性实施例提供的重复入院的预测模型生成装置的结构示意图；

图7为本申请一示例性实施例提供的计算设备的结构示意图；

图8为本申请一示例性实施例提供的计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

根据前文所述可知，如何降低再入院率是非常重要的。

由此，本申请实施例用以能够快速且较为准确地预测再入院的病人。

图1为本申请一示例性实施例提供的一种重复入院的预测系统的结构示意图。如图1所示，该系统100可以包括：第一设备101、第二设备102以及第三设备103。

其中，第一设备101可以是有一定计算能力的设备，可以实现向第二设备102发送数据的功能，也可以接收第二设备102返回的数据。第一设备101的基本结构可以包括：至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器，该存储器可以为易失性的，例如RAM，也可以为非易失性的，例如只读存储器(Read-Only Memory，ROM)、闪存等，或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System，OS)、一个或多个应用程序，也可以存储有程序数据等。除了处理单元和存储器之外，具有一定计算能力装置还包括一些基本配置，例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地，一些外围设备可以包括，例如键盘、输入笔等。其它外围设备在本领域中是众所周知的，在此不做赘述。可选地，第一设备101可以为智能终端，例如，手机、台式电脑、笔记本、平板电脑等。

第二设备102是指可以在网络虚拟环境中提供计算处理服务的设备，可以是指利用网络进行数据获取的设备。在物理实现上，第二设备102可以是任何能够提供计算服务，响应服务请求，并进行数据获取的设备，例如可以是云服务器、云主机、虚拟中心、常规服务器等等。第二设备102的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

第三设备103是指可以在网络虚拟环境中提供计算处理服务的设备，可以是指利用网络进行重复入院的预测的设备。在物理实现上，第三设备103可以是任何能够提供计算服务，响应服务请求，并进行数据获取的设备，例如可以是云服务器、云主机、虚拟中心、常规服务器等等。第三设备103的构成主要包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似。

具体的，第三设备103，获取待预测病人的入院信息；确定入院信息对应的特征信息；将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

具体的，入院信息包括疾病种类信息以及其它入院信息；其中，第三设备103，确定疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值；将第一特征值和第二特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，第二设备102接收第一设备101发送病人的入院信息。然后第二设备102可以定时将入院信息作为历史入院信息发送至第三设备103。

第三设备103，获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

第一设备101，可以向第三设备103发送待预测病人的入院信息。第三设备103接收到该入院信息进行预测，并将预测结果发送至第一设备101。

此外，当得到待预测病人后续因相同疾病种类重复入院，则第三设备103，将预置预测模型、疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值以及第二特征值对应特征的重要度排序结果。第三设备103可以将该排序结果发送至第一设备101中，进行展示。

此外，入院信息还包括手术种类信息；第三设备103，确定手术种类信息对应的第三特征值；将第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，当得到待预测病人后续因相同疾病种类重复入院，则第三设备103，将疾病种类信息对应的第一特征值、手术种类信息对应的第三特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值、第三特征值以及第二特征值对应特征的重要度排序结果。

除此之外，该系统还可以包括第四设备104。其实现形态可以与第三设备103相似，此处就不再赘述了。

第三设备103可以将训练后的预置预测模型发送至第四设备104，由第四设备104进行预测。则第一设备101可以向第四设备104发送待预测病人的入院信息，并由第四设备104发送预测结果，就不再赘述。其中，第四设备104中也可以设置有预置解释工具，以进行对应特征的重要度的排序。

需要说明的是，该系统100也可以由第一设备101和第三设备103组成。于此，第一设备101可以直接向第三设备103发送病人的入院信息，由此第三设备103就可以直接收集入院信息，以进行模型的训练，此处就不再赘述。

在本申请实施例的再入院预测的场景中，用户105，如医生，对来看病的病人进行看诊，并将病人的信息输入至电脑中，对于需要住院治疗的病人，该信息中包括入院信息。第一设备101，如电脑，接收到上述信息后，可以将信息发送至第二设备102，如第一服务器，中进行存储。以便该服务器定时向第三设备103，如第二服务器发送病人的历史入院信息。第二服务器接收到该历史入院信息后，确定出因为同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息。基于历史入院信息中疾病种类信息(如，诊断编码)对应的第一历史特征值，如向量特征值，以及其它入院信息(可以包括患者入院前的诊断和检查、住院期间每一天的诊断、病程记录、手术操作记录、医嘱、护理记录等信息)对应的第二历史特征值，如预设值，对预置初始分类模型，如初始的树模型LightGBM(Light Gradient Boosting Machine，轻型梯度提升机)，得到训练好后的LightGBM。由此，医生在对具备出院资格的病人(即待预测病人)的入院信息发送至第二服务器，第二服务器从入院信息中获取到疾病种类信息(如，诊断编码)对应的第一特征值，如向量特征值，以及其它入院信息对应的第二特征值，如预设值，并输入至预置预测模型中，得到预测结果，该待预测病人后续是否会再次入院，或者是否会重复入院。第二服务器，可以将预测结果返回至电脑，以向医生进行展示。

第二服务器还可以将训练好后的LightGBM与预置解释工具进行组合。预置解释工具，如SHAP(Shapley Additive exPlanations，SHAP值是联盟博弈论的一种方法，它表明如何在特征之间公平地分配“总支出”。SHAP为每个实例估算每个特征值对预测的贡献。)进行组合。在第二服务器确定出预测结果后，可以将疾病种类信息(如，诊断编码)对应的第一特征值，如向量特征值，其它入院信息对应的第二特征值，如预设值，以及预置预测模型输入至SHAP工具中，得到对应特征的重要度排序结果。

此外，第二服务器中还可以将预置预测模型以及SHAP进行组合部署在第四设备104中，如第三服务器，以进行上述预测以及排序，此处就不再赘述。

除此外，历史入院信息(入院信息也是还可以包括手术种类信息)还包括手术种类信息，如手术编码，然后第二服务器确定对应的第三历史特征值，如向量特征值。基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到训练后的预置预测模型。在进行预测的时候，也需要获取到的对应的第三特征值，以进行预测，此处就不再赘述。对于第三服务器预测的时候，预测过程也是相似的，此处就不再赘述。

需要说明的是，病人的入院信息可以更新，即可以根据病人的当前的病况进行更新，如，以日为单位进行信息的更新，该更新可以不覆盖以前的信息，如每日的信息都存在。

医生可以根据预测结果，可以确定该带预测病人是否可以出院，如果预测结果为会重复入院，那么医生可以延缓病人出院的时间。同时，还可以根据对应特征的重要度排序结果，得到影响病人会重复入院的因素，从而为医生临床决策提供依据，提高医生自身的素养等。

在上述本实施例中，第一设备101、第二设备102、第三设备103以及第四设备104进行网络连接，该网络连接可以是无线连接。若第一设备101、第二设备102、第三设备103以及第四设备104是通信连接，该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。

下面结合方法实施例，针对重复入院的预测过程进行详细说明。

图2为本申请一示例性实施例的一种重复入院的预测方法的流程示意图。本申请实施例提供的该方法200由计算设备执行，如，服务器等。该方法200包括以下步骤：

201：获取待预测病人的入院信息。

202：确定入院信息对应的特征信息。

203：将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

需要说明的是，该方法200也可以通过智能终端来实现，如电脑等。并且再入院的患者中有一部分是必须要住院进行治疗的，对这一部分特殊病患者则不能单纯追求降低再入院率了，所以降低再入院率的关键是降低可避免再入院率。所以，可以是针对可避免再入院的病人进行的该预测。

以下针对上述步骤进行详细地阐述：

201：获取待预测病人的入院信息。

其中，入院信息可以是指病人在本次看病就诊过程中的信息，可以包括疾病种类信息以及其它入院信息。如患者(即待预测病人)入院前的诊断和检查、住院期间每一天的诊断、病程记录、手术操作记录、医嘱、护理记录等信息。疾病种类信息可以是指可以明确出疾病的信息，如疾病的ID，例如诊断编码ICD10(国际疾病分类internationalClassification of diseases，ICD)。其它入院信息可以包括但不限于从入院信息中去除的诊断编码信息。以及，该其它入院信息也可以不具有上述中一些信息，如手术操作记录信息等。

待预测病人可以是指即将要出院的病人，如满足当前出院指标的病人。

入院可以是指病人在医院中住院治疗，也可以是病人在医院中就诊等。

例如，根据前文所述，医生可以对病人进行看诊，对需要住院治疗的病人，将其诊断编码以及其它入院信息输入至医院电脑中，可以作为该病人的病历。并由电脑响应于医生的存储或者发送操作，将这些信息发送至医院的服务器中进行存储。当该病人即将出院前，进行重复再入院的预测。则医生可以在其电脑上进行操作，该电脑可以通过医院的服务器，或者其它部署有预置预测模型的服务器提供的预测界面，进行重复入院的再预测。

医生可以在该界面上进行操作，选择待预测病人的ID或者姓名等。并点击预测按钮或控件等进行预测。电脑则可以响应该预测操作，向医院的服务器发送该预测请求，该预测请求可以携带待预测病人的ID或者姓名等，并从医院的服务器中获取到其的诊断编码以及其它入院信息。可以由该服务器直接预测，也可以由该服务器将这些信息发送至其它服务器进行预测。当然，也可以由电脑的智能终端进行预测，此处就不再赘述。

202：确定入院信息对应的特征信息。

具体的，确定入院信息对应的特征信息，包括：确定疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值。

其中，第一特征值可以是指改疾病种类信息的数据，如诊断编码的特征向量，可以通过FastText(FastText是一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法)词向量表征学习方法进行词向量的提取。也可以通过其它方式来确定特征向量，如word embedding词向量嵌入等。第二特征值则可以是预设值，例如通过预置映射关系或者预置对应关系，将不同的信息映射为或对应为对应的数据值。应理解，这种映射或对应可以使得同一种类信息的不同的信息具有不同的预设值，且其它入院信息中对应的每种信息可以对应一个预设值，可以将这些预设值进行组合，得到其它入院信息的预设值。

具体的，确定疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值，包括：确定疾病种类标识对应的特征向量，作为第一特征值；确定其它入院信息对应的预设值，作为第二特征值。

其中，疾病种类标识可以是疾病编码。

例如，根据前文所述，服务器(无论上述举例的哪种服务器)可以得到第一特征值和第二特征值。

具体的，将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院，包括：将第一特征值和第二特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

其中，预置预测模型可以是分类模型，如LightGBM树模型。其训练方式可以为：获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

其中，预置初始分类模型可以是指预置初始树模型，其包含一些初始的网络结构，需要对其模型参数进行确定。

历史入院信息与前文所述的入院信息的内容相同，只是历史入院信息属于在训练模型前的病人的入院信息。

确定针对至少同一疾病重复入院病人的历史入院信息的方式可以为通过对于同一个病人的疾病种类来确定，例如，可以先将历史入院信息按照病人进行划分，得到对同一个病人(可以通过病人的姓名或者身份信息来确定是否同一个病人)的多个或多次历史入院信息。再根据疾病种类来确定是否是属于相同或相似的疾病，即该病人是否因为相同或相似的疾病重复入院。其中，相同或相似的疾病可以是指相同或相似的诊断编码。相似的诊断编码可以是指同一个类型的诊断编码，如前预置位数相同的诊断编码，编码1“0101”，编码2“0102”，两个编码前三位相同010，则属于同一大类疾病，属于相似的疾病。

针对至少同一疾病单次入院病人的历史入院信息是指病人因至少一种疾病的单次历史入院信息。该病人可以多次入院，但是每次都是因为不同的疾病。也可以是该病人仅因为一次疾病而单次入院。

具体的，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值，包括：确定历史入院信息中疾病种类标识对应的特征向量，作为第一历史特征值；确定历史入院信息中其它入院信息对应的预设值，作为第二历史特征值。而第一历史特征值与第一特征值的确定方式相同，以及第二历史特征值与第二特征值的确定方式相同，此处就不再赘述。

例如，根据前文所述，医院的服务器可以定时将需要住院治疗的多个病人的历史入院信息发送至其它服务器，或者医院的服务器可以直接定时从本地获取到历史入院信息。服务器在获取到历史入院信息后，确定出至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息。然后基于这些历史入院信息确定出诊断编码的向量特征以及其它入院信息的预设值，并对预置初始树模型进行训练，得到训练后的树模型以进行预测。服务器则可以将第一特征值以及第二特征值输入至训练后的树模型中，得到该待预测病人后续(如，下次)是否会再入院的结果，如输出为0为不会再入院，输出为1为会再入院。

为了能够快速进行模型训练以及提高模型的能力和质量，在模型训练前，可以对历史入院信息进行数据预处理。

具体的，该方法200还包括：筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

其中，无效历史特征值是指对训练预置初始分类模型不起作用的特征值。其确定方式可以为通过数据分析来确定历史特征值对应的信息(即特征)是否属于有用信息。如历史入院信息中可以存在病人的婚史，在众多重复入院的历史入院信息中，婚史的分布是比较平均的，没有存在已婚或未婚有较多历史入院信息，则可以确定婚史是无用信息(即无效的)，可以剔除掉。相对的，病人的职业在众多重复入院的历史入院信息中，职业的分布是显著分布的，如某种金属工人职业重复入院的次数较高，那么职业可以作为有用特征。

例如，根据前文所述，服务器在确定了第一历史特征值以及第二历史特征值后，剔除掉无效历史特征值。

需要说明的是，除了在得到历史特征值后进行筛选，也可以在拿到历史入院信息的时候就进行筛选，此处就不再赘述。

具体的，该方法200还包括：删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

其中，异常历史特征值可以是指不属于正常数值的范围内的值，其对应的特征值可以具有一定的范围。

例如，根据前文所述，服务器在确定了第一历史特征值以及第二历史特征值后，删除掉异常历史特征值。

需要说明的是，除了在得到历史特征值后进行删除，也可以在拿到历史入院信息的时候就进行删除，此处就不再赘述。

除此以外，还可以对历史入院信息或者对应的特征值(如，第一历史特征值和第二历史特征值)进行数据分布变换。可以根据需求做数据分布变换，如正态分布等等。

此外，为了能够更加精准地预测，该历史入院信息还可以包括手术种类信息；该方法200还可以包括；基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

其中，手术种类信息可以是指可以明确出手术的信息，如手术ID，例如，手术编码。此处的手术种类信息是从历史入院信息中获取到的。那么其它入院信息也就不再具有手术编码，且此处的其它入院信息也是从历史入院信息中获取到的。

具体的，确定手术种类信息对应的第三历史特征值，包括：确定手术种类标识对应的特征向量，作为第三历史特征值。

其中，手术种类信息可以是指手术编码，其特征值可以是指特征向量。可以通过上式方式来确定，如FastText。

根据前文所述可知，服务器在得到第三历史特征值后，根据第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预置预测模型。具体的训练过程与前文所述的训练方式相似，此处就不再赘述。

相对的，该入院信息还可以包括手术种类信息；该方法200还包括：确定手术种类信息对应的第三特征值；将第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

其中，确定手术种类信息对应的第三特征值，与确定第三历史特征值的方式相同，此处就不再赘述。

将第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。与将第一特征值、第二特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院的方式相似，此处就不再赘述。

同时还可以根据训练后的预测模型，即预置预测模型，来确定各个对应特征的重要度。例如，通过树模型来确定各个特征，如疾病种类信息、其它入院信息，还可以是手术种类信息等特征的重要度，并进行重要度排序，同时可以将排序结果进行输出展示。其中，重要度的确定方式可以为一个特征在树模型中被分裂的次数来确定。也可以通过其它方式来确定，如Random Foreast袋外数据错误率来确定。

此外，还可以通过预置解释工具，如SHAP工具，针对每个患者(即待预测病人)，分析影响每个患者会再次入院的风险因子，如对应特征，给医生临床决策提供了实时重要信息，有助于医护人员和医疗机构将资源分配给最可能再入院的患者，从而减少再入院率，从而实现医保控费的目的。

具体的，该方法200还包括：当得到待预测病人后续因相同疾病种类重复入院，则将预置预测模型、疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值以及第二特征值对应特征的重要度排序结果。

例如，根据前文所述，在通过训练后的树模型确定了该待预测病人会再次入院后，服务器可以将训练后的树模型、疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值输入至SHAP工具中，并由该工具得到针对该待遇测病人的各个对应特征的重要度排序结果。该重要度排序结果是针对各个对应特征对再入院预测结果的贡献排序情况。

SHAP工具可以给出以一个待预测病人为单个样本具体到每个特征对样本是否为再次入院的结果得分的贡献，如本申请实施例的SHAP中基线均值：-2.98，给出的shapley分值是未经sigmoid变换的输入值，即非线性sigmoid变换1/(1+exp(-x))中的x；经过转化最终预测值1/(1+exp(2.98))＝0.048，即SHAP的平均预测概率为0.048。

以下以图3为例来加以说明。图3中患者简要信息为：年纪age：1岁四个月，入院方式in_way为急诊入院，住院天数为6天，治愈情况heal_situation_2.0为：好转，之前有过一次住院病史in_times＝1,诊断编码为J18为支气管肺炎等。Shapley值可以解释该患者的再入院概率，其基线(平均预测概率)可以为0.048。此患者的预测风险很高为：1/(1+np.exp(1.16))＝0.24。入院方式为急诊、住院病人天数6天、治愈情况为好转以及诊断为支气管肺炎(约50％的再入院幼儿患者入院原因)等增加了患者再入院的风险。

此外，还可以将排序结果进行展示，通过智能终端，如电脑来展示。

具体的，该方法200还包括：通过展示设备展示重要度排序结果。

例如，根据前文所述，服务器将排序结果发送至医生的电脑进行展示该排序结果。

还可以通过其它展示形式来展示该排序结果，如图形来展示排序结果，如柱形图等。

具体的，该方法200还包括：通过展示设备，以柱形图展示重要度排序结果。

例如，根据前文所述，服务器将排序结果以及展示形式发送至医生的电脑，电脑根据该排序结果以及柱形图展示形式进行展示，在该展示形式中，可以以对应特征为纵坐标，以SHAP值(即重要度，具体到每个特征对样本是否为再次入院的结果得分的贡献)为横坐标，来展示柱形图。以使医生可以更加直观地查看。

相对的，该方法200还包括：当得到待预测病人后续因相同疾病种类重复入院，则将疾病种类信息对应的第一特征值、手术种类信息对应的第三特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值、第三特征值以及第二特征值对应特征的重要度排序结果。

与前文阐述的方式相似，此处就不再赘述。

基于上述相似的发明构思，图4示出了本申请另一示例性实施例提供的一种重复入院的预测模型生成方法的流程示意图。本申请实施例提供的该方法400由服务器执行，该方法400包括以下步骤：

401：获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息。

402：基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值。

403：基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

由于前文已经详细阐述过步骤401-403的具体实施方式，此处就不再赘述。仅说明，本方法400也可以由智能终端来实现。

此外，该方法400还包括：筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

此外，该方法400还包括：删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

此外，该方法400还包括：基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预测模型。

此外，该方法400还包括：将预测模型与预置解释工具进行组合，以使当预测模型预测到待预测病人后续因相同疾病种类重复入院，则通过预置解释工具对对应特征的重要度进行排序，对应特征为预测模型的输入特征。

另，本方法400未能详细描述的内容，还可以参照上述方法200中的各个步骤。

图5为本申请一示例性实施例提供的一种重复入院的预测装置的结构框架示意图。该装置500可以应用于服务器。该装置500包括：获取模块501、确定模块502；以下针对各个模块的功能进行详细的阐述：

获取模块501，用于获取待预测病人的入院信息。

确定模块502，用于确定入院信息对应的特征信息。

确定模块502，用于将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

其中，入院信息包括疾病种类信息以及其它入院信息。

具体的，确定模块502，具体用于：确定疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值。

具体的，确定模块502，具体用于：将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院，包括：将第一特征值和第二特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，确定模块502，还用于：当得到待预测病人后续因相同疾病种类重复入院，则将预置预测模型、疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值以及第二特征值对应特征的重要度排序结果。

此外，该装置500还包括：展示模块，用于通过展示设备展示重要度排序结果。

此外，展示模块，还用于：通过展示设备，以柱形图展示重要度排序结果。

此外，入院信息还包括手术种类信息；确定模块502，还用于：确定手术种类信息对应的第三特征值；将第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，确定模块502，还用于：当得到待预测病人后续因相同疾病种类重复入院，则将疾病种类信息对应的第一特征值、手术种类信息对应的第三特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值、第三特征值以及第二特征值对应特征的重要度排序结果。

具体的，确定模块502，包括：第一确定单元，用于确定疾病种类标识对应的特征向量，作为第一特征值；第二确定单元，用于确定其它入院信息对应的预设值，作为第二特征值。

此外，确定模块502，还包括第三确定单元，用于确定手术种类标识对应的特征向量，作为第三特征值。

此外，获取模块501，还用于：获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；确定模块502，还用于基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；该装置500还包括：训练模块，用于基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

此外，该装置500还包括：筛选模块，用于筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

此外，该装置500还包括：删除模块，用于删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

此外，确定模块502，还用于：基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

具体的，确定模块502，包括：第一确定模块，用于确定历史入院信息中疾病种类标识对应的特征向量，作为第一历史特征值；第二确定模块，用于确定历史入院信息中其它入院信息对应的预设值，作为第二历史特征值。

图6示出了本申请又一示例性实施例提供的一种重复入院的预测模型生成装置的结构框架示意图。该装置600可以应用于服务器。该装置600包括：获取模块601、确定模块602，以下针对各个模块的功能进行详细的阐述：

获取模块601，用于获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息。

确定模块602，用于基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值。

确定模块602，用于基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

此外，该装置600还包括：筛选模块，用于筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

此外，该装置600还包括：删除模块，用于删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

此外，确定模块602，还用于：基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预测模型。

此外，该装置600还包括：组合模块，用于将预测模型与预置解释工具进行组合，以使当预测模型预测到待预测病人后续因相同疾病种类重复入院，则通过预置解释工具对对应特征的重要度进行排序，对应特征为预测模型的输入特征。

需要说明的是，对于装置600未能提及的部分内容，可以参照上述装置500的内容。

以上描述了图5所示的装置500的内部功能和结构，在一个可能的设计中，图7所示的装置700的结构可实现为计算设备，如，服务器。如图7所示，该设备700可以包括：存储器701、处理器702以及通信组件703；

存储器701，用于存储计算机程序。

通信组件703，用于获取待预测病人的入院信息。

处理器702，用于执行计算机程序，以用于：确定入院信息对应的特征信息；将特征信息输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

其中，入院信息包括疾病种类信息以及其它入院信息；

具体的，处理器702，具体用于：确定疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值；将第一特征值和第二特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，处理器702，还用于：当得到待预测病人后续因相同疾病种类重复入院，则将预置预测模型、疾病种类信息对应的第一特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值以及第二特征值对应特征的重要度排序结果。

此外，处理器702，还用于通过展示设备展示重要度排序结果。

此外，处理器702，还用于：通过展示设备，以柱形图展示重要度排序结果。

此外，入院信息还包括手术种类信息；处理器702，还用于：确定手术种类信息对应的第三特征值；将第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到待预测病人后续是否因相同疾病种类重复入院。

此外，处理器702，还用于：当得到待预测病人后续因相同疾病种类重复入院，则将疾病种类信息对应的第一特征值、手术种类信息对应的第三特征值以及其它入院信息对应的第二特征值输入至预置解释工具中，得到第一特征值、第三特征值以及第二特征值对应特征的重要度排序结果。

具体的，处理器702，具体用于：确定疾病种类标识对应的特征向量，作为第一特征值；确定其它入院信息对应的预设值，作为第二特征值。

此外，处理器702，还用于：确定手术种类标识对应的特征向量，作为第三特征值。

此外，处理器702，还用于：获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

此外，处理器702，还用于：筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

此外，处理器702，还用于：删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

此外，处理器702，还用于：基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预置预测模型。

具体的，处理器702，具体用于：第一确定模块，用于确定历史入院信息中疾病种类标识对应的特征向量，作为第一历史特征值；确定历史入院信息中其它入院信息对应的预设值，作为第二历史特征值。

另外，本发明实施例提供了一种计算机存储介质，计算机程序被一个或多个处理器执行时，致使一个或多个处理器实现图1-图3方法实施例中一种重复入院的预测方法的步骤。

以上描述了图6所示的装置600的内部功能和结构，在一个可能的设计中，图6所示的装置600的结构可实现为计算设备，如，服务器。如图8所示，该设备800可以包括：存储器801、处理器802以及通信组件803；

存储器801，用于存储计算机程序。

通信组件803，用于获取多个病人的历史入院信息。

处理器802，用于执行所述计算机程序，以用于：确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；基于确定的历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；基于第一历史特征值以及第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

此外，处理器802，还用于：筛选第一历史特征值以及第二历史特征值中的无效历史特征值，无效历史特征值对训练预置初始分类模型不起作用。

此外，处理器802，还用于：删除第一历史特征值以及第二历史特征值中的异常历史特征值，并对删除后的第一历史特征值以及第二历史特征值进行数据分布变换。

此外，处理器802，还用于：基于确定的历史入院信息，确定手术种类信息对应的第三历史特征值；基于第一历史特征值、第二历史特征值以及第三历史特征值，对预置初始分类模型进行训练，得到预测模型。

此外，处理器802，还用于：将预测模型与预置解释工具进行组合，以使当预测模型预测到待预测病人后续因相同疾病种类重复入院，则通过预置解释工具对对应特征的重要度进行排序，对应特征为预测模型的输入特征。

需要说明的是，对于该设备800未能提及的部分内容，可以参照上述设备700的内容。

另外，本发明实施例提供了一种计算机存储介质，计算机程序被一个或多个处理器执行时，致使一个或多个处理器实现图4方法实施例中一种重复入院的预测模型生成方法的步骤。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如201、202、203等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种重复入院的预测方法，其特征在于，包括：

获取待预测病人的入院信息；

确定所述入院信息对应的特征信息；

将所述特征信息输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院。

2.根据权利要求1所述的方法，其特征在于，所述入院信息包括疾病种类信息以及其它入院信息；

其中，确定所述入院信息对应的特征信息，包括：

确定所述疾病种类信息对应的第一特征值以及所述其它入院信息对应的第二特征值；

将所述特征信息输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院，包括：将所述第一特征值和所述第二特征值输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当得到所述待预测病人后续因相同疾病种类重复入院，则将所述预置预测模型、所述疾病种类信息对应的第一特征值以及所述其它入院信息对应的第二特征值输入至预置解释工具中，得到所述第一特征值以及所述第二特征值对应特征的重要度排序结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

通过展示设备展示所述重要度排序结果。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

通过展示设备，以柱形图展示所述重要度排序结果。

6.根据权利要求1所述的方法，其特征在于，所述入院信息还包括手术种类信息；

所述方法还包括：确定所述手术种类信息对应的第三特征值；

将所述第一特征值、第二特征值和第三特征值输入至预置预测模型中，得到所述待预测病人后续是否因相同疾病种类重复入院。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

当得到所述待预测病人后续因相同疾病种类重复入院，则将所述疾病种类信息对应的第一特征值、手术种类信息对应的第三特征值以及所述其它入院信息对应的第二特征值输入至预置解释工具中，得到所述第一特征值、第三特征值以及所述第二特征值对应特征的重要度排序结果。

8.根据权利要求2所述的方法，其特征在于，所述确定所述疾病种类信息对应的第一特征值以及所述其它入院信息对应的第二特征值，包括：

确定所述疾病种类标识对应的特征向量，作为所述第一特征值；

确定所述其它入院信息对应的预设值，作为所述第二特征值。

9.根据权利要求6所述的方法，其特征在于，所述确定所述手术种类信息对应的第三特征值，包括：

确定所述手术种类标识对应的特征向量，作为所述第三特征值。

10.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取多个病人的历史入院信息，并确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；

基于确定的所述历史入院信息，确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值；

基于所述第一历史特征值以及所述第二历史特征值，对预置初始分类模型进行训练，得到所述预置预测模型。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

筛选所述第一历史特征值以及所述第二历史特征值中的无效历史特征值，无效历史特征值对训练所述预置初始分类模型不起作用。

12.根据权利要求10或11所述的方法，其特征在于，所述方法还包括：

删除所述第一历史特征值以及所述第二历史特征值中的异常历史特征值，并对删除后的所述第一历史特征值以及所述第二历史特征值进行数据分布变换。

13.根据权利要求10所述的方法，其特征在于，所述方法还包括：

基于确定的所述历史入院信息，确定手术种类信息对应的第三历史特征值；

基于所述第一历史特征值、所述第二历史特征值以及所述第三历史特征值，对预置初始分类模型进行训练，得到所述预置预测模型。

14.根据权利要求10所述的方法，其特征在于，所述确定疾病种类信息对应的第一历史特征值以及其它入院信息对应的第二历史特征值，包括：

确定所述历史入院信息中疾病种类标识对应的特征向量，作为所述第一历史特征值；

确定所述历史入院信息中其它入院信息对应的预设值，作为所述第二历史特征值。

15.一种重复入院的预测模型生成方法，其特征在于，包括：

基于所述第一历史特征值以及所述第二历史特征值，对预置初始分类模型进行训练，得到预测模型。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

17.根据权利要求15或16所述的方法，其特征在于，所述方法还包括：

18.根据权利要求15所述的方法，其特征在于，所述方法还包括：

基于所述第一历史特征值、所述第二历史特征值以及所述第三历史特征值，对预置初始分类模型进行训练，得到预测模型。

19.根据权利要求15所述的方法，其特征在于，所述方法还包括：

将所述预测模型与预置解释工具进行组合，以使当所述预测模型预测到待预测病人后续因相同疾病种类重复入院，则通过所述预置解释工具对对应特征的重要度进行排序，所述对应特征为所述预测模型的输入特征。

20.一种计算设备，包括：存储器、处理器以及通信组件；

所述存储器，用于存储计算机程序；

所述通信组件，用于获取待预测病人的入院信息；

所述处理器，用于执行所述计算机程序，以用于：确定所述入院信息对应的特征信息；

21.一种计算设备，包括：存储器、处理器以及通信组件；

所述存储器，用于存储计算机程序；

所述通信组件，用于获取多个病人的历史入院信息；

所述处理器，用于执行所述计算机程序，以用于：确定针对至少同一疾病重复入院病人的历史入院信息以及针对至少同一疾病单次入院病人的历史入院信息；

22.一种存储有计算机程序的计算机可读存储介质，其特征在于，计算机程序被一个或多个处理器执行时，致使所述一个或多个处理器实现权利要求1-19任一项所述方法中的步骤。