CN115331796A

CN115331796A - 基于强化学习的病床资源配置优化方法、系统及终端

Info

Publication number: CN115331796A
Application number: CN202211263783.3A
Authority: CN
Inventors: 张北; 唐显恒; 李涛
Original assignee: Zhongke Houli Information Technology Chengdu Co ltd
Current assignee: Zhongke Houli Information Technology Chengdu Co ltd
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2022-11-11
Anticipated expiration: 2042-10-17
Also published as: CN115331796B

Abstract

本发明公开了基于强化学习的病床资源配置优化方法、系统及终端，涉及资源配置优化技术领域，其技术方案要点是：获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；结合病床配置数据和时间差异分布信息，模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；智能体根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。本发明采用机器强化学习(RL)的方法训练智能体，考虑不同科室疾病在时间分布上的差异情况，使得床资源配置优化策略更加符合实际情况，有效提高了病床资源配置优化的准确性与可靠性。

Description

基于强化学习的病床资源配置优化方法、系统及终端

技术领域

本发明涉及资源配置优化技术领域，更具体地说，它涉及基于强化学习的病床资源配置优化方法、系统及终端。

背景技术

医院病床数量决定了在院患者数量，闲置病床造成医疗资源浪费，因此病床优化配置是医院运营资源管理的重要需求。

目前，国内外对病床优化配置的方法多数基于预测，如ARMA模型、多项式回归拟合模型、基于排队论病床配置以及基于病床工作效率指标测算病床数区间。然而，这些预测方法变量相对单一，仅从宏观层面上给出病床配置方案，依然有资源不足或者浪费的现象。此外，病床的配置依赖于患者数量、住院天数、患者自身因素和疾病种类，不同科室的患者数量随着时间变化存在显著差异，而现有的病床优化配置技术忽略了不同科室疾病之间在时间分布上的差异，从而导致病床优化配置的准确度不高，容易使病床优化配置策略在短时间内出现频繁的大幅度调整。

因此，如何研究设计一种能够克服上述缺陷的基于强化学习的病床资源配置优化方法、系统及终端是我们目前急需解决的问题。

发明内容

为解决现有技术中的不足，本发明的目的是提供基于强化学习的病床资源配置优化方法、系统及终端，采用机器强化学习(RL)的方法模拟医疗环境训练智能体，并在构建状态空间和奖赏函数时，考虑不同科室疾病在时间分布上的差异情况，从而使得智能体依据策略函数寻找的病床资源配置优化策略更加符合实际情况，有效提高了病床资源配置优化的准确性与可靠性。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了基于强化学习的病床资源配置优化方法，包括以下步骤：

获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；

结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；

智能体根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。

进一步的，所述时间差异分布信息的获得过程具体为：

对在院患者数做滑动平均处理，得到标准配置数据；

动态设置两个相邻且均大于基础步长的第一步长和第二步长；

以第一步长与第二步长中的数据均值之差不小于标准差值为第一目标，对标准配置数据进行搜索分析，所有搜索确定的第一步长与第二步长所对应的时间段构成时间差异分布信息。

进一步的，以所有所述第一步长与第二步长中的数据均值之差波动性最大为第二目标确定唯一的时间差异分布信息。

进一步的，所述状态空间中的变量包括：患者科室类别、当前单一科室的在院患者数、当前单一科室的住院天数超长患者数、当前剩余未分配病床数、日期、是否节假日以及未入院患者数量。

进一步的，所述动作空间具体为：

若病床高于空置阈值或调整病床周转率时，则智能体不分配病床；

若病床不高于空置阈值，且病床周转率低于周转率阈值时，则智能体分配病床。

进一步的，所述以最大化累计奖赏为目标的计算公式具体为：

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值。

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值；

表示时刻t+k+1所属步长

的数据均值；

表示病床配置数据的数据均值。

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值；

表示时刻t+k+1所属步长

的数据均值；

表示病床配置数据的数据均值。

第二方面，提供了基于强化学习的病床资源配置优化系统，包括：

数据处理模块，用于获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；

模型构建模块，用于结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；

配置优化模块，用于根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。

第三方面，提供了一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中任意一项所述的基于强化学习的病床资源配置优化方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供的基于强化学习的病床资源配置优化方法，通过历史数据模拟患者入出院场景，采用机器强化学习(RL)的方法训练智能体，并在构建状态空间和奖赏函数时，考虑不同科室疾病在时间分布上的差异情况，从而使得智能体依据策略函数寻找的病床资源配置优化策略更加符合实际情况，有效提高了病床资源配置优化的准确性与可靠性；

2、本发明采用机器强化学习(RL)的方法训练模型时，不仅考虑了各个科室的剩余未分配病床数和未入院患者数量，还考虑了患者科室类别、当前单一科室的在院患者数、当前单一科室的住院天数超长患者数、日期、是否节假日等因素，克服了因样本数据不足而导致病床资源配置优化的结果误差较大和稳定性较差的问题；

3、本发明采用动态步长对数据进行滑动分析，并以相邻步长的数据均值之差的标准差最大为目标确定时间差异分布信息，即使得时间差异分布更加明显，又降低了个别异常值对整体时间差异的影响；

4、本发明在求解最大化累计奖赏时，考虑了具体时刻的数据差异影响，对不同时间段的奖励衰减值进行适应性调整，进一步提高了病床资源配置优化策略的准确性与可靠性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明实施例中的流程图；

图2是本发明实施例中的系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1：基于强化学习的病床资源配置优化方法，如图1所示，包括以下步骤：

S1：获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；

S2：结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；

S3：智能体根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。

时间差异分布信息的获得过程具体为：对在院患者数做滑动平均处理，得到标准配置数据；动态设置两个相邻且均大于基础步长的第一步长和第二步长；以第一步长与第二步长中的数据均值之差不小于标准差值为第一目标，对标准配置数据进行搜索分析，所有搜索确定的第一步长与第二步长所对应的时间段构成时间差异分布信息。

此外，以所有第一步长与第二步长中的数据均值之差波动性最大为第二目标确定唯一的时间差异分布信息。

状态空间中的变量包括：患者科室类别、当前单一科室的在院患者数、当前单一科室的住院天数超长患者数、当前剩余未分配病床数、日期、是否节假日以及未入院患者数量。

具体的，患者类别T（心内科：1；骨科：2；胃肠外科：3）、当前心内科在院患者数

、当前骨科在院患者数

、当前胃肠外科在院患者数

、当前心内科住院天数超长患者数

、当前骨科住院天数超长患者数

、当前胃肠外科住院天数超长患者数

、当前剩余未分配病床数

、日期

、是否节假日

、未入院患者数量

。

构建得到的状态空间

如下：

。

例如，

，表示当前心内科患者需要入院，心内科患者在院97例，骨科在院患者56例，胃肠外科在院患者83例，当前心内科住院天数超长患者3例，骨科住院天数超长患者5例，胃肠外科住院天数超长患者4例，当前剩余54张床位未分配，当前星期二，这个月预计未入院1105例。

动作空间具体为：若病床高于空置阈值或调整病床周转率时，则智能体不分配病床；若病床不高于空置阈值，且病床周转率低于周转率阈值时，则智能体分配病床。

具体的，动作空间的表达式如下：

其中，0表示无需分配病床；1表示分配病床。

智能体决策正确与否需要奖赏来评判，设置奖励需要符合常理。根据剩余病床数量、疑似住院天数超长病例数合理设置相应奖惩机制，基于T医院3个科室实际情况，设置奖赏函数如下：

。

作为一种可选的实施方式，以最大化累计奖赏为目标的计算公式具体为：

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值。

作为另一种可选的实施方式，以最大化累计奖赏为目标的计算公式具体为：

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值；

表示时刻t+k+1所属步长

的数据均值；

表示病床配置数据的数据均值。

作为其他可选的实施方式，以最大化累计奖赏为目标的计算公式具体为：

其中，

表示在时刻t所确定的累计奖赏；

表示第k次动作的奖励衰减值；

表示在时刻t+k+1的奖赏值；

表示时刻t+k+1所属步长

的数据均值；

表示病床配置数据的数据均值。

通过对T医院3个科室进行对比分析，发现经本发明所提供的基于强化学习的病床资源配置优化方法处理后，病床配置量平均降低19%，住院天数超长患者数降低76%，病床使用率提升15.25%。

实施例2：基于强化学习的病床资源配置优化系统，如图2所示，包括数据处理模块、模型构建模块和配置优化模块。

其中，数据处理模块，用于获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；模型构建模块，用于结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；配置优化模块，用于根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。

工作原理：本发明采用机器强化学习(RL)的方法训练智能体，并在构建状态空间和奖赏函数时，考虑不同科室疾病在时间分布上的差异情况，从而使得智能体依据策略函数寻找的病床资源配置优化策略更加符合实际情况，有效提高了病床资源配置优化的准确性与可靠性；此外，本发明不仅考虑了各个科室的剩余未分配病床数和未入院患者数量，还考虑了患者科室类别、当前单一科室的在院患者数、当前单一科室的住院天数超长患者数、日期、是否节假日等因素，克服了因样本数据不足而导致病床资源配置优化的结果误差较大和稳定性较差的问题；另外，本发明采用动态步长对数据进行滑动分析，并以相邻步长的数据均值之差的标准差最大为目标确定时间差异分布信息，即使得时间差异分布更加明显，又降低了个别异常值对整体时间差异的影响；最后，本发明在求解最大化累计奖赏时，考虑了具体时刻的数据差异影响，对不同时间段的奖励衰减值进行适应性调整，进一步提高了病床资源配置优化策略的准确性与可靠性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。