CN116994693B

CN116994693B - 一种基于稳定性控制的医保统筹智能体的建模方法与系统

Info

Publication number: CN116994693B
Application number: CN202311259740.2A
Authority: CN
Inventors: 李劲松; 吴承凯; 周海涛; 周天舒; 田雨
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-01
Anticipated expiration: 2043-09-27
Also published as: CN116994693A

Abstract

本发明公开了一种基于稳定性控制的医保统筹智能体的建模方法与系统，周期性的对获取的包括DIP/DRG分组点数和医院等级系数的患者真实数据进行汇总；结合医院和患者价值函数建立多周期时序性医保智能体强化学习模型并进行周期训练：在单个结算周期内将每次交互样本进行判断，分配到稳定经验池和波动经验池；在双经验池中进行随机采样，并更新损失函数直至奖励值收敛，将每周期输出结果作为下周期的初始状态；通过训练好的模型，得到下周期的DIP/DRG分组点数和医院等级系数。本发明结合了医保周期结算的特点，在智能体的训练上采用了多周期训练方法，同时考虑相邻周期智能体输出在时序上的稳定性，提高了收敛速度，减少了数据波动。

Description

一种基于稳定性控制的医保统筹智能体的建模方法与系统

技术领域

本发明涉及医疗数据分析，尤其涉及一种基于稳定性控制的医保统筹智能体的建模方法与系统。

背景技术

现有的技术主要在单个医院层面或者患者层面，例如在对单个患者的诊疗路径进行异常检测；对单个患者医保报销异常识别；还有通过构建知识图谱的方式，规范诊疗手段，达到医保控费的手段；另外就是在医院内部建立控费系统，对病人进行的各类项目进行调控。这些都是从患者或者单个医院的角度直接或者间接的进行医保调控，并没有考虑区域内所有医院的情况，比如综合医院和专科医院的差异性，以及区域患者的分布情况进行宏观统筹调控。另外一点就是没有结合按分值付费（Diagnosis-InterventionPacket，DIP）/疾病诊断相关分组（Diagnosis Related Groups, DRG）进行医保控费。

现有技术更多的都是面向医院（院方）、单个患者诊疗手段的异常检测，都是从两个角度出发：第一，从医院角度出发，在单个医院建立医保监管系统（CN207116007U，CN110866835A），对医院诊疗行为进行检测（CN112750046A，CN111696650A）；第二，从患者角度出发，主要针对骗保、欺诈行为进行识别（CN113869387A，CN109934723A），没有从区域化统筹的角度对医保基金进行DRG或者DIP点数以及医院分配比例统筹调控。

现有技术大多是汇总区域内患者数据，通过一些固定的计算方式给出静态的DRG或者DIP点数以及相应医院的系数（CN112926879A），没有考虑医保基金这个周期性结算的特点，本发明考虑上个周期由于一些客观因素导致的波动，统筹整个区域医保资源给出更加合理的DIP/DRG分组点数以及各个医院分配比例。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于稳定性控制的医保统筹智能体的建模方法与系统，针对医保基金周期性结算的特点，结合DIP/DRG，改造经典的深度强化学习算法使其适用于医保基金分配这个实际问题中，即建立多周期时序性强化学习模型。

本发明解决了模型输出的同个DIP/DRG分组点数在时序上波动较大的问题，通过对智能体与环境的交互的经验池的控制实现对智能体模型的控制，保证在相邻周期内输出结果不会波动较大，更加符合实际应用场景。

本发明的目的是通过以下技术方案来实现的：一种基于稳定性控制的医保统筹智能体的建模方法，该方法包括以下步骤：

S1、接收医保机构分组后的患者真实数据，其中包括DIP/DRG分组点数和医院等级系数；

S2、周期性的对获取的患者真实数据进行汇总；

S3、结合医院价值函数和患者价值函数建立多周期时序性医保智能体强化学习模型；

S4、对多周期时序性医保智能体强化学习模型进行周期训练：单个结算周期内，首先进行网络初始化，并将每次交互样本进行判断，分配到稳定经验池和波动经验池；在双经验池中进行随机采样，并更新损失函数直至奖励值收敛，每周期的输出状态作为下周期的初始状态；

S5、将新的患者真实数据输入到训练好的多周期时序性医保智能体强化学习模型，得到下周期的DIP/DRG分组点数和医院等级系数，进行医保分配。

进一步地，所述患者真实数据还包括患者的主要诊断、次要诊断和对应费用。

进一步地，所述S2具体为：按照患者对应的DIP/DRG分组点数进行分组，在医院的维度进行周期性汇总。

进一步地，所述多周期时序性医保智能体强化学习模型具体为：

智能体状态空间由每个DIP/DRG分组点数和多个医院对应的医院等级系数构成，智能体动作空间是由针对每个点数以及医院等级系数上下调整的动作构成；奖励函数根据患者价值函数、医院价值函数和医院超值结余金额，按照患方和院方医保资源分配合理性最大化为目标设置；

所述患者价值函数通过诊疗费用和报销比例得到；所述医院价值函数通过获取的医保资源、患者报销费用和服务质量评价得到。

进一步地，所述S4中对多周期时序性医保智能体强化学习模型进行周期训练具体为使用深度Q值网络DQN（deep Q-network）算法进行训练或者使用深度确定性的策略梯度DDPG (Deep Deterministic Policy Gradient)算法进行训练。

进一步地，所述S4中将每次交互样本进行判断具体为：判断此次交互得到的奖励函数是否在稳定经验池的累计均值的上下一个方差内，若是则放入稳定经验池，否则放入波动经验池。

进一步地，对多周期时序性医保智能体强化学习模型进行周期训练过程中，在缓存中保留两个结算周期的患者数据。

进一步地，对多周期时序性医保智能体强化学习模型进行周期训练过程中，单个结算周期结算完毕后还包括测试阶段，具体为对患者数据进行采样，将采样后的数据作为均值生成测试患者数据，使用生成的测试患者数据对模型进行测试。

另一方面，本发明说明书还提供了一种基于稳定性控制的医保统筹智能体的建模系统，该系统包括：数据接口模块、周期性汇总以及控制模块、多周期时序性强化学习模型训练模块、稳定性控制模块和输出接口模块；

所述数据接口模块用于通过接口的方式获取医保机构分组后的患者真实数据；

所述周期数据汇总及控制模块用于周期性的对数据接口模块获取的患者真实数据进行汇总；

所述多周期时序性强化学习模型训练模块用于对多周期时序性医保智能体强化学习模型进行周期训练；

所述稳定性控制模块用于通过对智能体和环境交互产生的经验池的累计奖励值的均值和方差，将经验分配到稳定经验池和波动经验池；

所述输出接口模块用于将智能体输出的结果发送给医保机构，用于下一个周期医保基金结算。

进一步地，当进入一个结算周期时，周期数据汇总及控制模块给当前周期数据分配一块缓存空间，用于存储当前结算周期的患者数据；当进入下个结算周期时，周期数据汇总及控制模块重新分配一块缓存空间；当多周期时序性强化学习模型训练模块获取到上个周期的全部患者数据时，此时将上上个周期缓存空间释放，以此循环。

本发明的有益效果：

本发明在考虑区域内多家医院情况并结合DIP/DRG进行统筹调控，解决了现有技术只从对单个医院层面或者患者层面的不足。另外本发明结合了医保周期结算的特点，在智能体的训练上采用了多周期训练方法，同时考虑相邻周期智能体输出的DIP/DRG分组点数以及医院等级系数在时序上的稳定性，对智能体进行了稳定性控制，这样即提高了智能体训练时的收敛速度同时也保证了智能体输出的DIP/DRG分组点数以及医院等级系数在相邻周期不会有特别大的波动。

附图说明

图1为本发明实施例提供的一种基于稳定性控制的医保统筹智能体的建模方法与系统；

图2 为本发明实施例提供了DQN算法智能体训练流程图；

图3 为本发明实施例提供了DDPG算法智能体训练流程图；

图4 为本发明实施例提供的单经验池和双经验池的奖励值对比图；

图5为本发明实施例提供的单经验池和双经验池的损失函数对比图；

图6为本发明实施例提供的一种基于稳定性控制的医保统筹智能体的建模方法与系统。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了便于对本发明实施例的理解，以下结合附图对本发明具体实施方式作进一步详细说明。

实施例1：如图1所示，本发明实施例提供的一种基于稳定性控制的医保统筹智能体的建模方法，该方法包括以下步骤：

S1、接收医保机构分组后的患者真实数据，其中包括患者的主要诊断、次要诊断、对应费用、DIP/DRG分组点数和医院等级系数。

S2、按照患者对应的DIP/DRG分组点数进行分组，在医院的维度进行周期性汇总。

S3、结合医院价值函数和患者价值函数建立多周期时序性医保智能体强化学习模型；具体来说：智能体状态空间由每个DIP/DRG分组点数和多个医院对应的医院等级系数构成，即状态空间={DIP/DRG分组点数，各个医院等级系数}，数学表达式为：，其中/>是/>时刻的状态，且：，其中/>代表了/>时刻的第/>个患者的DIP/DRG分组点数，/>代表了/>时刻的第/>个医院的医院等级系数，/>是患者总数，/>是医院总数。智能体动作空间是由针对每个点数以及医院等级系数上下调整的动作构成，/>时刻/>，其中/>，代表/>上下调整的动作包括/>是/>调整的幅度；/>代表/>上下调整的动作包括/>代表/>调整的幅度。奖励函数/>：奖励函数是围绕着患方和院方医保资源分配合理性最大化为目标设置的。假设当前状态为：

选取动作为：

则：

其中代表了患者价值函数，/>代表第/>个患者，/>代表了第/>个患者属于DIP/DRG中/>分组的点数值，/>是/>对应的调整动作，/>代表了第/>个患者在第/>个医院的医院等级系数，/>代表了第/>个医院超支总金额，/>代表了第/>个医院超支结余比例。且：

代表了医院价值函数：

其中为计算得到的报销比例，/>代表了医保机构分给第/>个医院第/>个患者的金额。/>代表了第/>个患者诊疗所需的费用，/>是常数，含义为诊疗服务质量，/>是第j个医院的患者人数，转移概率矩阵的元素全为1。

S4、如图2所示，使用DQN算法对多周期时序性医保智能体强化学习模型进行周期训练：单个结算周期内，首先初始化评估网络和目标网络，并将每次交互样本进行判断，分配到稳定经验池和波动经验池；在双经验池中进行随机采样，并更新损失函数直至奖励值收敛，将对应状态作为下周期的初始状态；本实施例评估网络采用Q值网络，目标网络为/>；该步骤具体流程如下：

步骤4.1. 初始化智能体状态，训练所需参数折扣因子/>，学习率/>，幕数/>，贪婪因子/>，目标网络/>的更新周期/>，每一幕最大步数/>。

步骤4.2. 初始化评估网络的权重参数/>，目标网络/>的权重参数/>设置为=/>。

步骤4.3. 初始化双经验池，容量都为/>。

步骤4.4. 开始训练，训练流程如图2，智能体和环境进行交互，以概率小于随机选择一个随机动作/>，否则以贪婪的准则选择动作/>。执行动作/>，获得奖励函数值/>，进入到下一个新的状态/>，本次交互样本/>进行稳定性控制，判断/>是否在/>范围内，稳定经验池/>的累计均值为/>，方差为/>。如果在此范围内则放入稳定经验池内，否则放入波动经验池内。然后在双经验池/>中按照一定比例随机采样一个子批次的交互样本，其中如果稳定性经验池比例较大时，/>网络更具稳定性，但可能相对可能错过更好的经验值。计算评估网络/>的目标值，计算损失函数/>，用梯度下降法对关于/>的损失函数进行参数更新。每隔/>步更新目标网络/>，最后达到智能体奖励值收敛到一个稳定值，对应的状态即当前结算周期输出值，也作为下个结算周期的初始状态。

步骤4.5. 对训练好的模型进行测试，测试时，测试数据来源于对周期数据汇总数据进行采样，然后根据采样后的数据作为均值产生测试的测试患者数据。然后使用生成患者数据对模型进行测试。

对于下一个结算周期：使用上个周期DIP/DRG分组点数以及医院等级系数作为初始状态，然后统筹整个区域当前周期患者就诊情况，给出下个周期DIP/DRG分组点数以及该区域内各个医院对应的医院等级系数，以此周期性循环。对多周期时序性医保智能体强化学习模型进行周期训练过程中，在缓存中保留两个结算周期的患者数据。

S5、将新的患者真实数据输入到训练好的多周期时序性医保智能体强化学习模型，得到下周期的DIP/DRG分组点数和医院等级系数。

实施例2：

本发明在构建智能体的交互环境时采用了离散的动作空间，即对DIP/DRG分组点数和医院等级系数进行了离散采样。考虑到智能体输出的结果DIP/DRG分组点数是连续变量，在构建环境时采用连续状态，即采用DDPG这个深度强化学习算法去训练智能体；如图3所示，使用DDPG算法训练模型的实施例具体如下：

S3、结合医院价值函数和患者价值函数建立多周期时序性医保智能体强化学习模型；具体来说：状态空间由每个DIP/DRG分组点数和多个医院对应的系数构成，即 ={DIP/DRG分组点数，各个医院等级系数}，数学表达式为：，其中是/>时刻的状态，且：/>，其中/>代表了/>时刻的第/>个DIP/DRG分组点数，/>代表了/>时刻的第/>个医院的系数，和DQN差别是DDPG的状态空间是连续的，DQN状态空间是离散的。智能体动作空间是由针对每个点数以及医院等级系数上下调整的动作，/>时刻，其中/>，代表/>上下调整的动作为/>是/>调整的幅度；/>代表/>上下调整的动作为/>代表/>调整的幅度。奖励函数/>：奖励函数是围绕着患方和院方利益最大化为目标设置的。假设当前状态为：

选取动作为：

则：

代表了医院价值函数：

S4、对多周期时序性医保智能体强化学习模型使用DDPG深度强化学习算法对智能体进行周期训练：单个结算周期内，首先初始化网络，并将每次交互样本进行判断，分配到稳定经验池和波动经验池；在双经验池中进行随机采样，并更新损失函数直至奖励值收敛，将对应状态作为下周期的初始状态，具体流程如下：

S4.1. 初始化智能体状态，训练所需参数折扣因子/>，学习率/>，幕数/>，贪婪因子/>。

S4.2. 初始化在线（online）策略网络参数为，目标（target）策略网络参数；初始化在线（online）/>网络参数为/>，目标（target）/>网络参数/>。

S4.3. 初始化双经验池，容量都为/>。

S4.4. 开始训练，训练流程如图3，智能体和环境进行交互，online策略网络选择一个动作，智能体执行/>得到/>，即可以得到本次交互样本/>，进行稳定性控制，判断/>与是否在/>范围内。如果在此范围内则放入稳定经验池内，否则放入波动经验池内。然后在双经验池/>中按照一定比例随机采样一个批次的交互样本，计算online/>网络的/>值函数，计算误差作为损失函数，使用梯度下降算法online/>网络的参数/>，然后使用online/>网络计算出在线策略网络的策略梯度，使用梯度上升算法更新online策略网络参数/>；最后更新目标策略网络参数为/>，以及目标/>网络参数为/>，其中/>为更新前的目标策略网络参数，/>为更新前的目标网络参数，其中/>是一个很小的一个常数，一般取值为0.001；最后达到智能体奖励值收敛到一个稳定值；对应的状态即当前结算周期输出值，也作为下个结算周期的初始状态。

S4.5. 对训练好的模型进行测试，测试时，测试数据来源于对周期数据汇总数据进行采样，然后根据采样后的数据作为均值产生测试的测试患者数据。然后使用生成患者数据对模型进行测试。

下一个结算周期：

下个周期使用上个周期DIP/DRG分组点数以及医院等级系数作为初始状态，然后统筹整个区域当前周期患者就诊情况，给出下个周期DIP/DRG分组的点数以及该区域内各个医院对应的医院等级系数，此周期性循环。

通过图4可以看出：使用双经验池比单经验池随着奖励函数趋于稳定所需的训练幕数会更少，换言之，智能体训练达到相同效果所需的步数或者时间会更少；另外从图5以从损失函数这个指标可以看出双经验池比单经验池损失函数相对更小，而且更加稳定，说明DQN和DDPG网络参数随着训练幕数变化相对会更小。

另一方面，本发明实施例还提供了一种基于稳定性控制的多周期深度强化学习建模系统，如图6所示，本发明实施例使用周期性深度强化学习对医保控费这个应用场景进行建模，符合医保控费周期性的特点，另外在保证时序稳定性，对经典的强化学习算法进行改进，增加模型稳定控制模块，保证相邻周期的稳定性，更加符合实际应用。其中包含数据接口模块、周期数据汇总及控制模块、多周期时序性强化学习模型训练模块、稳定性控制模块、输出接口模块五部分组成。其中数据接口模块用于接收医保机构分组后的患者数据；由于医保基金结算方式是周期性结算，所以需要对接收的患者数据进行周期性汇总，也就是周期数据汇总及控制模块的完成的功能；汇总的患者数据主要用来计算智能体在不同状态的价值函数。多周期时序性强化学习模型训练模块主要是使用多周期深度强化学习算法对智能体进行训练。稳定性控制模块主要是通过对智能体和环境交互产生的经验池的累计奖励值的均值和方差，将经验分为稳定经验池和波动经验池，从而实现对智能体稳定性的控制。输出接口模块主要是将智能体输出的结果发送给医保机构，用于下一个周期医保基金结算。具体来说：

数据接口模块：通过接口的方式获取医保机构分组后的患者真实数据。患者的数据包括患者的主要诊断、次要诊断、对应费用、就诊医院级别以及对应DIP/DRG分组点数。这些数据是为周期数据汇总及控制模块计算做准备。

周期数据汇总及控制模块：周期性的对数据接口获取的患者真实数据按照分组以及医院进行周期性汇总，用于智能体的奖励函数的计算。当进入一个结算周期时，周期汇总模块会给当前周期数据分配一块缓存空间，用于存储当前结算周期的患者数据。当进入下个结算周期时，周期汇总模块会重新分配一块缓存空间。然后当多周期时序性强化学习模型训练模块取到上个周期的全部数据时，此时会将上上个周期缓存空间释放，以此循环。即缓存中保留两个结算周期的患者数据。对训练好的模型进行测试时，测试数据来源于周期数据汇总及控制模块数据进行采样。

稳定性控制模块：由于智能体在训练过程中和环境进行交互会产生四元组经验值，通过进双经验池的方式实现对智能体稳定性控制，具体来说：控制模块用于控制经验值放入波动经验池还是稳定经验池，如果当前交互奖励函数/>在稳定经验池累计均值的上下一个方差内，表示相对稳定，此次交互的经验池放入稳定经验池，当/>不满足这个条件，说明此次交互波动较大，放入波动经验池。然后再对两个经验池内的经验值按照一定比例进行采样去更新网络。

多周期时序性强化学习模型训练模块：能够使用DQN或DDPG算法对模型进行训练。

本技术方案在考虑区域内多家医院并结合DIP/DRG进行统筹调控的同时，考虑相邻周期智能体输出的DIP/DRG分组点数以及医院等级系数的在时序上稳定性，对智能体进行了稳定性控制，这样即提高了智能体训练时的收敛速度同时也保证了智能体输出的DIP/DRG分组点数以及医院等级系数在相邻周期不会有特别大的波动。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种基于稳定性控制的医保统筹智能体的建模方法，其特征在于，该方法包括以下步骤：

S2、周期性的对获取的患者真实数据进行汇总；

S3、结合医院价值函数和患者价值函数建立多周期时序性医保智能体强化学习模型；模型具体为：智能体状态空间由每个DIP/DRG分组点数和多个医院对应的医院等级系数构成，智能体动作空间是由针对每个点数以及医院等级系数上下调整的动作构成；奖励函数根据患者价值函数、医院价值函数和医院超值结余金额，按照患方和院方医保资源分配合理性最大化为目标设置；

所述患者价值函数通过诊疗费用和报销比例得到；所述医院价值函数通过获取的医保资源、患者报销费用和服务质量评价得到；

S4、对多周期时序性医保智能体强化学习模型进行周期训练：使用深度Q值网络算法进行训练或者使用深度确定性的策略梯度算法进行训练，单个结算周期内，首先进行网络初始化，判断此次交互得到的奖励函数是否在稳定经验池的累计均值的上下一个方差内，若是则放入稳定经验池，否则放入波动经验池；在双经验池中进行随机采样，并更新损失函数直至奖励值收敛，每周期的输出状态作为下周期的初始状态；

2.根据权利要求1所述的一种基于稳定性控制的医保统筹智能体的建模方法，其特征在于，所述患者真实数据还包括患者的主要诊断、次要诊断和对应费用。

3.根据权利要求1所述的一种基于稳定性控制的医保统筹智能体的建模方法，其特征在于，所述S2具体为：按照患者对应的DIP/DRG分组点数进行分组，在医院的维度进行周期性汇总。

4.根据权利要求1所述的一种基于稳定性控制的医保统筹智能体的建模方法，其特征在于，对多周期时序性医保智能体强化学习模型进行周期训练过程中，在缓存中保留两个结算周期的患者数据。

5.根据权利要求1所述的一种基于稳定性控制的医保统筹智能体的建模方法，其特征在于，对多周期时序性医保智能体强化学习模型进行周期训练过程中，单个结算周期结算完毕后还包括测试阶段，具体为对患者数据进行采样，将采样后的数据作为均值生成测试患者数据，使用生成的测试患者数据对模型进行测试。

6.一种用于实现权利要求1-5任一项所述方法的基于稳定性控制的医保统筹智能体的建模系统，其特征在于，该系统包括：数据接口模块、周期数据汇总及控制模块、多周期时序性强化学习模型训练模块、稳定性控制模块和输出接口模块；

7.根据权利要求6所述的基于稳定性控制的医保统筹智能体的建模系统，其特征在于，当进入一个结算周期时，周期数据汇总及控制模块给当前周期数据分配一块缓存空间，用于存储当前结算周期的患者数据；当进入下个结算周期时，周期数据汇总及控制模块重新分配一块缓存空间；当多周期时序性强化学习模型训练模块获取到上个周期的全部患者数据时，此时将上上个周期缓存空间释放，以此循环。