CN115831340B

CN115831340B - 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Info

Publication number: CN115831340B
Application number: CN202310151557.4A
Authority: CN
Inventors: 曹林霄; 周浩泉; 龚伟; 朱怡飞; 汤敏; 李群超
Original assignee: Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Current assignee: Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-02
Anticipated expiration: 2043-02-22
Also published as: CN115831340A

Abstract

本发明的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质，其方法包括对获取的医疗数据根据医疗决策场景的需求进行分析重构，将数据脱敏处理，并进行归一化处理，建立相关数据集；建立逆强化学习模型；根据预处理后的数据集，将生理状态以及医疗干预手段建立MDP模型，根据变分贝叶斯理论，确定模型优化目标，从专家的过去诊断记录中获取解释该策略的奖惩函数；模型训练并优化，利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。本方法采用逆强化学习方法，可以考虑长期以来的动作对患者带来的影响，而不是追求单步的反馈，这和医疗场景中，以患者最终治愈为目标相契合，实现贯序决策。

Description

基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质

技术领域

本发明涉及噪声标签处理技术领域，具体涉及一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及存储介质。

背景技术

深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，是智能体(Agent)与环境之间一种学习和反馈。可以通过深度强化学习来实现经验的快速积累，并针对实时情况做出动态规划。现有工作使用off-policy 强化学习算法FQI 和NFQI 来根据提供的病人历史轨迹选择适当的干预措施。首先，这项工作是集中式的工作没有办法在保证患者隐私的情况下实现分布式场景下的部署；另外该工作使用的是传统的前向强化学习方法，需要设定正确合理的奖励函数，但事实上，医疗环境的奖励函数的设计往往是十分困难的，需要专业知识的干预，患者对于医疗干预的反馈也无法直观的转换为数字形式；最后，该工作最后的实验表现也并不够优异，模型对于患者状态的理解能力还是有限，无法很好拟合策略函数。

而现有工作尝试利用贝叶斯逆强化学习方法，通过推断特定潜在奖励函数内部的权重来平衡评价标准的各个方面。首先，虽然该方法利用了逆强化学习的方法，但依旧是依赖于现有的奖励函数设计工作，该工作在该奖励函数的基础上，利用逆强化学习的办法把握不同的奖惩之间的权重关系，因此该方法依旧需要专业知识干预，同样面临着奖励函数设计的挑战；另外，该方法对于镇静剂的设计简单的设定为芬太尼，并不完全贴合实际的医疗场景，且该方法的镇静剂预测表现同样并不出色。

发明内容

本发明提出的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法，可至少解决上述技术问题之一。

为实现上述目的，本发明采用了以下技术方案：

一种基于逆强化学习的ICU呼吸机与镇静剂管理方法，包括以下步骤，

步骤1、数据建模；对获取的医疗数据根据医疗决策场景的需求进行分析重构，将数据脱敏处理，并进行归一化处理，建立相关数据集；

步骤2、建立逆强化学习模型；根据预处理后的数据集，将生理状态以及医疗干预手段建立MDP模型，根据变分贝叶斯理论，确定模型优化目标，从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数；；

步骤3、模型训练：根据从过往轨迹数据中推测奖惩函数正向推测治疗策略，并不断优化该策略和示例策略间的差距；

步骤4、模型测试；

最后，利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。

进一步地，所述步骤1的数据建模，具体包括：

步骤1.1、将患者的生理指标看作为状态，在状态空间设计过程中，将一些能观察到的生理数据值纳入到评估病人状态的特征中；状态集包含患者以每小时为单位的多维生理状态数据；

步骤1.2、对患者所反馈的状态所采取的医疗干预手段，当给定患者t 时刻的状态后，训练得到的智能体面对这种状态所选择的医疗动作；对于动作空间来说，设动作

表示在时间t采用的治疗动作

，其中

表示呼吸机的状态，而

表示注射的镇静剂剂量，因此动作空间表示为：

步骤1.3、数据集构建：对于每个时刻t，病人状态

和医生采取的行动

构成时间点t的示例轨迹；所有单个病人的住院轨迹构成了数据集

，其中

表示第i个病人的住院时长，m为患者数量。

进一步地，所述步骤2、建立逆强化学习模型，具体包括，

步骤2.1、模型优化目标；

步骤2.1.1、将奖励视作动作的潜在表征，定义一个以

参数化的代理分布

，以实现式（12）中的优化目标；

(12)

式（12）中

为后验分布，

为两个分布间的Kullback-Leibler距离；

步骤2.1.2、利用变分推断来获得后验分布，引入ELBO根据式（13）最大化

，其等价于式（12）；

(13)

步骤2.1.3、先验分布和变分分布的形式是不可知的，假设其为高斯过程先验，均值为0，方差为1，则由

给出的变分后验分布使得：

(14)

其中

和

为以患者状态作为模型，以

为参数的全连接网络所给出的模型的输出；

步骤2.1.4、根据Boltzmann合理性假设，将式（13）表示为：

(15)

由于式（15）中对

的评估还比较困难，所以采用以下步骤，

步骤2.1.5、使用第二个策略神经网络

来反映预期奖励的策略；根据一个受约束的优化目标，如式（16）所示：

(16)

式（16）中

反映了约束强度的大小；

步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度，得到适用目标函数；

(17)

式（17）中KL散度可以在有限集上近似，并引入

控制约束强度。这样参数

和

就有了相同的优化目标;

步骤2.3奖励正则化；

步骤2.3.1、假设式（16）中的约束满足

，则对于式（14）所给定的先验分布，KL散度在隐含奖励上产生了一个稀疏调节器；

（18）

步骤2.3.2、KL散度根据式（18）得到：

(19)

通过学习这样的奖励并给定式（17）的最后一项，直接连接策略方面的单步奖励，确保了时间上的一致性。

进一步地，所述步骤3、模型训练，具体包括，

步骤3.1、数据预处理：从数据集中筛选出通气时间超过24小时的患者，滤除了最终没有成功出院的患者，对于测量间隔大于1h的有创性生理指标，在两个测量时刻之间进行插值处理；

步骤3.2、训练策略网络：

步骤3.2.1、构建一个三层MLP网络结构，含有64个神经元，用来逼近奖励代理分布函数

；

步骤3.2.2、构建一个三层MLP网络结构，含有64个神经元，用来逼近Q策略函数

；

步骤3.2.3、随机初始化模型参数

和

；

步骤3.2.4、随机选取一定大小的患者临床数据；

步骤3.2.5、根据参数

计算当前状态的Q值和当前状态的下一时刻状态的Q值；

步骤3.2.6、计算TD error，即

；

步骤3.2.7、根据参数

计算当前状态的奖励函数参数

和

；

步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然，作为损失函数一项；

步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度，作为损失函数一项；

步骤3.2.10、计算动作的对数似然，作为损失函数一项；

步骤3.2.11、利用Adam优化器完成模型参数更新；

步骤3.2.12、训练完成的模型参数

为策略网络的模型参数。

进一步地，所述步骤4、模型测试，具体包括，

输入患者当前时刻相对应的生理指标，以

为参数的三层MLP策略网络观察模型输出和医生所采取的动作是否一致，得到模型决策的准确率。

另一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述方法的步骤。

由上述技术方案可知，本发明的基于逆强化学习的ICU呼吸机与镇静剂管理方法，通过过去已有的非最佳历史轨迹中学习到更优的决策策略，可以根据已有的患者临床生理数据离线学习策略模型，同时避免在医疗环境下奖励函数难以定义的问题，给出ICU中呼吸机和镇静剂的干预意见。

具体的说，本发明的优点如下：

本发明应用于智慧医疗领域的方法，利用ICU中的各类医疗设备所采集到的临床数据，实现临床辅助决策；

本方法采用逆强化学习方法，可以考虑长期以来的动作对患者带来的影响，而不是追求单步的反馈，这和医疗场景中，以患者最终治愈为目标相契合，实现贯序决策。

本方法通过从现有的历史轨迹数据中学习到专家策略，而不需要传统强化学习设计奖励函数，根据变分贝叶斯推断，从专家示例中获得最佳策略；

逆强化学习方法使得本发明可以充分利用各级医疗机构的临床数据资源，同时该方法的易实施性，使其更容易地应用于复杂多变的场景，缓解医疗资源分配不均的影响，提升医疗资源匮乏的医院的治疗水平。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明实例的患者生理状态变化示例图；

图3是本发明实施例的AVRIL训练过程示意图；

图4是本发明实施例的AVRIL框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

强化学习（Reinforcement Learning, RL）已经成为解决复杂的贯序决策问题的范式。它是一种目标导向的方法，强调定义的agent通过与环境的互动来学习，以实现一个特定的目标，而不需要可模仿的监督信号或对周围环境的完整建模。目前，强化学习的应用已经在各种环境中得到了探索。但实际上，在医疗场景中直接获得与动作相关的反馈通常是具有挑战性的。逆强化学习（Inverse ReinforcementLearning, IRL）是一种从给定的政策或专家示例中反向推导出马尔可夫决策过程（Markov Decision Process，MDP）的奖励函数的方法，允许agent通过专家的轨迹示范学习如何对复杂问题进行决策，而这种形式的方法会更贴合于医疗场景的应用。在MFed中，应用逆强化学习方法来主导边缘服务器上的模型更新。一般来说RL解决临床决策问题需要将整个治疗过程建模为一个MDP模型，由元组（S, A, P, R）组成。在的任务场景中，它可以被认为是MDP\PR，这可以解释为由于缺乏对P的了解，即无法直接获得潜在的奖励或状态转移函数，不能模拟环境来采样。

本实施例所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法，即一种基于逆强化学习的ICU呼吸机与镇静剂的决策方法，通过过去已有的非最佳历史轨迹中学习到更优的决策策略，可以根据已有的患者临床生理数据离线学习策略模型，同时避免在医疗环境下奖励函数难以定义的问题，给出ICU中呼吸机和镇静剂的干预意见，其步骤如下：

步骤1、数据建模。

对ICU中患者的治疗过程进行马尔可夫决策过程建模。在建模时，所有的患者都被看作是环境（Environment），而对患者所采取的医疗干预手段看作是智能体（Agent）对患者所做出的动作（Action）。

步骤1.1、状态（State）：将患者的生理指标看作为状态，即心率，呼吸速率等。在状态空间设计过程中，将一些能观察到的生理数据值纳入到评估病人状态的特征中。模型可以依靠这些与病人是否可以拔管以及镇静药物反应有关的生理特征来给出适当的临床意见。本方法所设定t 时刻的状态是一个 37 维的特征向量，包含病人的基本信息，包括病人的年龄、体重等。同时还涉及医疗终端设备所测量的一些生理值，例如心率，血糖，不同镇静剂的当前剂量、通气时间和入院期间插管的次数等。在时间维度上，将一天划分为24个时段，每个时段对应一个小时。因此状态集包含患者以每小时为单位的多维生理状态数据。

步骤1.2、动作（Action）：对患者所反馈的状态所采取的医疗干预手段，例如拔管和注入镇静剂等。当给定患者t 时刻的状态后，训练得到的智能体面对这种状态所选择的医疗动作。对于动作空间来说，本方法为呼吸机的开启或关闭和镇静水平分别设置了对应的动作。具体来说，本方法将六种常用的镇静剂，例如丙泊酚，芬太尼等，近似映射到一个剂量刻度上，并将镇静剂的注射剂量离散为四种不同的镇静水平。具体来说，动作

表示在时间t采用的治疗动作

，其中

表示呼吸机的状态，而

表示注射的镇静剂剂量，因此动作空间可以表示为：

步骤1.3、数据集构建：对于每个时刻t，病人状态

和医生采取的行动

构成时间点t的示例轨迹。所有单个病人的住院轨迹构成了数据集

，其中

表示第i个病人的住院时长，m为患者数量。

步骤2、建立逆强化学习模型

步骤2.1、模型优化目标

步骤2.1.1、将奖励视作动作的潜在表征，定义一个以

参数化的奖励函数R代理分布

，以实现式（12）中的优化目标。

（12）

式（12）中

为后验分布，

为两个分布间的Kullback-Leibler (KL)距离。

，其等价于式（12）。

（13）

给出的变分后验分布使得：

（14）

其中

和

为以患者状态作为模型，以

为参数的全连接网络所给出的模型的输出。

步骤2.1.4、根据Boltzmann合理性假设，将式（13）表示为：

（15）

由于式（15）中对

的评估还是比较困难，所以采用以下步骤，

步骤2.1.5、使用第二个策略神经网络

来反映预期奖励的策略。但简单的优化

和

以最大化ELBO是不可取的，因为会忽略学习策略和奖励分布密切相关的事实。因此得出了一个受约束的优化目标，如式（16）所示：

（16）

式（16）中

反映了约束强度的大小。

步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度，得到适用目标函数。

（17）

式（17）中KL散度可以在有限集上近似，并引入

控制约束强度。这样参数

和

就有了相同的优化目标。

步骤2.3奖励正则化。

步骤2.3.1、假设式（16）中的约束满足

，则对于式（14）所给定的先验分布，KL散度在隐含奖励上产生了一个稀疏调节器。

（18）

步骤2.3.2、KL散度可以根据式（18）得到：

（19）

因此，通过学习这样的奖励并给定式（17）的最后一项，它直接连接策略方面的单步奖励，这迫使策略（而不是奖励）考虑系统的动态变化，确保了时间上的一致性。

步骤3、模型训练

步骤3.1、数据预处理：从数据集中筛选出通气时间超过24小时的患者，这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时，还滤除了最终没有成功出院的患者，以排除那些和通气时间和镇静剂量关联不大的死亡患者即更好的呼吸机和镇静剂策略也很难起到积极效果。对于测量间隔大于1h的有创性生理指标，在两个测量时刻之间进行插值处理。

步骤3.2、训练策略网络：

。

。

步骤3.2.3、随机初始化模型参数

和

。

步骤3.2.4、随机选取一定大小的患者临床数据。

步骤3.2.5、根据参数

计算当前状态的Q值和当前状态的下一时刻状态的Q值

步骤3.2.6、计算TD error，即

。

步骤3.2.7、根据参数

计算当前状态的奖励函数参数

和

。

步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然，作为损失函数一项。

步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度，作为损失函数一项。

步骤3.2.10、计算动作的对数似然，作为损失函数一项。

步骤3.2.11、利用Adam优化器完成模型参数更新。

步骤3.2.12、训练完成的模型参数

为策略网络的模型参数。

步骤4、模型测试

输入患者当前时刻相对应的生理指标，以

以下举例说明

数据集：

MIMIC-III数据库包含2001年至2012年11年间近6万份ICU住院病人记录。MIMIC-III数据库主要有两类基础数据：一类是从EHR中提取的临床数据，包括患者人口学特征信息、诊断信息、实验室检查信息、医学影像信息等；第二类数据是床旁监护设备采集的时间序列数据和相关生命体征参数及事件记录。

数据预处理

为了满足任务需求，首先从数据库中筛选出通气时间超过24小时的患者，这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时，还需要滤除了最终没有成功出院的患者，以排除那些和通气时间和镇静剂量关联不大的死亡患者，也就是说这类病人即使拥有更好的呼吸机或者镇静剂管理策略也不太能带来积极的影响。

最终，从MIMIC III数据库中的ICU入院病例中，提取了患者的生理数据以及医生的治疗手段记录。在过滤掉一些可能影响模型训练的样本后，插入生命体征测量的缺失值，以获得以1小时为间隔的临床数据。经过一系列的数据处理，最终得到了3545名患者每小时的临床数据，共328279条轨迹并获得相关生命体征随时间变化的曲线。将数据集按照病人为单位划分为训练集和测试集。数据准备完成后，在训练集中有2836个病人，包括260559个轨迹数据，在测试集中有709个病人，包括67720个临床数据。

衡量指标

以决策模型的准确性作为唯一衡量模型性能的指标，即当模型预测的动作与医生的动作一致时，则认为策略是正确的。而准确率又有三个方面：呼吸机准确率、镇静剂准确率和两者联合的准确率，其中把联合准确率作为评价模型最重要的标准。

参数设定

模型使用64个神经元的3层MLP网络结构，并使用学习率为

的ADAM优化器训练，迭代10000次。

以下是本发明效果对比：

表格1：本发明实施例与现有方法准确率对比

由表格1可知： FQI和NFQI分别利用随机树和神经网络来拟合Q函数，AVRIL和这两种方法相比，在三项指标上都有了一定的提升。和FQI相比，呼吸机准确率提升了11.6％，镇静剂提升了36.3％，联合动作提升了39.7％。而BIRL是一种贝叶斯逆强化学习方法，呼吸机和本发明相比有一定优势，但在镇静剂和联合动作上，本发明的优势明显，其中镇静剂和联合动作分别提升了40.1％和37.8％。

图2为本发明基于MIMIC数据库对患者数据进行处理之后的结果，获得患者随时间变化的生理特征。其中对于有创测量的生理指标进行插值，以获得按照小时为单位的状态记录，映射患者对于医疗干预手段的反馈。

图3为AVRIL的训练过程，定义迭代次数为10000次，模型快速收敛，并达到较高的准确率。

图4为AVRIL的框架图。通过从专家病历数据中学习解释专家治疗策略的奖励函数，定义奖励函数的代理分布，最小化该代理分布和奖励函数的后验分布之间的分布差异，同时获得贴近专家行为的策略模型。

又一方面，本发明还公开一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述任一方法的步骤。

再一方面，本发明还公开一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一方法的步骤。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。