CN115831340A - 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 - Google Patents

基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 Download PDF

Info

Publication number
CN115831340A
CN115831340A CN202310151557.4A CN202310151557A CN115831340A CN 115831340 A CN115831340 A CN 115831340A CN 202310151557 A CN202310151557 A CN 202310151557A CN 115831340 A CN115831340 A CN 115831340A
Authority
CN
China
Prior art keywords
model
data
patient
reinforcement learning
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310151557.4A
Other languages
English (en)
Other versions
CN115831340B (zh
Inventor
曹林霄
周浩泉
龚伟
朱怡飞
汤敏
李群超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Original Assignee
Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Provincial Hospital First Affiliated Hospital Of Ustc filed Critical Anhui Provincial Hospital First Affiliated Hospital Of Ustc
Priority to CN202310151557.4A priority Critical patent/CN115831340B/zh
Publication of CN115831340A publication Critical patent/CN115831340A/zh
Application granted granted Critical
Publication of CN115831340B publication Critical patent/CN115831340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质,其方法包括对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取解释该策略的奖惩函数;模型训练并优化,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。本方法采用逆强化学习方法,可以考虑长期以来的动作对患者带来的影响,而不是追求单步的反馈,这和医疗场景中,以患者最终治愈为目标相契合,实现贯序决策。

Description

基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质
技术领域
本发明涉及噪声标签处理技术领域,具体涉及一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及存储介质。
背景技术
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,是智能体(Agent)与环境之间一种学习和反馈。可以通过深度强化学习来实现经验的快速积累,并针对实时情况做出动态规划。现有工作使用off-policy 强化学习算法FQI 和NFQI 来根据提供的病人历史轨迹选择适当的干预措施。首先,这项工作是集中式的工作没有办法在保证患者隐私的情况下实现分布式场景下的部署;另外该工作使用的是传统的前向强化学习方法,需要设定正确合理的奖励函数,但事实上,医疗环境的奖励函数的设计往往是十分困难的,需要专业知识的干预,患者对于医疗干预的反馈也无法直观的转换为数字形式;最后,该工作最后的实验表现也并不够优异,模型对于患者状态的理解能力还是有限,无法很好拟合策略函数。
而现有工作尝试利用贝叶斯逆强化学习方法,通过推断特定潜在奖励函数内部的权重来平衡评价标准的各个方面。首先,虽然该方法利用了逆强化学习的方法,但依旧是依赖于现有的奖励函数设计工作,该工作在该奖励函数的基础上,利用逆强化学习的办法把握不同的奖惩之间的权重关系,因此该方法依旧需要专业知识干预,同样面临着奖励函数设计的挑战;另外,该方法对于镇静剂的设计简单的设定为芬太尼,并不完全贴合实际的医疗场景,且该方法的镇静剂预测表现同样并不出色。
发明内容
本发明提出的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,可至少解决上述技术问题之一。
为实现上述目的,本发明采用了以下技术方案:
一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,包括以下步骤,
步骤1、数据建模;对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;
步骤2、建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数;;
步骤3、模型训练:根据从过往轨迹数据中推测奖惩函数正向推测治疗策略,并不断优化该策略和示例策略间的差距;
步骤4、模型测试;
最后,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。
进一步地,所述步骤1的数据建模,具体包括:
步骤1.1、将患者的生理指标看作为状态,在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中;状态集包含患者以每小时为单位的多维生理状态数据;
步骤1.2、对患者所反馈的状态所采取的医疗干预手段,当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作;对于动作空间来说,设动作
Figure SMS_1
表示在时间t采用的治疗动作
Figure SMS_2
,其中
Figure SMS_3
表示呼吸机的状态,而
Figure SMS_4
表示注射的镇静剂剂量,因此动作空间表示为:
Figure SMS_5
步骤1.3、数据集构建:对于每个时刻t,病人状态
Figure SMS_6
和医生采取的行动
Figure SMS_7
构成时间点t的示例轨迹;所有单个病人的住院轨迹构成了数据集
Figure SMS_8
,其中
Figure SMS_9
表示第i个病人的住院时长,m为患者数量。
进一步地,所述步骤2、建立逆强化学习模型,具体包括,
步骤2.1、模型优化目标;
步骤2.1.1、将奖励视作动作的潜在表征,定义一个以
Figure SMS_10
参数化的代理分布
Figure SMS_11
,以实现式(12)中的优化目标;
Figure SMS_12
(12)
式(12)中
Figure SMS_13
为后验分布,
Figure SMS_14
为两个分布间的Kullback-Leibler距离;
步骤2.1.2、利用变分推断来获得后验分布,引入ELBO根据式(13)最大化
Figure SMS_15
,其等价于式(12);
Figure SMS_16
(13)
步骤2.1.3、先验分布和变分分布的形式是不可知的,假设其为高斯过程先验,均值为0,方差为1,则由
Figure SMS_17
给出的变分后验分布使得:
Figure SMS_18
(14)
其中
Figure SMS_19
Figure SMS_20
为以患者状态作为模型,以
Figure SMS_21
为参数的全连接网络所给出的模型的输出;
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
Figure SMS_22
(15)
由于式(15)中对
Figure SMS_23
的评估还比较困难,所以采用以下步骤,
步骤2.1.5、使用第二个策略神经网络
Figure SMS_24
来反映预期奖励的策略;根据一个受约束的优化目标,如式(16)所示:
Figure SMS_25
Figure SMS_26
(16)
式(16)中
Figure SMS_27
反映了约束强度的大小;
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数;
Figure SMS_28
(17)
式(17)中KL散度可以在有限集上近似,并引入
Figure SMS_29
控制约束强度。这样参数
Figure SMS_30
Figure SMS_31
就有了相同的优化目标;
步骤2.3奖励正则化;
步骤2.3.1、假设式(16)中的约束满足
Figure SMS_32
,则对于式(14)所给定的先验分布,KL散度在隐含奖励上产生了一个稀疏调节器;
Figure SMS_33
(18)
步骤2.3.2、KL散度根据式(18)得到:
Figure SMS_34
(19)
通过学习这样的奖励并给定式(17)的最后一项,直接连接策略方面的单步奖励,确保了时间上的一致性。
进一步地,所述步骤3、模型训练,具体包括,
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,滤除了最终没有成功出院的患者,对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理;
步骤3.2、训练策略网络:
步骤3.2.1、构建一个三层MLP网络结构,含有64个神经元,用来逼近奖励代理分布函数
Figure SMS_35
步骤3.2.2、构建一个三层MLP网络结构,含有64个神经元,用来逼近Q策略函数
Figure SMS_36
步骤3.2.3、随机初始化模型参数
Figure SMS_37
Figure SMS_38
步骤3.2.4、随机选取一定大小的患者临床数据;
步骤3.2.5、根据参数
Figure SMS_39
计算当前状态的Q值和当前状态的下一时刻状态的Q值;
步骤3.2.6、计算TD error,即
Figure SMS_40
步骤3.2.7、根据参数
Figure SMS_41
计算当前状态的奖励函数参数
Figure SMS_42
Figure SMS_43
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项;
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项;
步骤3.2.10、计算动作的对数似然,作为损失函数一项;
步骤3.2.11、利用Adam优化器完成模型参数更新;
步骤3.2.12、训练完成的模型参数
Figure SMS_44
为策略网络的模型参数。
进一步地,所述步骤4、模型测试,具体包括,
输入患者当前时刻相对应的生理指标,以
Figure SMS_45
为参数的三层MLP策略网络观察模型输出和医生所采取的动作是否一致,得到模型决策的准确率。
另一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述方法的步骤。
由上述技术方案可知,本发明的基于逆强化学习的ICU呼吸机与镇静剂管理方法,通过过去已有的非最佳历史轨迹中学习到更优的决策策略,可以根据已有的患者临床生理数据离线学习策略模型,同时避免在医疗环境下奖励函数难以定义的问题,给出ICU中呼吸机和镇静剂的干预意见。
具体的说,本发明的优点如下:
本发明应用于智慧医疗领域的方法,利用ICU中的各类医疗设备所采集到的临床数据,实现临床辅助决策;
本方法采用逆强化学习方法,可以考虑长期以来的动作对患者带来的影响,而不是追求单步的反馈,这和医疗场景中,以患者最终治愈为目标相契合,实现贯序决策。
本方法通过从现有的历史轨迹数据中学习到专家策略,而不需要传统强化学习设计奖励函数,根据变分贝叶斯推断,从专家示例中获得最佳策略;
逆强化学习方法使得本发明可以充分利用各级医疗机构的临床数据资源,同时该方法的易实施性,使其更容易地应用于复杂多变的场景,缓解医疗资源分配不均的影响,提升医疗资源匮乏的医院的治疗水平。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实例的患者生理状态变化示例图;
图3是本发明实施例的AVRIL训练过程示意图;
图4是本发明实施例的AVRIL框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
强化学习(Reinforcement Learning, RL)已经成为解决复杂的贯序决策问题的范式。它是一种目标导向的方法,强调定义的agent通过与环境的互动来学习,以实现一个特定的目标,而不需要可模仿的监督信号或对周围环境的完整建模。目前,强化学习的应用已经在各种环境中得到了探索。但实际上,在医疗场景中直接获得与动作相关的反馈通常是具有挑战性的。逆强化学习(Inverse ReinforcementLearning, IRL)是一种从给定的政策或专家示例中反向推导出马尔可夫决策过程(Markov Decision Process,MDP)的奖励函数的方法,允许agent通过专家的轨迹示范学习如何对复杂问题进行决策,而这种形式的方法会更贴合于医疗场景的应用。在MFed中,应用逆强化学习方法来主导边缘服务器上的模型更新。一般来说RL解决临床决策问题需要将整个治疗过程建模为一个MDP模型,由元组(S, A, P, R)组成。在的任务场景中,它可以被认为是MDP\PR,这可以解释为由于缺乏对P的了解,即无法直接获得潜在的奖励或状态转移函数,不能模拟环境来采样。
本实施例所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,即一种基于逆强化学习的ICU呼吸机与镇静剂的决策方法,通过过去已有的非最佳历史轨迹中学习到更优的决策策略,可以根据已有的患者临床生理数据离线学习策略模型,同时避免在医疗环境下奖励函数难以定义的问题,给出ICU中呼吸机和镇静剂的干预意见,其步骤如下:
步骤1、数据建模。
对ICU中患者的治疗过程进行马尔可夫决策过程建模。在建模时,所有的患者都被看作是环境(Environment),而对患者所采取的医疗干预手段看作是智能体(Agent)对患者所做出的动作(Action)。
步骤1.1、状态(State):将患者的生理指标看作为状态,即心率,呼吸速率等。在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中。模型可以依靠这些与病人是否可以拔管以及镇静药物反应有关的生理特征来给出适当的临床意见。本方法所设定t 时刻的状态是一个 37 维的特征向量,包含病人的基本信息,包括病人的年龄、体重等。同时还涉及医疗终端设备所测量的一些生理值,例如心率,血糖,不同镇静剂的当前剂量、通气时间和入院期间插管的次数等。在时间维度上,将一天划分为24个时段,每个时段对应一个小时。因此状态集包含患者以每小时为单位的多维生理状态数据。
步骤1.2、动作(Action):对患者所反馈的状态所采取的医疗干预手段,例如拔管和注入镇静剂等。当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作。对于动作空间来说,本方法为呼吸机的开启或关闭和镇静水平分别设置了对应的动作。具体来说,本方法将六种常用的镇静剂,例如丙泊酚,芬太尼等,近似映射到一个剂量刻度上,并将镇静剂的注射剂量离散为四种不同的镇静水平。具体来说,动作
Figure SMS_46
表示在时间t采用的治疗动作
Figure SMS_47
,其中
Figure SMS_48
表示呼吸机的状态,而
Figure SMS_49
表示注射的镇静剂剂量,因此动作空间可以表示为:
Figure SMS_50
步骤1.3、数据集构建:对于每个时刻t,病人状态
Figure SMS_51
和医生采取的行动
Figure SMS_52
构成时间点t的示例轨迹。所有单个病人的住院轨迹构成了数据集
Figure SMS_53
,其中
Figure SMS_54
表示第i个病人的住院时长,m为患者数量。
步骤2、建立逆强化学习模型
步骤2.1、模型优化目标
步骤2.1.1、将奖励视作动作的潜在表征,定义一个以
Figure SMS_55
参数化的奖励函数R代理分布
Figure SMS_56
,以实现式(12)中的优化目标。
Figure SMS_57
(12)
式(12)中
Figure SMS_58
为后验分布,
Figure SMS_59
为两个分布间的Kullback-Leibler (KL)距离。
步骤2.1.2、利用变分推断来获得后验分布,引入ELBO根据式(13)最大化
Figure SMS_60
,其等价于式(12)。
Figure SMS_61
(13)
步骤2.1.3、先验分布和变分分布的形式是不可知的,假设其为高斯过程先验,均值为0,方差为1,则由
Figure SMS_62
给出的变分后验分布使得:
Figure SMS_63
(14)
其中
Figure SMS_64
Figure SMS_65
为以患者状态作为模型,以
Figure SMS_66
为参数的全连接网络所给出的模型的输出。
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
Figure SMS_67
(15)
由于式(15)中对
Figure SMS_68
的评估还是比较困难,所以采用以下步骤,
步骤2.1.5、使用第二个策略神经网络
Figure SMS_69
来反映预期奖励的策略。但简单的优化
Figure SMS_70
Figure SMS_71
以最大化ELBO是不可取的,因为会忽略学习策略和奖励分布密切相关的事实。因此得出了一个受约束的优化目标,如式(16)所示:
Figure SMS_72
Figure SMS_73
(16)
式(16)中
Figure SMS_74
反映了约束强度的大小。
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数。
Figure SMS_75
(17)
式(17)中KL散度可以在有限集上近似,并引入
Figure SMS_76
控制约束强度。这样参数
Figure SMS_77
Figure SMS_78
就有了相同的优化目标。
步骤2.3奖励正则化。
步骤2.3.1、假设式(16)中的约束满足
Figure SMS_79
,则对于式(14)所给定的先验分布,KL散度在隐含奖励上产生了一个稀疏调节器。
Figure SMS_80
(18)
步骤2.3.2、KL散度可以根据式(18)得到:
Figure SMS_81
(19)
因此,通过学习这样的奖励并给定式(17)的最后一项,它直接连接策略方面的单步奖励,这迫使策略(而不是奖励)考虑系统的动态变化,确保了时间上的一致性。
步骤3、模型训练
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时,还滤除了最终没有成功出院的患者,以排除那些和通气时间和镇静剂量关联不大的死亡患者即更好的呼吸机和镇静剂策略也很难起到积极效果。对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理。
步骤3.2、训练策略网络:
步骤3.2.1、构建一个三层MLP网络结构,含有64个神经元,用来逼近奖励代理分布函数
Figure SMS_82
步骤3.2.2、构建一个三层MLP网络结构,含有64个神经元,用来逼近Q策略函数
Figure SMS_83
步骤3.2.3、随机初始化模型参数
Figure SMS_84
Figure SMS_85
步骤3.2.4、随机选取一定大小的患者临床数据。
步骤3.2.5、根据参数
Figure SMS_86
计算当前状态的Q值和当前状态的下一时刻状态的Q值
步骤3.2.6、计算TD error,即
Figure SMS_87
步骤3.2.7、根据参数
Figure SMS_88
计算当前状态的奖励函数参数
Figure SMS_89
Figure SMS_90
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项。
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项。
步骤3.2.10、计算动作的对数似然,作为损失函数一项。
步骤3.2.11、利用Adam优化器完成模型参数更新。
步骤3.2.12、训练完成的模型参数
Figure SMS_91
为策略网络的模型参数。
步骤4、模型测试
输入患者当前时刻相对应的生理指标,以
Figure SMS_92
为参数的三层MLP策略网络观察模型输出和医生所采取的动作是否一致,得到模型决策的准确率。
以下举例说明
数据集:
MIMIC-III数据库包含2001年至2012年11年间近6万份ICU住院病人记录。MIMIC-III数据库主要有两类基础数据:一类是从EHR中提取的临床数据,包括患者人口学特征信息、诊断信息、实验室检查信息、医学影像信息等;第二类数据是床旁监护设备采集的时间序列数据和相关生命体征参数及事件记录。
数据预处理
为了满足任务需求,首先从数据库中筛选出通气时间超过24小时的患者,这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时,还需要滤除了最终没有成功出院的患者,以排除那些和通气时间和镇静剂量关联不大的死亡患者,也就是说这类病人即使拥有更好的呼吸机或者镇静剂管理策略也不太能带来积极的影响。
最终,从MIMIC III数据库中的ICU入院病例中,提取了患者的生理数据以及医生的治疗手段记录。在过滤掉一些可能影响模型训练的样本后,插入生命体征测量的缺失值,以获得以1小时为间隔的临床数据。经过一系列的数据处理,最终得到了3545名患者每小时的临床数据,共328279条轨迹并获得相关生命体征随时间变化的曲线。将数据集按照病人为单位划分为训练集和测试集。数据准备完成后,在训练集中有2836个病人,包括260559个轨迹数据,在测试集中有709个病人,包括67720个临床数据。
衡量指标
以决策模型的准确性作为唯一衡量模型性能的指标,即当模型预测的动作与医生的动作一致时,则认为策略是正确的。而准确率又有三个方面:呼吸机准确率、镇静剂准确率和两者联合的准确率,其中把联合准确率作为评价模型最重要的标准。
参数设定
模型使用64个神经元的3层MLP网络结构,并使用学习率为
Figure SMS_93
的ADAM优化器训练,迭代10000次。
以下是本发明效果对比:
表格1:本发明实施例与现有方法准确率对比
Figure SMS_94
由表格1可知: FQI和NFQI分别利用随机树和神经网络来拟合Q函数,AVRIL和这两种方法相比,在三项指标上都有了一定的提升。和FQI相比,呼吸机准确率提升了11.6%,镇静剂提升了36.3%,联合动作提升了39.7%。而BIRL是一种贝叶斯逆强化学习方法,呼吸机和本发明相比有一定优势,但在镇静剂和联合动作上,本发明的优势明显,其中镇静剂和联合动作分别提升了40.1%和37.8%。
图2为本发明基于MIMIC数据库对患者数据进行处理之后的结果,获得患者随时间变化的生理特征。其中对于有创测量的生理指标进行插值,以获得按照小时为单位的状态记录,映射患者对于医疗干预手段的反馈。
图3为AVRIL的训练过程,定义迭代次数为10000次,模型快速收敛,并达到较高的准确率。
图4为AVRIL的框架图。通过从专家病历数据中学习解释专家治疗策略的奖励函数,定义奖励函数的代理分布,最小化该代理分布和奖励函数的后验分布之间的分布差异,同时获得贴近专家行为的策略模型。
又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。
再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于,包括以下步骤,
步骤1、数据建模;对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;
步骤2、建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数;
步骤3、模型训练:根据从过往轨迹数据中推测奖惩函数正向推测治疗策略,并不断优化该策略和示例策略间的差距;
步骤4、模型测试;
最后,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。
2.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤1的数据建模,具体包括:
步骤1.1、将患者的生理指标看作为状态,在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中;状态集包含患者以每小时为单位的多维生理状态数据;
步骤1.2、对患者所反馈的状态所采取的医疗干预手段,当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作;对于动作空间来说,设动作
Figure QLYQS_1
表示在时间t采用的治疗动作
Figure QLYQS_2
,其中
Figure QLYQS_3
表示呼吸机的状态,而
Figure QLYQS_4
表示注射的镇静剂剂量,因此动作空间表示为:
Figure QLYQS_5
步骤1.3、数据集构建:对于每个时刻t,病人状态
Figure QLYQS_6
和医生采取的行动
Figure QLYQS_7
构成时间点t的示例轨迹;所有单个病人的住院轨迹构成了数据集
Figure QLYQS_8
,其中
Figure QLYQS_9
表示第i个病人的住院时长,m为患者数量。
3.根据权利要求2所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤2、建立逆强化学习模型,具体包括,
步骤2.1、模型优化目标;
步骤2.1.1、将奖励视作动作的潜在表征,定义一个以
Figure QLYQS_10
参数化的代理分布
Figure QLYQS_11
,以实现式(12)中的优化目标;
Figure QLYQS_12
(12)
式(12)中
Figure QLYQS_13
为后验分布,
Figure QLYQS_14
为两个分布间的Kullback-Leibler距离;
步骤2.1.2、利用变分推断来获得后验分布,引入ELBO根据式(13)最大化
Figure QLYQS_15
,其等价于式(12);
Figure QLYQS_16
(13)
步骤2.1.3、先验分布和变分分布的形式是不可知的,假设其为高斯过程先验,均值为0,方差为1,则由
Figure QLYQS_17
给出的变分后验分布使得:
Figure QLYQS_18
(14)
其中
Figure QLYQS_19
Figure QLYQS_20
为以患者状态作为模型,以
Figure QLYQS_21
为参数的全连接网络所给出的模型的输出;
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
Figure QLYQS_22
(15);
步骤2.1.5、使用第二个策略神经网络
Figure QLYQS_23
来反映预期奖励的策略;根据一个受约束的优化目标,如式(16)所示:
Figure QLYQS_24
Figure QLYQS_25
(16)
式(16)中
Figure QLYQS_26
反映了约束强度的大小;
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数;
Figure QLYQS_27
(17)
式(17)中KL散度可以在有限集上近似,并引入
Figure QLYQS_28
控制约束强度;这样参数
Figure QLYQS_29
Figure QLYQS_30
就有了相同的优化目标;
步骤2.3奖励正则化;
步骤2.3.1、假设式(16)中的约束满足
Figure QLYQS_31
,则对于式(14)所给定的先验分布,KL散度在隐含奖励上产生了一个稀疏调节器;
Figure QLYQS_32
(18)
步骤2.3.2、KL散度根据式(18)得到:
Figure QLYQS_33
(19)
通过学习这样的奖励并给定式(17)的最后一项,直接连接策略方面的单步奖励,确保了时间上的一致性。
4.根据权利要求3所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤3、模型训练,具体包括,
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,滤除了最终没有成功出院的患者,对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理;
步骤3.2、训练策略网络:
步骤3.2.1、构建一个三层MLP网络结构,含有64个神经元,用来逼近奖励代理分布函数
Figure QLYQS_34
步骤3.2.2、构建一个三层MLP网络结构,含有64个神经元,用来逼近Q策略函数
Figure QLYQS_35
步骤3.2.3、随机初始化模型参数
Figure QLYQS_36
Figure QLYQS_37
步骤3.2.4、随机选取一定大小的患者临床数据;
步骤3.2.5、根据参数
Figure QLYQS_38
计算当前状态的Q值和当前状态的下一时刻状态的Q值;
步骤3.2.6、计算TD error,即
Figure QLYQS_39
步骤3.2.7、根据参数
Figure QLYQS_40
计算当前状态的奖励函数参数
Figure QLYQS_41
Figure QLYQS_42
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项;
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项;
步骤3.2.10、计算动作的对数似然,作为损失函数一项;
步骤3.2.11、利用Adam优化器完成模型参数更新;
步骤3.2.12、训练完成的模型参数
Figure QLYQS_43
为策略网络的模型参数。
5.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤4、模型测试,具体包括,
输入患者当前时刻相对应的生理指标,以
Figure QLYQS_44
为参数的三层MLP策略网络观察模型输出和医生所采取的动作是否一致,得到模型决策的准确率。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。
CN202310151557.4A 2023-02-22 2023-02-22 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 Active CN115831340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310151557.4A CN115831340B (zh) 2023-02-22 2023-02-22 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310151557.4A CN115831340B (zh) 2023-02-22 2023-02-22 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Publications (2)

Publication Number Publication Date
CN115831340A true CN115831340A (zh) 2023-03-21
CN115831340B CN115831340B (zh) 2023-05-02

Family

ID=85522064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310151557.4A Active CN115831340B (zh) 2023-02-22 2023-02-22 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质

Country Status (1)

Country Link
CN (1) CN115831340B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116779150A (zh) * 2023-07-03 2023-09-19 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用
CN117275661A (zh) * 2023-11-23 2023-12-22 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及系统
JP2021192141A (ja) * 2020-06-05 2021-12-16 国立大学法人 東京大学 学習装置、学習方法、および学習プログラム
US20220102000A1 (en) * 2019-01-31 2022-03-31 Yeda Research And Development Co. Ltd. Predicting blood metabolites
CN114898859A (zh) * 2022-03-22 2022-08-12 复旦大学附属中山医院 急性主动脉夹层院内预后预测系统
CN115314399A (zh) * 2022-08-05 2022-11-08 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法
US20220405682A1 (en) * 2020-08-26 2022-12-22 Woowa Brothers Co., Ltd. Inverse reinforcement learning-based delivery means detection apparatus and method
US20230045360A1 (en) * 2021-07-14 2023-02-09 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Imitation Learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及系统
US20220102000A1 (en) * 2019-01-31 2022-03-31 Yeda Research And Development Co. Ltd. Predicting blood metabolites
JP2021192141A (ja) * 2020-06-05 2021-12-16 国立大学法人 東京大学 学習装置、学習方法、および学習プログラム
US20220405682A1 (en) * 2020-08-26 2022-12-22 Woowa Brothers Co., Ltd. Inverse reinforcement learning-based delivery means detection apparatus and method
US20230045360A1 (en) * 2021-07-14 2023-02-09 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Imitation Learning
CN114898859A (zh) * 2022-03-22 2022-08-12 复旦大学附属中山医院 急性主动脉夹层院内预后预测系统
CN115314399A (zh) * 2022-08-05 2022-11-08 北京航空航天大学 一种基于逆强化学习的数据中心流量调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO YU,ETC.: "Inverse reinforcement learning for intelligent mechanical ventilation and sedative dosing in intensive care units" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116779150A (zh) * 2023-07-03 2023-09-19 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用
CN116779150B (zh) * 2023-07-03 2023-12-22 浙江一山智慧医疗研究有限公司 基于多智能体互动的个性化医疗决策方法、装置及应用
CN117275661A (zh) * 2023-11-23 2023-12-22 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置
CN117275661B (zh) * 2023-11-23 2024-02-09 太原理工大学 一种基于深度强化学习的肺癌患者用药预测方法及装置

Also Published As

Publication number Publication date
CN115831340B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN115831340A (zh) 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质
CN115881306B (zh) 基于联邦学习的网络化icu智能医疗决策方法及存储介质
US11250953B2 (en) Techniques for integrating proxy nodes into graph-model-based investigatory-event mappings
EP2395445A2 (de) Verfahren und Anordnung zur Erstellung eines individualisierten computergestützten Modells eines Systems sowie ein entsprechendes Computerprogramm und ein entsprechendes computerlesbares Speichermedium
WO2008031208A1 (en) Modeling and control for highly variable and nonlinear processes
CN116453706B (zh) 一种基于强化学习的血液透析方案制定方法及系统
Schmid et al. Competing risks analysis for discrete time‐to‐event data
US20230117220A1 (en) Electrocardiogram data processing server, method and computer program for displaying analysis data of electrocardiogram signal
CN112216360A (zh) 一种糖尿病病人日常血糖监测数据采集管理方法及系统
CN115482932A (zh) 一种基于迁移学习和糖化血红蛋白的多变量血糖预测算法
Bekaert et al. Adjusting for time-varying confounding in the subdistribution analysis of a competing risk
CN112102940A (zh) 一种屈光检测方法、装置、计算机设备及存储介质
Festor et al. Enabling risk-aware Reinforcement Learning for medical interventions through uncertainty decomposition
CN117034142B (zh) 一种不平衡医疗数据缺失值填充方法及系统
Sharwardy et al. The impact of Markov model to predict the status of children with congenital heart disease at post-operative ICU
CN117095828A (zh) 基于糖尿病患者随访记录的血糖值预测和告警方法
CN113053482B (zh) 一种肾内科患者的体征监测分析系统及方法
JP2022500767A (ja) 一般的及び個人的な患者のリスク予測
Gaweda et al. Model predictive control with reinforcement learning for drug delivery in renal anemia management
CN116313080A (zh) 一种基于迁移学习的葡萄糖浓度预测方法及设备
Gautama et al. On the characterisation of the deterministic/stochastic and linear/nonlinear nature of time series
Roberts et al. Bayesian networks for cardiovascular monitoring
Shickel et al. DeepSOFA: a real-time continuous acuity score framework using deep learning
Chan et al. Classification of hypoglycemic episodes for Type 1 diabetes mellitus based on neural networks
Dobre et al. Parameters weighting in elderly monitoring based on multi-criteria methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant