CN115831340B - 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 - Google Patents
基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 Download PDFInfo
- Publication number
- CN115831340B CN115831340B CN202310151557.4A CN202310151557A CN115831340B CN 115831340 B CN115831340 B CN 115831340B CN 202310151557 A CN202310151557 A CN 202310151557A CN 115831340 B CN115831340 B CN 115831340B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- patient
- state
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 239000000932 sedative agent Substances 0.000 title claims abstract description 26
- 230000001624 sedative effect Effects 0.000 title claims abstract description 23
- 230000029058 respiratory gaseous exchange Effects 0.000 title claims abstract description 17
- 238000007726 management method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 230000035790 physiological processes and functions Effects 0.000 claims abstract description 5
- 238000003745 diagnosis Methods 0.000 claims abstract description 3
- 230000009471 action Effects 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 12
- 206010039897 Sedation Diseases 0.000 claims description 11
- 230000036280 sedation Effects 0.000 claims description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 10
- 238000005259 measurement Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000009423 ventilation Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 230000001225 therapeutic effect Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000011282 treatment Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- PJMPHNIQZUBGLI-UHFFFAOYSA-N fentanyl Chemical compound C=1C=CC=CC=1N(C(=O)CC)C(CC1)CCN1CCC1=CC=CC=C1 PJMPHNIQZUBGLI-UHFFFAOYSA-N 0.000 description 2
- 229960002428 fentanyl Drugs 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 229940125723 sedative agent Drugs 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241001631457 Cannula Species 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001802 infusion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- OLBCVFGFOZPWHH-UHFFFAOYSA-N propofol Chemical compound CC(C)C1=CC=CC(C(C)C)=C1O OLBCVFGFOZPWHH-UHFFFAOYSA-N 0.000 description 1
- 229960004134 propofol Drugs 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000009528 vital sign measurement Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及介质,其方法包括对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取解释该策略的奖惩函数;模型训练并优化,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。本方法采用逆强化学习方法,可以考虑长期以来的动作对患者带来的影响,而不是追求单步的反馈,这和医疗场景中,以患者最终治愈为目标相契合,实现贯序决策。
Description
技术领域
本发明涉及噪声标签处理技术领域,具体涉及一种基于逆强化学习的ICU呼吸机与镇静剂管理方法及存储介质。
背景技术
深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,是智能体(Agent)与环境之间一种学习和反馈。可以通过深度强化学习来实现经验的快速积累,并针对实时情况做出动态规划。现有工作使用off-policy 强化学习算法FQI 和NFQI 来根据提供的病人历史轨迹选择适当的干预措施。首先,这项工作是集中式的工作没有办法在保证患者隐私的情况下实现分布式场景下的部署;另外该工作使用的是传统的前向强化学习方法,需要设定正确合理的奖励函数,但事实上,医疗环境的奖励函数的设计往往是十分困难的,需要专业知识的干预,患者对于医疗干预的反馈也无法直观的转换为数字形式;最后,该工作最后的实验表现也并不够优异,模型对于患者状态的理解能力还是有限,无法很好拟合策略函数。
而现有工作尝试利用贝叶斯逆强化学习方法,通过推断特定潜在奖励函数内部的权重来平衡评价标准的各个方面。首先,虽然该方法利用了逆强化学习的方法,但依旧是依赖于现有的奖励函数设计工作,该工作在该奖励函数的基础上,利用逆强化学习的办法把握不同的奖惩之间的权重关系,因此该方法依旧需要专业知识干预,同样面临着奖励函数设计的挑战;另外,该方法对于镇静剂的设计简单的设定为芬太尼,并不完全贴合实际的医疗场景,且该方法的镇静剂预测表现同样并不出色。
发明内容
本发明提出的一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,可至少解决上述技术问题之一。
为实现上述目的,本发明采用了以下技术方案:
一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,包括以下步骤,
步骤1、数据建模;对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;
步骤2、建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数;;
步骤3、模型训练:根据从过往轨迹数据中推测奖惩函数正向推测治疗策略,并不断优化该策略和示例策略间的差距;
步骤4、模型测试;
最后,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理。
进一步地,所述步骤1的数据建模,具体包括:
步骤1.1、将患者的生理指标看作为状态,在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中;状态集包含患者以每小时为单位的多维生理状态数据;
步骤1.2、对患者所反馈的状态所采取的医疗干预手段,当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作;对于动作空间来说,设动作表示在时间t采用的治疗动作,其中表示呼吸机的状态,而表示注射的镇静剂剂量,因此动作空间表示为:
进一步地,所述步骤2、建立逆强化学习模型,具体包括,
步骤2.1、模型优化目标;
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数;
步骤2.3奖励正则化;
步骤2.3.2、KL散度根据式(18)得到:
通过学习这样的奖励并给定式(17)的最后一项,直接连接策略方面的单步奖励,确保了时间上的一致性。
进一步地,所述步骤3、模型训练,具体包括,
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,滤除了最终没有成功出院的患者,对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理;
步骤3.2、训练策略网络:
步骤3.2.4、随机选取一定大小的患者临床数据;
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项;
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项;
步骤3.2.10、计算动作的对数似然,作为损失函数一项;
步骤3.2.11、利用Adam优化器完成模型参数更新;
进一步地,所述步骤4、模型测试,具体包括,
另一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述方法的步骤。
由上述技术方案可知,本发明的基于逆强化学习的ICU呼吸机与镇静剂管理方法,通过过去已有的非最佳历史轨迹中学习到更优的决策策略,可以根据已有的患者临床生理数据离线学习策略模型,同时避免在医疗环境下奖励函数难以定义的问题,给出ICU中呼吸机和镇静剂的干预意见。
具体的说,本发明的优点如下:
本发明应用于智慧医疗领域的方法,利用ICU中的各类医疗设备所采集到的临床数据,实现临床辅助决策;
本方法采用逆强化学习方法,可以考虑长期以来的动作对患者带来的影响,而不是追求单步的反馈,这和医疗场景中,以患者最终治愈为目标相契合,实现贯序决策。
本方法通过从现有的历史轨迹数据中学习到专家策略,而不需要传统强化学习设计奖励函数,根据变分贝叶斯推断,从专家示例中获得最佳策略;
逆强化学习方法使得本发明可以充分利用各级医疗机构的临床数据资源,同时该方法的易实施性,使其更容易地应用于复杂多变的场景,缓解医疗资源分配不均的影响,提升医疗资源匮乏的医院的治疗水平。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实例的患者生理状态变化示例图;
图3是本发明实施例的AVRIL训练过程示意图;
图4是本发明实施例的AVRIL框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
强化学习(Reinforcement Learning, RL)已经成为解决复杂的贯序决策问题的范式。它是一种目标导向的方法,强调定义的agent通过与环境的互动来学习,以实现一个特定的目标,而不需要可模仿的监督信号或对周围环境的完整建模。目前,强化学习的应用已经在各种环境中得到了探索。但实际上,在医疗场景中直接获得与动作相关的反馈通常是具有挑战性的。逆强化学习(Inverse ReinforcementLearning, IRL)是一种从给定的政策或专家示例中反向推导出马尔可夫决策过程(Markov Decision Process,MDP)的奖励函数的方法,允许agent通过专家的轨迹示范学习如何对复杂问题进行决策,而这种形式的方法会更贴合于医疗场景的应用。在MFed中,应用逆强化学习方法来主导边缘服务器上的模型更新。一般来说RL解决临床决策问题需要将整个治疗过程建模为一个MDP模型,由元组(S, A, P, R)组成。在的任务场景中,它可以被认为是MDP\PR,这可以解释为由于缺乏对P的了解,即无法直接获得潜在的奖励或状态转移函数,不能模拟环境来采样。
本实施例所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,即一种基于逆强化学习的ICU呼吸机与镇静剂的决策方法,通过过去已有的非最佳历史轨迹中学习到更优的决策策略,可以根据已有的患者临床生理数据离线学习策略模型,同时避免在医疗环境下奖励函数难以定义的问题,给出ICU中呼吸机和镇静剂的干预意见,其步骤如下:
步骤1、数据建模。
对ICU中患者的治疗过程进行马尔可夫决策过程建模。在建模时,所有的患者都被看作是环境(Environment),而对患者所采取的医疗干预手段看作是智能体(Agent)对患者所做出的动作(Action)。
步骤1.1、状态(State):将患者的生理指标看作为状态,即心率,呼吸速率等。在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中。模型可以依靠这些与病人是否可以拔管以及镇静药物反应有关的生理特征来给出适当的临床意见。本方法所设定t 时刻的状态是一个 37 维的特征向量,包含病人的基本信息,包括病人的年龄、体重等。同时还涉及医疗终端设备所测量的一些生理值,例如心率,血糖,不同镇静剂的当前剂量、通气时间和入院期间插管的次数等。在时间维度上,将一天划分为24个时段,每个时段对应一个小时。因此状态集包含患者以每小时为单位的多维生理状态数据。
步骤1.2、动作(Action):对患者所反馈的状态所采取的医疗干预手段,例如拔管和注入镇静剂等。当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作。对于动作空间来说,本方法为呼吸机的开启或关闭和镇静水平分别设置了对应的动作。具体来说,本方法将六种常用的镇静剂,例如丙泊酚,芬太尼等,近似映射到一个剂量刻度上,并将镇静剂的注射剂量离散为四种不同的镇静水平。具体来说,动作表示在时间t采用的治疗动作,其中表示呼吸机的状态,而表示注射的镇静剂剂量,因此动作空间可以表示为:
步骤2、建立逆强化学习模型
步骤2.1、模型优化目标
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数。
步骤2.3奖励正则化。
步骤2.3.2、KL散度可以根据式(18)得到:
因此,通过学习这样的奖励并给定式(17)的最后一项,它直接连接策略方面的单步奖励,这迫使策略(而不是奖励)考虑系统的动态变化,确保了时间上的一致性。
步骤3、模型训练
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时,还滤除了最终没有成功出院的患者,以排除那些和通气时间和镇静剂量关联不大的死亡患者即更好的呼吸机和镇静剂策略也很难起到积极效果。对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理。
步骤3.2、训练策略网络:
步骤3.2.4、随机选取一定大小的患者临床数据。
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项。
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项。
步骤3.2.10、计算动作的对数似然,作为损失函数一项。
步骤3.2.11、利用Adam优化器完成模型参数更新。
步骤4、模型测试
以下举例说明
数据集:
MIMIC-III数据库包含2001年至2012年11年间近6万份ICU住院病人记录。MIMIC-III数据库主要有两类基础数据:一类是从EHR中提取的临床数据,包括患者人口学特征信息、诊断信息、实验室检查信息、医学影像信息等;第二类数据是床旁监护设备采集的时间序列数据和相关生命体征参数及事件记录。
数据预处理
为了满足任务需求,首先从数据库中筛选出通气时间超过24小时的患者,这是为了确保这些患者不是因为术后的正常过渡而需要呼吸机的介入。同时,还需要滤除了最终没有成功出院的患者,以排除那些和通气时间和镇静剂量关联不大的死亡患者,也就是说这类病人即使拥有更好的呼吸机或者镇静剂管理策略也不太能带来积极的影响。
最终,从MIMIC III数据库中的ICU入院病例中,提取了患者的生理数据以及医生的治疗手段记录。在过滤掉一些可能影响模型训练的样本后,插入生命体征测量的缺失值,以获得以1小时为间隔的临床数据。经过一系列的数据处理,最终得到了3545名患者每小时的临床数据,共328279条轨迹并获得相关生命体征随时间变化的曲线。将数据集按照病人为单位划分为训练集和测试集。数据准备完成后,在训练集中有2836个病人,包括260559个轨迹数据,在测试集中有709个病人,包括67720个临床数据。
衡量指标
以决策模型的准确性作为唯一衡量模型性能的指标,即当模型预测的动作与医生的动作一致时,则认为策略是正确的。而准确率又有三个方面:呼吸机准确率、镇静剂准确率和两者联合的准确率,其中把联合准确率作为评价模型最重要的标准。
参数设定
以下是本发明效果对比:
表格1:本发明实施例与现有方法准确率对比
由表格1可知: FQI和NFQI分别利用随机树和神经网络来拟合Q函数,AVRIL和这两种方法相比,在三项指标上都有了一定的提升。和FQI相比,呼吸机准确率提升了11.6%,镇静剂提升了36.3%,联合动作提升了39.7%。而BIRL是一种贝叶斯逆强化学习方法,呼吸机和本发明相比有一定优势,但在镇静剂和联合动作上,本发明的优势明显,其中镇静剂和联合动作分别提升了40.1%和37.8%。
图2为本发明基于MIMIC数据库对患者数据进行处理之后的结果,获得患者随时间变化的生理特征。其中对于有创测量的生理指标进行插值,以获得按照小时为单位的状态记录,映射患者对于医疗干预手段的反馈。
图3为AVRIL的训练过程,定义迭代次数为10000次,模型快速收敛,并达到较高的准确率。
图4为AVRIL的框架图。通过从专家病历数据中学习解释专家治疗策略的奖励函数,定义奖励函数的代理分布,最小化该代理分布和奖励函数的后验分布之间的分布差异,同时获得贴近专家行为的策略模型。
又一方面,本发明还公开一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述任一方法的步骤。
再一方面,本发明还公开一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述任一方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一方法的步骤。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于,包括以下步骤,
步骤1、数据建模;对获取的医疗数据根据医疗决策场景的需求进行分析重构,将数据脱敏处理,并进行归一化处理,建立相关数据集;
步骤2、建立逆强化学习模型;根据预处理后的数据集,将生理状态以及医疗干预手段建立MDP模型,根据变分贝叶斯理论,确定模型优化目标,从专家的过去诊断记录中获取能够解释医生行为动作的奖励函数;
步骤3、模型训练:根据从过往轨迹数据中推测奖惩函数正向推测治疗策略,并不断优化该策略和示例策略间的差距;
步骤4、模型测试;
最后,利用训练后的模型对ICU呼吸机与镇静剂管理进行管理;
所述步骤2、建立逆强化学习模型,具体包括,
步骤2.1、模型优化目标;
步骤2.1.4、根据Boltzmann合理性假设,将式(13)表示为:
步骤2.1.6、在KKT条件下重写为拉格朗日函数并给出互补的松弛度,得到适用目标函数;
步骤2.3奖励正则化;
步骤2.3.2、KL散度根据式(18)得到:
通过学习这样的奖励并给定式(17)的最后一项,直接连接策略方面的单步奖励,确保了时间上的一致性。
2.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤1的数据建模,具体包括:
步骤1.1、将患者的生理指标看作为状态,在状态空间设计过程中,将一些能观察到的生理数据值纳入到评估病人状态的特征中;状态集包含患者以每小时为单位的多维生理状态数据;
步骤1.2、对患者所反馈的状态所采取的医疗干预手段,当给定患者t 时刻的状态后,训练得到的智能体面对这种状态所选择的医疗动作;对于动作空间来说,设动作表示在时间t采用的治疗动作,其中 表示呼吸机的状态,而表示注射的镇静剂剂量,因此动作空间表示为:
3.根据权利要求1所述的基于逆强化学习的ICU呼吸机与镇静剂管理方法,其特征在于:所述步骤3、模型训练,具体包括,
步骤3.1、数据预处理:从数据集中筛选出通气时间超过24小时的患者,滤除了最终没有成功出院的患者,对于测量间隔大于1h的有创性生理指标,在两个测量时刻之间进行插值处理;
步骤3.2、训练策略网络:
步骤3.2.4、随机选取一定大小的患者临床数据;
步骤3.2.8、根据给定的参数化奖励计算TD error的对数似然,作为损失函数一项;
步骤3.2.9、计算代理奖励函数分布与先验分布之间的KL散度,作为损失函数一项;
步骤3.2.10、计算动作的对数似然,作为损失函数一项;
步骤3.2.11、利用Adam优化器完成模型参数更新;
5.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310151557.4A CN115831340B (zh) | 2023-02-22 | 2023-02-22 | 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310151557.4A CN115831340B (zh) | 2023-02-22 | 2023-02-22 | 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115831340A CN115831340A (zh) | 2023-03-21 |
CN115831340B true CN115831340B (zh) | 2023-05-02 |
Family
ID=85522064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310151557.4A Active CN115831340B (zh) | 2023-02-22 | 2023-02-22 | 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115831340B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116779150B (zh) * | 2023-07-03 | 2023-12-22 | 浙江一山智慧医疗研究有限公司 | 基于多智能体互动的个性化医疗决策方法、装置及应用 |
CN117275661B (zh) * | 2023-11-23 | 2024-02-09 | 太原理工大学 | 一种基于深度强化学习的肺癌患者用药预测方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115314399A (zh) * | 2022-08-05 | 2022-11-08 | 北京航空航天大学 | 一种基于逆强化学习的数据中心流量调度方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108051999B (zh) * | 2017-10-31 | 2020-08-25 | 中国科学技术大学 | 基于深度强化学习的加速器束流轨道控制方法及系统 |
IL264581A (en) * | 2019-01-31 | 2020-08-31 | Segal Eran | Predicting blood metabolites |
JP2021192141A (ja) * | 2020-06-05 | 2021-12-16 | 国立大学法人 東京大学 | 学習装置、学習方法、および学習プログラム |
KR102492205B1 (ko) * | 2020-08-26 | 2023-01-26 | 주식회사 우아한형제들 | 역강화학습 기반 배달 수단 탐지 장치 및 방법 |
US20230045360A1 (en) * | 2021-07-14 | 2023-02-09 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Imitation Learning |
CN114898859A (zh) * | 2022-03-22 | 2022-08-12 | 复旦大学附属中山医院 | 急性主动脉夹层院内预后预测系统 |
-
2023
- 2023-02-22 CN CN202310151557.4A patent/CN115831340B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115314399A (zh) * | 2022-08-05 | 2022-11-08 | 北京航空航天大学 | 一种基于逆强化学习的数据中心流量调度方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115831340A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115831340B (zh) | 基于逆强化学习的icu呼吸机与镇静剂管理方法及介质 | |
CN115881306B (zh) | 基于联邦学习的网络化icu智能医疗决策方法及存储介质 | |
Knaus et al. | The SUPPORT prognostic model: Objective estimates of survival for seriously ill hospitalized adults | |
JP7019127B2 (ja) | 強化学習に基づくインスリンの評価 | |
CN101297297A (zh) | 医疗风险分层方法和系统 | |
WO2008031208A1 (en) | Modeling and control for highly variable and nonlinear processes | |
Schmid et al. | Competing risks analysis for discrete time‐to‐event data | |
EP3240470A1 (en) | Method and system for predicting continous cardiac output (cco) of a patient based on physiological data | |
Wang et al. | Intelligent model-based advisory system for the management of ventilated intensive care patients. Part II: Advisory system design and evaluation | |
CN116453706A (zh) | 一种基于强化学习的血液透析方案制定方法及系统 | |
JP2024518693A (ja) | 個人向けデュアルチャネル結合ネットワークを用いた医療イベント予測 | |
Baucum et al. | Adapting reinforcement learning treatment policies using limited data to personalize critical care | |
CN116525117B (zh) | 一种面向数据分布漂移检测与自适应的临床风险预测系统 | |
CN112329921B (zh) | 基于深度表征学习和强化学习的利尿剂剂量推理设备 | |
CN117409984B (zh) | 一种糖尿病随访管理系统、装置、电子设备和存储介质 | |
Ghosh et al. | Genetic algorithm based NARX model identification for evaluation of insulin sensitivity | |
Sharwardy et al. | The impact of Markov model to predict the status of children with congenital heart disease at post-operative ICU | |
CN117095828A (zh) | 基于糖尿病患者随访记录的血糖值预测和告警方法 | |
JP2022500767A (ja) | 一般的及び個人的な患者のリスク予測 | |
Polz et al. | A system theory based digital model for predicting the cumulative fluid balance course in intensive care patients | |
WO2021076652A1 (en) | Method for enhancing patient compliance with a medical therapy plan and mobile device therefor | |
Mathew et al. | A web based decision support system driven for the neurological disorders | |
Symeonidis et al. | Deep reinforcement learning for medicine recommendation | |
Adams et al. | The impact of time series length and discretization on longitudinal causal estimation methods | |
US20240290490A1 (en) | Wisdom based decision system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |