CN117959542A

CN117959542A - 一种呼吸机参数获取系统及其使用方法

Info

Publication number: CN117959542A
Application number: CN202410229757.1A
Authority: CN
Inventors: 刘瑜珈; 王磊; 邱禧荷; 张波
Original assignee: Liaoning Inspection Examination and Certification Centre
Current assignee: Liaoning Inspection Examination and Certification Centre
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-05-03

Abstract

本发明公开了一种呼吸机参数获取系统及其使用方法，所述呼吸机参数获取系统，包括：动作策略获取模块，其内设有通过变分自编码器学习进行构建的策略优化模型，进而得到智能体在每一状态下的动作策略；呼吸机参数获取模块，其内设有采用马尔可夫决策过程构建的呼吸机参数获取决策模型，结合动作策略获取模块获取的动作策略寻找得到一使得累计奖励最大化的动作策略。本发明采用强化学习，使得获取的呼吸机参数不仅考虑了当前的效果，还对对患者未来的效果产生的影响，这是非强化学习方法所不具备的优势。

Description

一种呼吸机参数获取系统及其使用方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种呼吸机参数获取系统及其使用方法。

背景技术

呼吸机作为一种常见的重症监护室辅助医疗设备，在拯救危重病人方面扮演着重要的角色。然而，由于人体内部复杂的生理环境，若呼吸机参数调整不当，可能会引发并发症甚至威胁到患者的生命，并对其心肺功能的康复产生严重影响。因此，在呼吸机治疗过程中，需要根据患者的生理状况实时、安全、准确地调整呼吸机参数。

传统的呼吸机参数设置主要由临床医生决定，因此医生的行医经验至关重要。为了辅助临床医生设置最优的呼吸机参数，基于自动控制技术的呼吸机参数推荐医疗系统得到推广，该系统主要运用各种各样的控制器形成闭环控制系统，使患者的生理指标在呼吸机的辅助下达到设定值。近年来，随着电子病历的发展，越来越多的临床诊断数据可供研究者使用，机器学习为呼吸机参数调整提供了更多的解决方案。由于强化学习考虑了未来的累计折扣奖励，已有研究者将强化学习应用于呼吸机参数推荐这一领域。但是该方法只关注治疗效果，而没有考虑呼吸机参数的安全性，为了更好地解决上述问题，有必要提出一种在综合考虑呼吸机参数的安全性以及对患者产生的长期治疗效果的基础上获取呼吸机参数的系统及其使用方法。

发明内容

发明目的：针对上述不足，本发明提出一种呼吸机参数获取系统及其使用方法，综合考虑呼吸机参数的安全性以及对患者产生的长期治疗效果。

技术方案：

一种呼吸机参数获取系统，包括：

动作策略获取模块，其内设有通过变分自编码器学习进行构建的策略优化模型，进而得到智能体在每一状态下的动作策略；

呼吸机参数获取模块，其内设有采用马尔可夫决策过程构建的呼吸机参数获取决策模型，结合动作策略获取模块获取的动作策略寻找得到一使得累计奖励最大化的动作策略。

具体地，所述策略优化模型包括编码器网络和解码器网络，编码器网络的输入包括智能体的状态和在对应状态下的动作两部分，输出为隐变量；解码器网络的输入包括编码器网络输出的隐变量和智能体的状态，输出为在对应状态下的动作的重构，由此得到智能体在每一状态下的动作策略。

具体地，所述呼吸机参数获取决策模型针对不同的呼吸机参数反映的患者的生理状态，定义若干个指标作为智能体的状态，定义若干个可调整的呼吸机参数作为智能体在每一状态下的动作，设置对应的奖励函数，并结合动作策略获取模块内策略优化模型获取的动作策略获取得到呼吸机参数。

更具体地，针对不同的呼吸机参数反映的患者的生理状态，定义13个指标作为智能体的状态，定义5个可调整的呼吸机参数作为智能体在每一状态下的动作，该些参数的调整可影响患者的通气和氧合状态；

所述13个指标包括体重、碳酸氢盐、体温、乳酸、动脉血酸碱度、动脉血压收缩压、动脉血压舒张压、动脉血氧饱含度、动脉血压平均值、吸气压力峰值、动脉血二氧化碳分压、平均气道压和平台压；

所述5个可调整的呼吸机参数可包括吸入气氧的浓度、呼吸末正压、潮气量、呼吸频率和氧气流量；

所述奖励函数r为：其中，x表示实时获取患者的13个生理指标中的动脉血氧饱含度的值。

具体地，在所述呼吸机参数优化模块内设有一噪声网络，通过该噪声网络对所述呼吸机参数获取模块获取的呼吸机参数进行优化。

具体地，所述呼吸机参数评估模块内还设有预先训练得到的深度确定性策略梯度算法，通过该深度确定性策略梯度算法分别计算呼吸机参数获取模块获取的呼吸机参数的效果和预先通过权威专家得到的呼吸机参数的效果，并计算二者之间的曼哈顿距离作为评估指标，以对所获取的呼吸机参数进行评估。

一种应用前述呼吸机参数获取系统的使用方法，包括步骤：

S1、呼吸机参数获取模块采用马尔可夫决策过程构建呼吸机参数获取决策模型；

S2、动作策略获取模块基于S1构建的呼吸机参数获取决策模型构建策略优化模型，据此寻找一使得累计奖励最大化的动作策略；

S3、基于S1的呼吸机参数获取决策模型和S2的动作策略获取呼吸机参数。

具体地，所述S2中，还包括对构建的策略优化模型进行优化的步骤：

采用设定的损失函数对所述策略优化模型输出的智能体在每一状态下的动作策略进行优化，设定的损失函数由重构损失和KL散度损失两部分组成；

通过最小化所述损失函数，对所述策略优化模型中的编码器网络和解码器网络的网络参数进行优化，得到最终的策略优化模型。

具体地，所述S3中，在获取得到呼吸机参数后，还引入一噪声网络进行进一步优化，具体为其中，/>为噪声网络/>的网络参数，/>为随机噪声因子，U表示概率分布中的均匀分布；

采用神经网络Q_θ拟合智能体在当前状态s的状态-动作值Q(s,a)，其中，θ表示神经网络Q_θ的网络参数；定义噪声网络的损失函数为据此寻找得到使得该噪声网络的损失函数最小时对应的噪声网络的网络参数/>

引入目标网络和Q_θ′计算下一时刻的状态-动作值和呼吸机参数，其中，/>和θ′的通过复制前述得到的网络参数/>和θ完成更新；

采用时间差分误差作为神经网络Q_θ的损失函数，由此寻找得到使得该损失函数最小时对应的神经网络Q_θ的网络参数θ，进而通过前述噪声网络的损失函数进一步优化噪声网络的网络参数据此得到最终的动作策略，进而获取对应的呼吸机参数；

其中，时间差分误差如下：

L(θ)＝(Q_θ(s,a)-Q_targ)^1/2

其中，r(s,a)表示智能体在状态s时对应的奖励函数值。

具体地，在获取得到呼吸机参数后，还包括对所述获取的呼吸机参数进行评估的步骤，如下：

提前训练一深度确定性策略梯度算法，根据所述深度确定性策略梯度算法结合患者的状态和所述获取的呼吸机参数计算对应的效果，计算该效果与预先通过权威专家得到的呼吸机参数对应的效果之间的曼哈顿距离，将其作为评估指标，对所述获取的呼吸机参数进行评估。

有益效果：本发明采用强化学习，使得获取的呼吸机参数不仅考虑了当前的治疗效果，还对对患者未来的治疗效果产生的影响，这是非强化学习方法所不具备的优势。此外，本发明使用专家权威方案与获取的呼吸机参数进行比较，提高了该方法的安全性能。

附图说明

图1为本发明的呼吸机参数获取系统的架构图；

图2为本发明的呼吸机参数获取系统的使用方法的流程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

本发明的呼吸机参数获取系统如图1所示，包括动作策略获取模块、呼吸机参数获取模块、呼吸机参数优化模块及呼吸机参数评估模块。其中，动作策略获取模块内设有策略优化模型，该策略优化模型通过变分自编码器学习进行构建，包括编码器网络和解码器网络，编码器网络的输入包括智能体的状态和在对应状态下的动作两部分，输出为隐变量；解码器网络的输入包括编码器网络输出的隐变量和智能体的状态，输出为在对应状态下的动作的重构，由此得到智能体在每一状态下的动作策略。

呼吸机参数获取模块内设有采用马尔可夫决策过程构建的呼吸机参数获取决策模型，其中，针对不同的呼吸机参数反映的患者的生理状态，定义若干个指标作为智能体的状态，定义若干个可调整的呼吸机参数作为智能体在每一状态下的动作，该些参数的调整能够影响患者的通气和氧合状态；设置对应的奖励函数，呼吸机参数获取模块基于其内的呼吸机参数获取决策模型，结合动作策略获取模块内策略优化模型获取的动作策略获取得到呼吸机参数。

呼吸机参数优化模块内设有一噪声网络，通过该噪声网络对呼吸机参数获取模块获取的呼吸机参数进行优化。

呼吸机参数评估模块内设有预先训练得到的深度确定性策略梯度算法，通过该深度确定性策略梯度算法分别计算呼吸机参数获取模块获取的呼吸机参数的效果和预先通过权威专家得到的呼吸机参数的效果，并计算二者之间的曼哈顿距离作为评估指标，以对本发明的呼吸机参数获取系统所获取的呼吸机参数进行评估，评估指标越小，表示两方案相差较小，安全性越高。

本发明还提供一种呼吸机参数获取系统的使用方法，如图2所示，包括如下步骤：

本发明中，呼吸机参数获取模块采用马尔可夫决策过程(Markov DecisionProcess,MDP)构建呼吸机参数获取决策模型。马尔可夫决策过程可表示为M，M＝(S,A,r,P,γ)；其中，S表示状态空间，其中，针对不同的呼吸机参数反映的患者的生理状态，可以设定若干智能体的状态；A表示动作空间，其中，针对不同的呼吸机参数反映的患者的生理状态，可以设定智能体在某一状态s下可能存在的若干动作a，智能体在某一状态s下经某一动作后得到状态s′的概率为P(s′|s,a)；r表示奖励函数，P表示状态转移函数；γ表示折扣系数，用于计算累计奖励，γ∈(0,1)；则通过状态-动作值函数Q可得智能体在状态s的状态-动作值Q(s,a)。

在本发明具体实施例中，在呼吸机参数获取中，根据患者的生理状态，智能体，即本发明中的呼吸机参数，针对不同的呼吸机参数反映的患者的生理状态，本发明的状态空间S定义有13个指标作为智能体的状态，具体地，实时获取患者的13个生理指标，将其作为智能体的状态；本发明的动作空间A定义有5个可调整的呼吸机参数作为智能体在每一状态下的动作，该些参数的调整能够影响患者的通气和氧合状态。

本发明中，13个指标可包括体重、碳酸氢盐、体温、乳酸、动脉血酸碱度、动脉血压收缩压、动脉血压舒张压、动脉血氧饱含度、动脉血压平均值、吸气压力峰值、动脉血二氧化碳分压、平均气道压和平台压。5个可调整的呼吸机参数可包括吸入气氧的浓度、呼吸末正压、潮气量、呼吸频率和氧气流量。本发明中，呼吸机参数调整主要基于临床上的血气分析，故奖励函数r可设计为：

含度的值。

本发明中，可针对不同情况下设置不同的指标和可调整的呼吸机参数。

S2、基于S1构建的呼吸机参数获取决策模型构建策略优化模型，据此寻找一使得累计奖励最大化的动作策略；

为了使智能体掌握患者的生理状态与呼吸机参数之间的隐含关系，本发明引入变分自编码器学习，据此构建策略优化模型，以此来寻找智能体在每一状态下的动作策略；

策略优化模型由编码器网络D_d和解码器网络E_e组成，d和e分别表示对应的网络参数。具体地，本发明中的编码器网络D_d和解码器网络E_e可采用多层感知器。

编码器网络D_d的输入包括智能体的状态s和在对应状态s下的动作a两部分，输出为隐变量z，可表示为：D_d＝(z|s,a)，其中，隐变量z符合正态分布，正态分布表示为N(μ,σ²)；解码器网络E_e的输入包括编码器网络D_d输出的隐变量z和智能体的状态s，输出为在对应状态s下的动作a的重构a′，可表示为：E_e＝(a′|s,z)；由此得到智能体在每一状态下的动作。

本发明中，解码器网络E_e将智能体的状态s作为输入，有助于智能体在后续的离线背景进行合理的探索，可以获取医生设置的呼吸机参数与患者生理指标之间的关系，在遇到新的患者，通过该解码器网络可以根据前述关系进行仿真，以获取更准确的呼吸机参数。

本发明采用设定的损失函数L(d,e)对前述策略优化模型输出的智能体在每一状态下的动作策略进行优化，设定的损失函数由重构损失和KL散度损失两部分组成，其中，重构损失衡量重构动作与原始动作之间的差异，KL散度损失衡量隐变量与先验分布(也即标准的正态分布)之间的偏离程度，其中标准的正态分布中，μ＝0，σ＝1；具体如下：

L(d,e)＝D_KL(N(μ,σ²)∥N(0,1²))+|a-a′|

其中，D_KL(N(μ,σ²)∥N(0,1²))表示两个分布N(μ,σ²)和N(0,1²)之间的KL散度；|a-a′|表示重构损失。

通过最小化损失函数L(d,e)，对策略优化模型中的编码器网络D_d和解码器网络E_e的网络参数进行优化，得到最终的策略优化模型，通过该策略优化模型寻找一使得累计奖励最大化的动作策略，使其能够了解患者的生理状态与呼吸机参数之间的关联性，准确获取两者之间映射关系，为后续智能体推荐奠定基础。S3、基于S1的呼吸机参数获取决策模型和S2的动作策略获取呼吸机参数；

根据S1构建的呼吸机参数获取决策模型和S2构建的动作策略即可实时获取得到呼吸机参数，并据此对呼吸机参数进行调整；

寻找一使得累计奖励最大化的动作策略Z＝{π(1),π(2),...,π(i),...}，其中，π(i)表示第i次动作；则在此动作策略下累计奖励表示为：其中，s_i、a_i分别表示第i次动作时的状态和动作，rⁱ表示第i次动作计算得到的奖励函数值。

在本发明中，在获取得到呼吸机参数后还可引入一噪声网络进行进一步优化，避免智能体陷入局部最优解，并使其能够探索更广泛的呼吸机参数空间，从而寻找得到安全性更高、治疗效果更好的呼吸机参数；

噪声网络可表示为：/>其中，/>为噪声网络/>的网络参数，/>为随机噪声因子，/>U表示概率分布中的均匀分布，也即对于智能体在状态s时，对其对应的动作策略加入前述噪声/>则可得到扰动后的的第i次动作策略/>

其中，的大小决定智能体能够探索的呼吸机参数空间。

采用神经网络Q_θ拟合智能体在当前状态s的状态-动作值Q(s,a)，其中，θ表示神经网络Q_θ的网络参数；为了使状态-动作值变高，定义噪声网络的损失函数为从而可以寻找得到使得该噪声网络的损失函数最小时对应的噪声网络的网络参数/>为了抑制Q_θ值高估现象发生，引入目标网络/>和Q_θ′计算下一时刻的状态-动作值和呼吸机参数，其中，/>和θ′的通过复制前述优化后的的噪声网络/>的网络参数/>和神经网络Q_θ的网络参数θ完成更新；

采用时间差分(temporal difference,TD)误差作为神经网络Q_θ的损失函数，其中，时间差分误差如下：

L(θ)＝(Q_θ(s,a)-Q_targ)^1/2

其中，r(s,a)表示智能体在状态s时对应的奖励函数值；

由此可以寻找得到使得该神经网络Q_θ的损失函数最小时对应的神经网络Q_θ的网络参数θ，进而可以通过前述的噪声网络的损失函数进一步优化噪声网络的网络参数从而可以据此得到最终的动作策略，进而获取对应的呼吸机参数。

S4、对S3得到的呼吸机参数进行评估；

提前训练一深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)，根据训练好的深度确定性策略梯度算法结合患者的状态和前述获取的呼吸机参数计算对应的效果q(s,a)，q(s,a)越大，表示效果越好。根据专家经验评估呼吸机的安全性，具体而言，将前述的呼吸机参数与预先通过权威专家得到的呼吸机参数对比，分别用两者获取的呼吸机参数及其对应的患者的状态计算二者对应的效果q(s,a)之间的曼哈顿距离，将其作为评估指标，对所述获取的呼吸机参数进行评估，具体地，w＝|q₁-q₂|，w越小，表示两方案相差较小，安全性越高。

本发明采用强化学习，使得获取的呼吸机参数不仅考虑了当前的效果，还对对患者未来的效果产生的影响，这是非强化学习方法所不具备的优势。此外，本发明使用专家权威方案与获取的呼吸机参数进行比较，提高了该方法的安全性能。

以上详细描述了本发明的优选实施方式，但是本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换(如数量、形状、位置等)，这些等同变换均属于本发明的保护范围。

Claims

1.一种呼吸机参数获取系统，其特征在于，包括：

2.根据权利要求1所述的呼吸机参数获取系统，其特征在于，所述策略优化模型包括编码器网络和解码器网络，编码器网络的输入包括智能体的状态和在对应状态下的动作两部分，输出为隐变量；解码器网络的输入包括编码器网络输出的隐变量和智能体的状态，输出为在对应状态下的动作的重构，由此得到智能体在每一状态下的动作策略。

3.根据权利要求1所述的呼吸机参数获取系统，其特征在于，所述呼吸机参数获取决策模型针对不同的呼吸机参数反映的患者的生理状态，定义若干个指标作为智能体的状态，定义若干个可调整的呼吸机参数作为智能体在每一状态下的动作，设置对应的奖励函数，并结合动作策略获取模块内策略优化模型获取的动作策略获取得到呼吸机参数。

4.根据权利要求3所述的呼吸机参数获取系统，其特征在于，针对不同的呼吸机参数反映的患者的生理状态，定义13个指标作为智能体的状态，定义5个可调整的呼吸机参数作为智能体在每一状态下的动作，该些参数的调整可影响患者的通气和氧合状态；

5.根据权利要求1所述的呼吸机参数获取系统，其特征在于，在所述呼吸机参数优化模块内设有一噪声网络，通过该噪声网络对所述呼吸机参数获取模块获取的呼吸机参数进行优化。

6.根据权利要求1所述的呼吸机参数获取系统，其特征在于，所述呼吸机参数评估模块内还设有预先训练得到的深度确定性策略梯度算法，通过该深度确定性策略梯度算法分别计算呼吸机参数获取模块获取的呼吸机参数的效果和预先通过权威专家得到的呼吸机参数的效果，并计算二者之间的曼哈顿距离作为评估指标，以对所获取的呼吸机参数进行评估。

7.一种应用权利要求1～6任一所述的呼吸机参数获取系统的使用方法，其特征在于，包括步骤：

8.根据权利要求7所述的使用方法，其特征在于，所述S2中，还包括对构建的策略优化模型进行优化的步骤：

9.根据权利要求7所述的使用方法，其特征在于，所述S3中，在获取得到呼吸机参数后，还引入一噪声网络进行进一步优化，具体为其中，/>为噪声网络/>的网络参数，为随机噪声因子，/>U表示概率分布中的均匀分布；

其中，时间差分误差如下：

L(θ)＝(Q_θ(s,a)-Q_targ)^1/2

其中，r(s,a)表示智能体在状态s时对应的奖励函数值。

10.根据权利要求7所述的使用方法，其特征在于，在获取得到呼吸机参数后，还包括对所述获取的呼吸机参数进行评估的步骤，如下：