CN114496235B

CN114496235B - 一种基于深度强化学习的血透患者干体重辅助调节系统

Info

Publication number: CN114496235B
Application number: CN202210404618.9A
Authority: CN
Inventors: 李劲松; 杨子玥; 田雨; 周天舒
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-19
Anticipated expiration: 2042-04-18
Also published as: WO2023202500A1; CN114496235A

Abstract

本发明公开了一种基于深度强化学习的血透患者干体重辅助调节系统，该系统包括数据采集模块、数据处理模块、策略学习模块和辅助决策模块；本发明利用深度强化学习技术，构建有竞争构架的深度双Q网络（Dueling DDQN网络）作为代理，模拟医生调节血透患者干体重的过程，智能化地学习血透患者干体重调节的策略。本发明将血透患者的干体重调节过程建模为部分观察的马尔科夫过程，为不同的透析时期定义各自的状态空间和动作空间，设计包含长期生存奖励和短期透析副反应惩罚的奖励函数；通过代理与患者状态的交互学习，得到使得总体奖励最大化的干体重调节策略，从而辅助医生进行患者干体重的长程管理。

Description

一种基于深度强化学习的血透患者干体重辅助调节系统

技术领域

本发明属于医疗及机器学习技术领域，具体地，涉及一种基于深度强化学习的血透患者干体重辅助调节系统。

背景技术

在世界范围内，终末期肾病患者的数量都在显著增加。由于供肾资源短缺，大部人患者依赖于血液透析（血透）治疗维持生命。终末期肾病患者发生感染、心脑血管等疾病的风险远高于正常人群，生存状况远不如普通人群，终末期肾病已经成为医疗保健系统的巨大负担。血透的主要目标是通过超滤(UF)校正体液的成分和体积，实现体液平衡，而干体重是确定血透疗程的超滤量的关键指标。干体重是任何一个透析处方中最基本的组成部分之一，临床上被确定为在没有明显液体超负荷的情况下无透析中不良症状和低血压的最低耐受透析后体重。准确地评估干体重对于血透患者的生存预后至关重要，不准确的估计会对患者生存状况带来很大的负面影响。高估患者干体重会导致慢性体液超负荷，并可能通过诱发水肿、肺充血、高血压以及血管和心脏损伤；低估患者干体重会导致慢性脱水、痉挛等透析副反应，增加透析性低血压的风险，还会导致残余肾功能(RRF)的丧失。

现有的干体重评估技术无法实现对血液透析患者干体重的精准的、动态的评估。在临床实践中，医生一般根据透析前、透析中、透析后的临床表现结合一段时间内的体格检查来评估患者干体重。这是一种反复试验、调整试错的方法，通过逐渐改变患者透析后体重和观察患者透析表现来实现。然而，有证据表明，利用传统的体征（如外周水肿、肺部听诊和血压）评估干体重并不可靠。因此，近年来，新的技术也在不断涌现。例如，生物电阻抗分析(BIA)是一种辅助评估确定干体重的无创而简单的技术；相对血浆体积(RPV)监测已被验证为干体重的标志物之一；肺部超声成为一种新兴的指导干体重的技术。然而，这些方法都不能作为评估干体重的黄金标准。此外，由于患者营养状况或潜在疾病的不确定性，干体重经常会出现波动，因此必须进行持续不断的再评估。然而，由于日常工作量大，临床医生可能无法及时注意到这些患者的变化，导致延迟甚至错过干体重调整。现有研究只能评估某个时间点的患者水合状态，从而估计干体重，不能帮助临床医生检测干体重的时序性的潜在变化。

另一方面，临床现有的干体重决策过程高度依赖于临床医师的经验和精力。由于缺乏精标准，干体重的值无法通过某几个患者特征计算得到，需要评估许多相关的患者临床表现综合得出。因此，在临床这样高数据密度的环境中，临床医师必须审查大量的患者特征数据来评估或监控干体重，从而导致干体重的决策过程复杂、费时费力。这也使得血透治疗的效果与主治医生的经验和医学知识密切相关，加重了区域医疗资源分布的不平衡。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于深度强化学习的血透患者干体重辅助调节系统，以动态地支持临床医生确定个性化的血透患者干体重调整方案。

本发明的目的是通过以下技术方案来实现的：一种基于深度强化学习的血透患者干体重辅助调节系统，该系统包括数据采集模块、数据处理模块、策略学习模块和辅助决策模块；

所述数据采集模块用于采集血透患者透析诱导期和透析稳定期的医疗电子病历数据，并输入到数据处理模块；

所述数据处理模块用于对数据采集模块采集的数据进行处理，包括状态空间的构建和动作空间的构建；状态代表患者透析疗程中经过时序编码后的临床变量，动作代表相比于上一次透析疗程的干体重，当前干体重应该调整的值；

所述策略学习模块用于设置深度强化学习的奖励函数，所述奖励函数为每个状态的即时奖励，由患者的长期生存概率的奖励和患者当前的透析中症状的惩罚构成，并基于数据处理模块构建的状态空间和动作空间进行深度强化学习，得到干体重调整策略；

所述辅助决策模块用于将干体重调整策略进行可视化输出，辅助医师决策。

进一步地，对于透析诱导期的患者，数据采集模块每次透析疗程均进行数据采集；对于透析稳定期的患者，数据采集模块每4次透析疗程进行一次数据采集。

进一步地，每个透析疗程的数据包括四类临床变量：上一次透析疗程的透析中测量变量、上一次透析疗程的透析后测量变量、以及此次透析疗程的透析前测量变量和此次透析疗程的患者人口统计学指标。

进一步地，对于透析稳定期的患者，根据采集的临床变量的不同，数据采集模块采集记录的临床变量值为这4次透析疗程中对应临床变量值的平均值或总和。

进一步地，数据处理模块首先对数据采集模块采集的数据进行预处理，利用多重插补的方式对缺失临床变量数据进行插值处理，使用Min-Max归一化方法对临床变量数据进行归一化处理，之后利用预处理后的数据进行状态空间的构建。

进一步地，数据处理模块利用一个长短期记忆网络的自编码器对预处理后的临床变量数据进行时序编码处理；长短期记忆网络的自编码器经过训练优化，最小化原始输入和解码输出之间的重建损失，其编码器和解码器部分均是由一个单层、包含128个单元的长短期记忆网络组成，所述状态空间的构建采用长短期记忆网络的自编码器循环编码患者采集的临床变量，并为每个患者的每一个透析疗程时间输出一个代表临床变量的状态。

进一步地，数据处理模块进行动作空间构建时，采用后向插值的方式，填充每次透析疗程中医师的推荐干体重值，计算患者本次透析疗程的干体重相较于上一次透析疗程的干体重的变化量，并进行了离散化处理。

进一步地，策略学习模块中，奖励函数的一部分通过多层感知机网络来预测患者在对应状态下一年内死亡的概率，奖励回报被设置为概率的负对数赔率；奖励函数的另一部分为对透析中发生副反应症状的处罚，处罚随着不同的透析中症状和严重程度而变化。

进一步地，策略学习模块中，构建有经验回放池并采用深度双Q网络进行深度强化学习，经验回放是指将每次和环境交互得到的奖励与状态更新情况保存起来，用于之后深度强化学习过程中目标Q值的更新。

进一步地，所述辅助决策模块中，医师能够设置评估阈值，低于此阈值的调整将由护士直接评估并选择性执行，高于此阈值的调整由医师评估并选择性执行，实现对干体重调整决策的辅助支持。

本发明的有益效果是：本发明将干体重评估的重要临床问题建模为干体重调整的时序决策问题；结合临床知识和医师经验，为干体重调整过程构建了针对性的奖励函数，同时反映患者的长期生存奖励和短期的透析不良症状反映惩罚；利用强化学习智能体-带竞争构架的深度双Q网络充分利用时序电子病历数据学习最佳干体重调整策略；可以减轻医师工作量，可以在评估患者干体重时综合考虑到更多的患者特征变量，帮助医师平衡短期利益和长期利益，为患者定制个性化的干体重调整方案。由于透析治疗的效果在患者群体中存在很大的异质性，因此患者很有可能受益于更个性化、更智能的调整方案，从而提高长期生存率、降低透析副反应的发生率，提高透析疗程的治疗效果。

附图说明

图1为本发明基于深度强化学习的血透患者干体重辅助调节系统结构框图。

图2为本发明数据采集模块中数据重构过程示意图。

图3为本发明根据马尔可夫决策过程对干体重的调整过程的建模示意图。

图4为本发明策略学习模块的整体架构图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

强化学习是人工智能领域的热门研究方向，它基于一个与环境的不断交互的代理智能体，目标是找到一个最优策略来最大化预期的累积奖励。近年来，随着海量医疗电子病历数据的利用和新型机器学习技术的发展，强化学习已经被引入医疗保健领域，并在许多时序决策问题中发挥着越来越重要的作用，例如用于糖尿病患者的血糖控制、脓毒症患者的治疗、机械通气设置等问题。然而，迄今为止，强化学习技术尚未用来支持临床医生评估血液透析患者的干体重。

本发明利用马尔可夫决策过程框架将干体重评估过程建模为时序决策过程，为不同的透析时期定义各自的状态空间和动作空间，并设计了一个结合临床背景知识的奖励系统；本发明构建了一个基于竞争构架的深度双Q网络（Dueling-DQN）从历史电子病历数据中学习最佳的干体重调整策略，从而为肾病医师提供干体重调节的临床决策支持建议，辅助医师进行患者体重的长程管理。

如图1所示，本发明提供的一种基于深度强化学习的血透患者干体重辅助调节系统，该系统包括：用于采集血透患者医疗电子病历数据的数据采集模块、用于对原始数据进行处理的数据处理模块、用于深度强化学习智能体的策略学习模块；用于可视化输出、与医师交互的辅助决策模块。

所述数据采集模块的处理过程具体为：从医疗电子病历系统中采集患者的临床数据，包括人口统计学、实验室值、透析参数、透析症状等相关临床特征。考虑到在临床实践中，干体重的评价发生在每次透析疗程中测量完透析前变量之后、真正利用透析仪器开始透析之前，因此，本发明在数据采集时对采集的时间窗口进行了限定，也即对每条透析疗程的数据进行重构。每个透析疗程的数据包括四类临床变量：上一次透析疗程的透析中测量变量、上一次透析疗程的透析后测量变量、以及此次透析疗程的透析前测量变量、此次透析疗程的患者人口统计学指标（如图2所示）。

本发明对透析诱导期（透析开始的前三个月）和透析稳定期（透析开始的三个月以后）的数据进行分别处理和建模。对于透析诱导期的患者，本发明每次透析疗程均进行数据采集；对于透析稳定期的患者，本发明每4次透析疗程进行一次数据采集，采集记录的临床变量值为这4次透析疗程中对应临床变量值的平均值（例如，年龄）或总和（例如，不良透析症状的发生次数）。

所述数据处理模块的处理过程包括两部分：

1)状态空间的构建

2)动作空间的构建

1)如图3所示，干体重的调整过程建模是一个时序决策过程，本发明根据马尔可夫决策过程（MDP）对此过程进行了建模描述。马尔科夫决策过程由元组 (S, A, T, R, π) 描述，其中S表示状态空间，A表示动作空间，T表示不同状态之间的转换概率分布，R表示奖励函数，π表示策略，即从状态空间到动作空间的映射。在每一个时间步t，智能体可以观察到一个状态

，并根据策略π选择一个动作

，此为动作选择过程。接着，智能体根据奖励函数R收到与其动作选择相关的奖励

，此为奖励反应过程。最后，环境根据状态转换概率分布T，响应智能体的动作改变至下一个状态

。在本发明中，状态𝑆代表时序编码后的患者透析疗程的临床变量，动作𝐴代表相比于上一次透析疗程的干体重，当前干体重应该调整的值（增加或减少的值）。由于临床环境复杂，难以准确建模状态转换的概率分布，因此本发明设定状态转换概率分布T未知。智能体在奖励函数R的指导下，根据历史回顾性数据对未知复杂环境学习并输出最佳的动作选择策略π。状态空间的构建

利用多重插补的方式对缺失临床变量数据进行插值处理；使用Min-Max归一化方法对特征矩阵进行了归一化处理，方便后续深度模型的学习和优化。由于干体重调整过程实际上为部分可观察马尔可夫决策过程（POMDP），也即状态转换动力学和奖励分配不满足马尔可夫性质（当前状态所包含的信息是确定未来状态的分布概率所需的全部内容），本发明利用一个长短期记忆网络的自编码器对患者采集的临床数据进行了时序编码处理。长短期记忆网络的自编码器经过训练优化，最小化原始输入和解码输出之间的重建损失，其编码器和解码器部分都是由一个单层、包含128个单元的长短期记忆网络组成。此长短期记忆网络的自编码器循环编码患者采集的临床观察结果，并为每个患者i的每一个透析疗程时间t输出一个状态

。

其中，i代表患者，

表示采集的患者第t个透析疗程的临床观察特征向量，t表示透析疗程时间，s表示马尔科夫过程的状态，f表示训练好的长短期记忆网络的编码器。

2)动作空间的构建

考虑到临床上干体重的临床推荐值被认为保持不变，直到医生为患者开了新的透析处方，所以本发明采用后向插值的方式，填充了每次透析疗程中医师的推荐干体重值；本发明计算了患者本次透析疗程的干体重相较于上一次透析时干体重的变化量，并进行了离散化处理。

离散化处理是指将干体重调整范围限定在某一个区间范围内，等调整间隔划分为不同调整动作，采用透析疗程中医生对干体重的调整连续值最相近的动作作为离散化后的干体重调整动作（透析疗程的干体重相较于上一次透析时干体重的变化量）。

本发明为透析诱导期（透析开始的前三个月）和透析稳定期（透析开始的三个月以后）构建了特定的动作空间，具体如表1所示。

表1. 不同透析时期干体重调整频率比较和动作空间构建

所述深度强化学习智能体的策略学习模块的处理过程包括三部分：

1)经验回放

2)学习奖励函数

3)深度Q网络学习干体重调整策略

如图4所示，本发明所述深度强化学习智能体的策略学习模块核心是采用基于竞争构架的深度双Q网络（DDQN with a dueling structure）。深度双Q网络（DDQN）和基于竞争构架Q网络（Dueling-DQN）都是DQN的改进版本，前者是对DQN训练算法的改进，后者是对 DQN模型结构的改进，本发明同时采用了这两种改进。而DQN算法是对Q-learning算法的改进，Q-learning算法采用一个Q-tabel来记录每个状态下的动作值，当状态空间或动作空间较大时，需要的存储空间也会较大。如果状态空间或动作空间连续，则Q-learning算法无法使用。而DQN算法的核心就是用一个人工神经网络

来代替Q-tabel，即动作价值函数。动作价值网络的输入为状态信息，输出为每个动作的价值，智能体根据每个动作的价值选择采用的动作。

1)经验回放池的构建

经验回放是指将每次和环境交互得到的奖励与状态更新情况都保存起来，用于之后目标Q值的更新，可以打乱样本关联性，提高样本利用率，从而提高DQN训练的稳定性。经验回放主要有“存储”和“回放”两大关键步骤：存储是指将经验以当前状态

、动作

、即时奖励

、下个状态

、回合状态

形式存储在经验池中，回放是指按照一定规则从经验池中采样一条或多条经验数据。本发明采用优先经验回放的方式，即为经验池中每条经验指定一个优先级，在采样经验时更倾向于选择优先级更高的经验。优先级取决于每个状态转换的当前Q值与目标Q值的差距（时间差异误差，TD-error），如果TD-error越大, 就代表Q网络预测精度还有很多上升空间, 那么这个样本就越需要被学习, 也就是优先级越高。

2)奖励函数的学习

奖励函数是从给定状态-动作对的环境中观察到的反馈。强化学习智能体的主要目标是在给定患者状态-动作轨迹的情况下最大化状态-动作对的累积奖励，因此奖励函数的设计对于强化学习智能体的学习至关重要。

很自然地想到将患者的生存作为奖励的触发条件。例如，代理会因患者死亡而获得负回报，而因患者存活而获得正回报。然而，由于血透患者的透析治疗可能会持续数年，因此患者的轨迹会很长。如果仅响应患者结果事件，奖励将非常稀疏，会阻碍强化学习智能体的学习和更新过程。

因此，在本发明中，奖励函数被设置为即时响应患者轨迹中的每个状态。具体地，奖励包括两部分：一部分反映患者的长期生存概率

，另一部分反映患者当前的透析中症状

。为了获得生存奖励，本发明训练了一个多层感知机(MLP)网络来预测患者在该状态下一年内死亡的概率。奖励回报被设置为概率的负对数赔率。一般来说，一年内的死亡状态得分为负，生存状态得分为正。

其中

表示奖励函数中的生存奖励部分；

表示多层感知机所预测的患者在状态s下一年内死亡的概率。

奖励的另一部分为对透析中发生副反应的处罚，记为

。处罚随着不同的透析中症状和严重程度而变化。根据实际的临场表现，发热、失衡综合征、脑出血和脑梗塞扣分1 分，而头痛、肌肉痉挛、腹痛、透析中低血压和透析中高血压扣分2分。

总的奖励函数

为患者生存奖励与透析中副反应处罚之和。

3)深度Q网络的策略学习

本发明训练并优化了一个基于竞争构架的深度双Q网络（Dueling DDQN），通过反复试验调整干体重处理策略来最大化预测奖励的整体回报。Dueling DDQN 的损失函数分为两部分：一是时间差异误差(TD-error)，反映当前Q值与目标Q值的差距；二是一个正则化项来惩罚超出合理阈值

的输出Q值，以提高模型稳定性。以下公式表示本发明训练并优化基于竞争构架的深度双Q网络的损失函数：

其中，

为本发明基于竞争构架的深度双Q网络最终要学习的损失函数，

为时间差异误差，

是优先经验回放的重要性采样权重；

是深度双Q网络中的主网络，

是深度双Q网络中的目标网络，

是主网络的参数，

是目标网络的参数；

是折扣系数，取0到1之间的一个值，

值越高，表示智能体更加关注未来的奖励，而不是当前时刻的奖励；s表示状态，a表示动作，r表示奖励，E表示期望，

表示正则化项系数，取0 到1之间的一个值，

表示第t+1的透析疗程下的奖励，

表示第t个透析疗程的状态，

表示第t个透析疗程的动作。

本发明中奖励函数的特别设计有效提高了深度Q网络的策略学习效率。不同于一般的延迟性的生存奖励（在患者轨迹的终点根据患者生存或者死亡进行相应奖励或处罚），本发明中的奖励函数为即时奖励，也即轨迹的每个状态都会对智能体赋予奖励。奖励函数中的生存奖励部分

通过一个生存预测器将位于患者轨迹终点的生存奖励提前且分散地发放于患者轨迹的每个状态。另一方面，奖励函数中的透析中副反应处罚部分

将每个透析状态中患者对透析疗程的即时反馈纳入奖励中，模仿了医生根据患者临床表现调整干体重的行为，使得智能体学习得到的策略不仅有望提高患者生存情况，也能够减少患者的透析内不良反应，减少透析患者的生理痛苦，提高透析疗程的治疗效果。奖励决定了智能体行动的目标，因此即时奖励相比于延迟奖励能够更好地、更及时地指导智能体的行为，相应的损失函数更容易被学习和优化，提高了智能体的学习效率。

最终，深度Q网络将学习到一个价值函数Q网络，实现把不同的状态和动作映射到不同的Q值，从而可以根据此映射为不同透析疗程的状态选择不同的干体重调整动作，最终形成智能体推荐的干体重调整策略。

所述用于可视化输出、与医师交互的辅助决策模块具体为：针对患者的不同透析疗程状态，强化学习智能体将为其推荐最佳干体重调整值。医师可以设置评估阈值（如0.2kg），低于此阈值的调整将由护士直接评估并选择性执行，高于此阈值的调整由医师评估并选择性执行，实现对医师干体重调整决策的辅助支持。系统将记录每次透析疗程中智能体的推荐值、医师是否接受智能体的建议、以及医师执行的干体重调整值，定期评估患者的透析充分性，利用可视化图表的形式反馈给医师和算法工程师，以便后续对模型进行更新和优化。

本发明的一个具体实例如下：

本实施例使用某三甲医院接受持续、定期血液透析治疗的维持性血透患者的电子病历数据进行研究，对于透析诱导期和透析稳定期的数据分别划分为三个数据集：训练集（60%），验证集（20%），以及测试集（10%）。训练集的数据用于训练深度强化学习智能体模型，验证集的数据用于调整优化参数，测试集用于测试模型的性能。在测试集上，本发明采用有放回多次采样的方式（bootstrap）得到性能指标的置信区间。除了医生实施的策略、本发明智能体学习得到的策略，本实施例增加了随机策略和K近邻策略对比评估模型有效性，其中K近邻策略是指根据K个最相似的状态投票选择将采取的动作。本发明采用异策略评估方法中的加权双鲁棒（weighted double robust，WDR）估计器评估不同策略的价值，结果如表2和表3所示。

表2. 透析诱导期内不同策略的策略价值结果比较

表3. 透析稳定期内不同策略的策略价值结果比较

由结果可知，本发明利用深度强化学习智能体学习得到的干体重调整策略相比于其他策略取得了最佳效果。值得注意的是，本发明智能体学习得到的策略在应用于透析诱导期时相比于现有的临床医师策略，预计可以将血透患者5 年死亡率降低9.47%，将血透患者3 年死亡率降低7.99%，将透析不良反应发生率降低8.44%，将透析中收缩血的变异系数降低4.76%，且具有统计显著性。因此，本发明有望实现血透患者干体重的动态智能调整，有望明显改善血透患者的透析治疗效果和长期生存情况。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，该系统包括数据采集模块、数据处理模块、策略学习模块和辅助决策模块；

2.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，对于透析诱导期的患者，数据采集模块每次透析疗程均进行数据采集；对于透析稳定期的患者，数据采集模块每4次透析疗程进行一次数据采集。

3.根据权利要求2所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，每个透析疗程的数据包括四类临床变量：上一次透析疗程的透析中测量变量、上一次透析疗程的透析后测量变量、以及此次透析疗程的透析前测量变量和此次透析疗程的患者人口统计学指标。

4.根据权利要求3所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，对于透析稳定期的患者，根据采集的临床变量的不同，数据采集模块采集记录的临床变量值为4次透析疗程中对应临床变量值的平均值或总和。

5.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，数据处理模块首先对数据采集模块采集的数据进行预处理，利用多重插补的方式对缺失临床变量数据进行插值处理，使用Min-Max归一化方法对临床变量数据进行归一化处理，之后利用预处理后的数据进行状态空间的构建。

6.根据权利要求5所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，数据处理模块利用一个长短期记忆网络的自编码器对预处理后的临床变量数据进行时序编码处理；长短期记忆网络的自编码器经过训练优化，最小化原始输入和解码输出之间的重建损失，其编码器和解码器部分均是由一个单层、包含128个单元的长短期记忆网络组成，所述状态空间的构建采用长短期记忆网络的自编码器循环编码患者采集的临床变量，并为每个患者的每一个透析疗程时间输出一个代表临床变量的状态。

7.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，数据处理模块进行动作空间构建时，采用后向插值的方式，填充每次透析疗程中医师的推荐干体重值，计算患者本次透析疗程的干体重相较于上一次透析疗程的干体重的变化量，并进行了离散化处理。

8.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，策略学习模块中，奖励函数的一部分通过多层感知机网络来预测患者在对应状态下一年内死亡的概率，奖励回报被设置为概率的负对数赔率；奖励函数的另一部分为对透析中发生副反应症状的处罚，处罚随着不同的透析中症状和严重程度而变化。

9.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，策略学习模块中，构建有经验回放池并采用深度双Q网络进行深度强化学习，经验回放是指将每次和环境交互得到的奖励与状态更新情况保存起来，用于之后深度强化学习过程中目标Q值的更新。

10.根据权利要求1所述的一种基于深度强化学习的血透患者干体重辅助调节系统，其特征在于，所述辅助决策模块中，医师能够设置评估阈值，低于此阈值的调整将由护士直接评估并选择性执行，高于此阈值的调整由医师评估并选择性执行，实现对干体重调整决策的辅助支持。