CN112908445A

CN112908445A - 基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端

Info

Publication number: CN112908445A
Application number: CN202110193477.6A
Authority: CN
Inventors: 王从容; 王悦; 石易琦; 饶卫雄; 赵钦佩; 李江峰; 竺金浩
Original assignee: Shanghai Fourth People's Hospital
Current assignee: Shanghai Fourth People's Hospital
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-04

Abstract

本发明提供一种基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端；所述方法包括以下步骤：基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型；获取糖尿病患者的当前状态信息；将当前状态信息发送至训练好的决策网络模型，以使训练好的决策网络模型基于当前状态信息，确定下一未来时刻对应糖尿病患者的胰岛素注射量，实现对糖尿病患者的血糖管理；本发明基于糖尿病患者的历史血糖数据和未来的碳水化合物摄入量以强化学习算法来训练决策网络模型，从而实现从糖尿病患者历史的信息中利用到了碳水化合物和血糖变化之间的关系，达到了更好控制血糖的目的，能更好的适应碳水化合物摄入时间、摄入量不规律的情况。

Description

基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端

技术领域

本发明涉及物理领域，尤其涉及计量技术，特别是一种基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端。

背景技术

糖尿病已经成为了严重危害国民身体健康的慢性疾病之一，由于糖尿病本身是难以治愈的，并且相关的并发症会给患者带来严重的影响，因此糖尿病的治疗逐渐成了关注的重点。

人工胰腺是目前实现闭环控制糖尿病患者血糖的最好方法之一，它由三部分组成，持续性血糖监测装置(CGMS)，胰岛素泵和控制算法；其中，CGMS主要从患者处收集相关的血糖数据，控制算法根据CGMS获得的时间序列的数据，将这些数据输入到预设的算法中，从而控制胰岛素泵输出的胰岛素剂量，实现血糖的稳定控制，合理的控制算法能够使患者血糖尽可能的保持在正常区间和稳定，因此很多学者对控制算法进行了研究；传统的控制算法有比例-积分-控制(PID)、模型预测控制(MPC)、最优控制、模糊控制等，许多传统的控制算法也可被用于糖尿病血糖管理中。

最早的人工胰腺血糖闭环控制算法采用的是比例-积分-控制(PID)控制，Gianni等人利用PID方法通过合理设计当前时刻的血糖浓度和目标血糖浓度的偏差、偏差的积分以及血糖浓度的变化率，获得了不错的血糖控制效果；一些研究采用了模糊逻辑控制，例如Grant、Atlas等人，模糊逻辑控制利用了专家知识，算法按照某些制定好的模糊规则进行决策，它的这个特性是控制算法具有一定的鲁棒性，但是因为使用了模糊的概念，并未考虑到患者之间血糖-胰岛素动态存在差异，因此，在实用方面存在缺陷。

目前，广泛使用在人工胰腺血糖控制的算法是模型预测控制(MPC)算法，Kovatchev等人和Simone等人的研究都取得了积极的结果；Wang等人将MPC算法与迭代学习控制(1LC)算法结合起来，使胰岛素输注速率平滑变化，MPC算法基于过去的血糖浓度以及胰岛素输注数据，对患者未来的血糖水平进行预测，反过来计算得到当前最合适的胰岛素基础率。

除了传统的控制算法之外，基于深度学习的控制算法也逐渐得到了越来越多的关注，而强化学习就是基于深度学习的重要的控制算法之一，强化学习方法能通过与环境进行交互，持续的学习环境的特征，改进模型的效果，并且可以绕过对环境的建模过程，避免建模的误差，因为，也被逐渐用于建立血糖控制模型。

Daskalaki使用了基于Actor-Critic结构的强化学习模型，利用UVA/PADOVA系统，一个能生成可信T1DM患者数据的模拟器，生成的数据进行对Actor-Critic模型进行训练，使其能根据输入的患者各项数据，例如血糖值等，输出适合的胰岛素剂量；Patil等人使用了Q-learning的强化学习框架，在70个真实病人的数据上训练模型，并根据最终的血糖值是否在目标范围内来评估模型；Noori等人利用基于Sarsa的强化学习算法，通过Palumbomodel生成的3个模拟的糖尿病患者的数据，来训练一个糖尿病患者血糖控制方案模型，在输入离散型的胰岛素剂量和血糖值的情况下，输出下一时间段离散型的胰岛素剂量值；Oroojeni等人在强化学习模型中的主要参数，状态空间上做了创新；相比于之前的仅使用血糖值作为状态空间的方案，他们使用了离散形式的血糖值，患者体重和患者的运动情况作为模型的状态空间，使模型能利用糖尿病患者的更多有效信息，但也在一定程序上增加了模型的复杂性；Shifrin等人也在状态空间上做了创新，他们使用了离散型的血糖，葡萄糖吸收率和测量时间作为状态空间，是首个将测量时间加入状态空间的论文，他们在多个真实糖尿病患者数据集上训练模型，预测最优的胰岛素剂量策略。

在最新的研究中，Fox I等人提出了基于DQN的血糖控制方法，该方法基于人工胰腺技术设计，使用持续血糖监测装置测得的血糖值来设计患者的状态，在输入患者前一段时间的血糖值和胰岛素注射值之后，可以给出下一时刻需注射的胰岛素值，该方法并没有区分用于维持身体血糖保持稳定的basal胰岛素和用于抵消摄入带来的血糖上升而使用的bolus胰岛素剂量；Sun Q等人提出了基于Actor-Critic结构的血糖控制模型，利用前一天患者的血糖信息来预测下一天的basal胰岛素剂量(basal rate)和三餐的胰岛素碳水化合比(insulin-to-carbohydrate ratio，CIR)，该方法所需的血糖数据不但可以是持续血糖监测装置测得的血糖值，也可以是少量的人工监测获得的血糖数据，但是该方法仅仅使用了前一天血糖的高血糖和低血糖特征，并没有考虑到患者血糖序列之间的相关性。

而且，上述的强化学习方法也没有将碳水化合物的摄入情况考虑在内，而是仅仅通过血糖的变化情况来判断胰岛素合适的注射量，而在现实情况中，通常是可以知道接下来将会摄入的碳水化合物的量。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端，能够充分利用糖尿病患者的血糖信息和饮食信息，并能根据糖尿病患者的情况，对下一时刻糖尿病患者的胰岛素注射量给出准确的建议。

为实现上述目的及其他相关目的，本发明提供一种基于强化学习的糖尿病患者血糖管理方法，包括以下步骤：基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型；获取糖尿病患者的当前状态信息；所述当前状态信息包括：对应当前时刻及所述当前时刻之前预设时段内的血糖、对应所述当前时刻及所述当前时刻之前预设时段内的胰岛素注射量，及对应所述当前时刻的下一未来时刻的碳水化合物摄入量；将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

于本发明的一实施例中，基于强化学习算法训练决策网络模型包括以下步骤：获取所述糖尿病患者的历史状态信息；所述历史状态信息包括：对应历史时刻及所述历史时刻之前预设时段内的血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量；构建所述决策网络模型；所述决策网络模型包括：Actor决策模块和Critic评估模块；所述Actor决策模块和所述Critic评估模块均包括：长短期记忆网络和全连接神经网络；对所述历史状态信息进行初始化，获取状态序列；所述状态序列包括：血糖序列、胰岛素注射序列及碳水化合物摄入序列；将所述状态序列输入至所述Actor决策模块中，获取奖励值最大的动作；将所述奖励值最大的动作作为目标动作，以使所述糖尿病患者在所述下一历史时刻执行所述目标动作，并获取新的状态序列；根据所述新的状态序列，依照预设奖励函数，计算所述新的状态序列对应动作的奖励值；将所述状态序列、所述目标动作、所述奖励值及所述新的状态序列均存入经验回放集合中；从所述经验回放集合中随机采样预设条数据，并基于强化学习算法优化所述决策网络模型的参数，以实现训练所述决策网络模型。

于本发明的一实施例中，还包括以下步骤：计算所述下一历史时刻，对应所述糖尿病患者血糖的风险值；基于所述风险值，计算验证预设天数内的平均风险值，以基于所述平均风险值评估所述决策网络模型的优劣。

于本发明的一实施例中，所述状态序列为对应所述历史时刻及所述历史时刻之前预设时段内的所述血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量的时间序列，记为状态序列S，S＝{s_i，i＝1，...，n}，S表示所述糖尿病患者在当前时刻前n个历史时刻的状态信息；其中，s_i＝(x，y，z)表示所述糖尿病患者在前第i个历史时刻时的状态；x表示在前第i个历史时刻时的血糖；y表示在前第i个历史时刻时的胰岛素注射量；z表示在第(i+1)个历史时刻时的碳水化合物摄入量；所述动作集为一连续区间；所述连续区间的下限为0，所述连续区间上限的计算公式为：

A＝σ×f(basal)+β×f(bolus)；

其中，A表示所述连续区间的上限；f(basal)＝0.5×0.5×病人体重(kg)÷日动作执行次数，表示所述糖尿病患者维持自身血糖所需要的理论基础胰岛素值；f(bolus)＝0.5×0.5×病人体重(kg)÷3，表示所述糖尿病患者为缓解三餐对血糖的影响所需的理论餐前大剂量胰岛素值；σ、β均表示预设调整参数；还包括以下步骤：定义一状态转换函数；S′＝f(S，a)；其中，S′表示所述新的状态序列；f表示所述状态转换函数；a表示所述目标动作；定义一风险函数；risk(b)＝10*(1.509*log(b)^1.084-5.381)²；其中，risk(b)表示对应所述糖尿病患者血糖为b时的风险值；所述预设奖励函数定义为所述风险值的负数，再减去预设时刻内，异常血糖值的风险均值。

于本发明的一实施例中，还包括：在训练所述决策网络模型过程中，当所述决策网络模型与所述糖尿病患者交互的天数超过训练预设天数时，停止训练所述决策网络模型；或当所述糖尿病患者的血糖超出预设范围时，停止训练所述决策网络模型。

于本发明的一实施例中，所述糖尿病患者为真实糖尿病患者和/或模拟器上的虚拟糖尿病患者。

本发明提供一种基于强化学习的糖尿病患者血糖管理系统，包括：模型训练模块、信息获取模块及血糖管理模块；所述模型训练模块用于基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型；所述信息获取模块用于获取糖尿病患者的当前状态信息；所述当前状态信息包括：对应当前时刻及所述当前时刻之前预设时段内的血糖、对应所述当前时刻及所述当前时刻之前预设时段内的胰岛素注射量，及对应所述当前时刻的下一未来时刻的碳水化合物摄入量；所述血糖管理模块用于将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

本发明提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于强化学习的糖尿病患者血糖管理方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的基于强化学习的糖尿病患者血糖管理方法。

如上所述，本发明所述的基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端，具有以下有益效果：

与现有技术相比，本发明基于糖尿病患者的历史血糖数据和未来的碳水化合物摄入量以强化学习算法来训练决策网络模型，从而实现从糖尿病患者历史的信息中利用到了碳水化合物和血糖变化之间的关系，达到了更好控制血糖的目的，与现有的模型进行血糖管理的方法对比，该方法能更好的适应碳水化合物摄入时间、摄入量不规律的情况，可在糖尿病患者血糖管理领域广泛推广。

附图说明

图1显示为本发明的基于强化学习的糖尿病患者血糖管理方法于一实施例中的流程图。

图2显示为本发明的基于强化学习算法训练决策网络模型于一实施例中的流程图。

图3显示为本发明的基于强化学习的糖尿病患者血糖管理系统于一实施例中的结构示意图。

图4显示为本发明的终端于一实施例中的结构示意图。

标号说明

31-模型训练模块；32-信息获取模块；33-血糖管理模块；41-处理器；42-存储器。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端，与现有技术相比，本发明基于糖尿病患者的历史血糖数据和未来的碳水化合物摄入量以强化学习算法来训练决策网络模型，从而实现从糖尿病患者历史的信息中利用到了碳水化合物和血糖变化之间的关系，达到了更好控制血糖的目的，与现有的模型进行血糖管理的方法对比，该方法能更好的适应碳水化合物摄入时间、摄入量不规律的情况，可在糖尿病患者血糖管理领域广泛推广。

如图1所示，于一实施例中，本发明的基于强化学习的糖尿病患者血糖管理方法包括以下步骤：

步骤S1、基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型。

如图2所示，于一实施例中，基于强化学习算法训练决策网络模型包括以下步骤：

步骤S11、获取所述糖尿病患者的历史状态信息。

需要说明的是，所述历史状态信息包括：对应历史时刻及所述历史时刻之前预设时段内的血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量。

于一实施例中，所述糖尿病患者为现实生活中的真实糖尿病患者和/或模拟器上的虚拟糖尿病患者。

步骤S12、构建所述决策网络模型。

于一实施例中，所述决策网络模型包括Actor决策模块和Critic评估模块；所述Actor决策模块和所述Critic评估模块均包括长短期记忆网络和全连接神经网络。

需要说明的是，该Actor决策模块用于根据输入的糖尿病患者的状态来确定最佳的动作，也就是下一时刻的胰岛素注射量；该Critic评估模块用于在训练所述决策网络模型过程中，帮助该Actor决策模块更新参数。

步骤S13、对所述历史状态信息进行初始化，获取状态序列。

需要说明的是，所述状态序列包括：血糖序列、胰岛素注射序列及碳水化合物摄入序列。

于一实施例中，所述状态序列为对应所述历史时刻及所述历史时刻之前预设时段内的所述血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量的时间序列。

具体地，将其记为状态序列S，S＝{s_i，i＝1，...，n}。

其中，s_i＝(x，y，z)表示所述糖尿病患者在第i个历史时刻时对应的历史状态信息；x表示在第i个历史时刻及第i个历史时刻之前的(i-1)个时刻内(共i个时刻)的血糖；y表示在第i个历史时刻及第i个历史时刻之前的(i-1)个时刻内(共i个时刻)时的胰岛素注射量；z表示在第(i+1)个历史时刻时的碳水化合物摄入量。

进一步地，前n个时刻的所有状态组成的序列就是当前的环境状态，所有可能的环境状态构成状态空间X。

步骤S14、将所述状态序列输入至所述Actor决策模块中，获取奖励值最大的动作。

具体地，将该状态序列输入至其长短期记忆网络中，以使该长短期记忆网络对所述状态序列进行编码，提取出对应所述状态序列的特征向量，记为

然后再将该特征向量

输入至其全连接神经网络中，利用Actor-Critic(AC)算法，计算出所述糖尿病患者奖励值最大的动作。

步骤S15、将所述奖励值最大的动作作为目标动作，以使所述糖尿病患者在所述下一历史时刻执行所述目标动作，并获取新的状态序列。

于一实施例中，所述动作集为一连续区间。

具体地，所述连续区间的下限为0，所述连续区间上限的计算公式为：

A＝σ×f(basal)+β×f(bolus)；

其中，A表示所述连续区间的上限；f(basal)＝0.5×0.5×病人体重(kg)÷日动作执行次数，表示所述糖尿病患者维持自身血糖所需要的理论基础胰岛素值；f(bolus)＝0.5×0.5×病人体重(kg)÷3，表示所述糖尿病患者为缓解三餐对血糖的影响所需的理论餐前大剂量胰岛素值；σ、β均表示对应胰岛素注射量的预设调整参数。

需要说明的是，该σ、β具体为何值，由医生建议和实际情况决定，不作为限制本发明的条件，所以，在此也不具体限制其为何值。

步骤S16、根据所述新的状态序列，依照预设奖励函数，计算所述新的状态序列对应动作的奖励值。

步骤S17、将所述状态序列、所述目标动作、所述奖励值及所述新的状态序列均存入经验回放集合中。

步骤S18、从所述经验回放集合中随机采样预设条数据，并基于强化学习算法优化所述决策网络模型的参数，以实现训练所述决策网络模型。

于一实施例中，还包括以下步骤：

(11)、定义一状态转换函数。

具体地，S′＝f(S，a)。

其中，S′表示所述新的状态序列；f表示所述状态转换函数；a表示所述目标动作。

需要说明的是，f无法被人为建模，在模拟器环境中，f为在模拟器患者处于状态S时，做出动作a，患者产生下一个时刻的状态S′中使用的状态转换函数，在现实情况中，f为在现实患者处于状态S时，做出动作a，患者产生下一时刻的状态S′中使用的状态转移函数。

(12)、定义一风险函数。

具体地，risk(b)＝10*(1.509*log(b)^1.084-5.381)²。

其中，risk(b)表示对应所述糖尿病患者血糖为b时的风险值，用来表示血糖的危险程度；所述预设奖励函数定义为所述风险值的负数，再减去预设时刻内，异常血糖值的风险均值。

具体地，该预设奖励函数定义为糖尿病患者执行动作a之后，下一刻血糖的风险值的负数，再减去最近k个时刻内，异常血糖值的风险均值。

需要说明的是，高血糖和低血糖的风险值远高于正常血糖。

于一实施例中，还包括：在训练所述决策网络模型过程中，当所述决策网络模型与所述糖尿病患者交互的天数超过训练预设天数时，停止训练所述决策网络模型；或当所述糖尿病患者的血糖超出预设范围时，停止训练所述决策网络模型。

需要说明的是，当该糖尿病患者为模拟器上的虚拟糖尿病患者时，该糖尿病患者的血糖可能会超出一定范围(对应该预设范围)，此时，判断该糖尿病患者死亡，当其死亡时，即会停止本轮训练，否则，继续将更新后的状态序列(对应前述的“新的状态序列”)输入到该决策网络模型中，转到步骤S14。

优选地，该训练预设天数设置为20天。

于一实施例中，还包括以下步骤：

(21)、计算所述下一历史时刻，对应所述糖尿病患者血糖的风险值。

(22)、基于所述风险值，计算验证预设天数内的平均风险值，以基于所述平均风险值评估所述决策网络模型的优劣。

具体地，获取糖尿病患者最近的血糖和胰岛素注射信息，然后采用当前训练得到的决策网络模型来确定下一时刻该注射的胰岛素剂量，并计算下一时刻血糖的风险值，一直测试直到测试时长达到验证预设天数，计算这段时间糖尿病患者血糖的平均风险值，并将该结果与PID、basal-bolus等血糖控制方法得到的血糖平均风险值进行比较，以评估当前模型的优劣。

优选地，该验证预设天数设置为10天。

步骤S2、获取糖尿病患者的当前状态信息。

需要说明的是，所述当前状态信息包括：对应当前时刻及所述当前时刻之前预设时段内的血糖、对应所述当前时刻及所述当前时刻之前预设时段内的胰岛素注射量，及对应所述当前时刻的下一未来时刻的碳水化合物摄入量。

步骤S3、将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

需要说明的是，本发明所述的基于强化学习的糖尿病患者血糖管理方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图3所示，于一实施例中，本发明的基于强化学习的糖尿病患者血糖管理系统包括模型训练模块31、信息获取模块32及血糖管理模块33。

所述模型训练模块31用于基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型。

所述信息获取模块32用于获取糖尿病患者的当前状态信息。

所述血糖管理模块33用于将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

需要说明的是，所述模型训练模块31、所述信息获取模块32及所述血糖管理模块33的结构及原理与上述基于强化学习的糖尿病患者血糖管理方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于强化学习的糖尿病患者血糖管理方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图4所示，本发明的终端包括处理器41及存储器42。

所述存储器42用于存储计算机程序；优选地，所述存储器42包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器41与所述存储器42相连，用于执行所述存储器42存储的计算机程序，以使所述终端执行上述的基于强化学习的糖尿病患者血糖管理方法。

优选地，所述处理器41可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的基于强化学习的糖尿病患者血糖管理系统可以实现本发明的基于强化学习的糖尿病患者血糖管理方法，但本发明的基于强化学习的糖尿病患者血糖管理方法的实现装置包括但不限于本实施例列举的基于强化学习的糖尿病患者血糖管理系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的基于强化学习的糖尿病患者血糖管理方法、系统、介质及终端，与现有技术相比，本发明基于糖尿病患者的历史血糖数据和未来的碳水化合物摄入量以强化学习算法来训练决策网络模型，从而实现从糖尿病患者历史的信息中利用到了碳水化合物和血糖变化之间的关系，达到了更好控制血糖的目的，与现有的模型进行血糖管理的方法对比，该方法能更好的适应碳水化合物摄入时间、摄入量不规律的情况，可在糖尿病患者血糖管理领域广泛推广；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于强化学习的糖尿病患者血糖管理方法，其特征在于，包括以下步骤：

基于强化学习算法训练一个决策网络模型，以获取训练好的决策网络模型；

获取糖尿病患者的当前状态信息；所述当前状态信息包括：对应当前时刻及所述当前时刻之前预设时段内的血糖、对应所述当前时刻及所述当前时刻之前预设时段内的胰岛素注射量，及对应所述当前时刻的下一未来时刻的碳水化合物摄入量；

将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

2.根据权利要求1所述的基于强化学习的糖尿病患者血糖管理方法，其特征在于，基于强化学习算法训练决策网络模型包括以下步骤：

获取所述糖尿病患者的历史状态信息；所述历史状态信息包括：对应历史时刻及所述历史时刻之前预设时段内的血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量；

构建所述决策网络模型；所述决策网络模型包括：Actor决策模块和Critic评估模块；所述Actor决策模块和所述Critic评估模块均包括：长短期记忆网络和全连接神经网络；

对所述历史状态信息进行初始化，获取状态序列；所述状态序列包括：血糖序列、胰岛素注射序列及碳水化合物摄入序列；

将所述状态序列输入至所述Actor决策模块中，获取奖励值最大的动作；

将所述奖励值最大的动作作为目标动作，以使所述糖尿病患者在所述下一历史时刻执行所述目标动作，并获取新的状态序列；

根据所述新的状态序列，依照预设奖励函数，计算所述新的状态序列对应动作的奖励值；

将所述状态序列、所述目标动作、所述奖励值及所述新的状态序列均存入经验回放集合中；

从所述经验回放集合中随机采样预设条数据，并基于强化学习算法优化所述决策网络模型的参数，以实现训练所述决策网络模型。

3.根据权利要求2所述的基于强化学习的糖尿病患者血糖管理方法，其特征在于，还包括以下步骤：

计算所述下一历史时刻，对应所述糖尿病患者血糖的风险值；

基于所述风险值，计算验证预设天数内的平均风险值，以基于所述平均风险值评估所述决策网络模型的优劣。

4.根据权利要求3所述的基于强化学习的糖尿病患者血糖管理方法，其特征在于，所述状态序列为对应所述历史时刻及所述历史时刻之前预设时段内的所述血糖、对应所述历史时刻及所述历史时刻之前预设时段内的胰岛素注射量，及对应所述历史时刻的下一历史时刻的碳水化合物摄入量的时间序列，记为状态序列S，S＝{s_i,i＝1,…,n}，S表示所述糖尿病患者在当前时刻前n个历史时刻的状态信息；其中，s_i＝(x,y,z)表示所述糖尿病患者在前第i个历史时刻时的状态；x表示在前第i个历史时刻时的血糖；y表示在前第i个历史时刻时的胰岛素注射量；z表示在第(i+1)个历史时刻时的碳水化合物摄入量；

所述动作集为一连续区间；所述连续区间的下限为0，所述连续区间上限的计算公式为：

A＝σ×f(basal)+β×f(bolus)；

其中，A表示所述连续区间的上限；f(basal)＝0.5×0.5×病人体重(kg)÷日动作执行次数，表示所述糖尿病患者维持自身血糖所需要的理论基础胰岛素值；f(bolus)＝0.5×0.5×病人体重(kg)÷3，表示所述糖尿病患者为缓解三餐对血糖的影响所需的理论餐前大剂量胰岛素值；σ、β均表示预设调整参数；

还包括以下步骤：

定义一状态转换函数；S′＝f(S,a)；其中，S′表示所述新的状态序列；f表示所述状态转换函数；a表示所述目标动作；

定义一风险函数；risk(b)＝10*(1.509*log(b)^1.084-5.381)²；其中，risk(b)表示对应所述糖尿病患者血糖为b时的风险值；所述预设奖励函数定义为所述风险值的负数，再减去预设时刻内，异常血糖值的风险均值。

5.根据权利要求1所述的基于强化学习的糖尿病患者血糖管理方法，其特征在于，还包括：

在训练所述决策网络模型过程中，当所述决策网络模型与所述糖尿病患者交互的天数超过训练预设天数时，停止训练所述决策网络模型；或

当所述糖尿病患者的血糖超出预设范围时，停止训练所述决策网络模型。

6.根据权利要求1所述的基于强化学习的糖尿病患者血糖管理方法，其特征在于，所述糖尿病患者为真实糖尿病患者和/或模拟器上的虚拟糖尿病患者。

7.一种基于强化学习的糖尿病患者血糖管理系统，其特征在于，包括：模型训练模块、信息获取模块及血糖管理模块；

所述模型训练模块用于基于强化学习算法训练决策网络模型，以获取训练好的决策网络模型；

所述信息获取模块用于获取糖尿病患者的当前状态信息；所述当前状态信息包括：对应当前时刻及所述当前时刻之前预设时段内的血糖、对应所述当前时刻及所述当前时刻之前预设时段内的胰岛素注射量，及对应所述当前时刻的下一未来时刻的碳水化合物摄入量；

所述血糖管理模块用于将所述当前状态信息发送至所述训练好的决策网络模型，以使所述训练好的决策网络模型基于所述当前状态信息，确定所述下一未来时刻对应所述糖尿病患者的胰岛素注射量，实现对所述糖尿病患者的血糖管理。

8.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的基于强化学习的糖尿病患者血糖管理方法。

9.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至6中任一项所述的基于强化学习的糖尿病患者血糖管理方法。