CN114300091B

CN114300091B - 一种胰岛素输注方案自适应调节方法、装置及存储介质

Info

Publication number: CN114300091B
Application number: CN202111482942.4A
Authority: CN
Inventors: 姜京池; 王勃然; 刘劼; 关毅; 于雪卉
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-12-02
Anticipated expiration: 2041-12-07
Also published as: CN114300091A

Abstract

本发明提供了一种胰岛素输注方案自适应调节方法、装置及存储介质，方法包括：获取当前时刻目标用户的当前血糖状态；执行方案生成步骤，方案生成步骤包括根据策略函数和当前血糖状态生成当前时刻的胰岛素输注方案；获取根据胰岛素输注方案输注胰岛素后，目标用户的下一血糖状态，根据下一血糖状态确定胰岛素输注方案的瞬时奖励，其中，当前血糖状态、胰岛素输注方案、下一血糖状态和瞬时奖励为一个交互数据；基于主动学习算法，根据交互数据调整策略函数的参数，获得调整后的策略函数；以下一血糖状态为当前血糖状态，结合调整后的策略函数返回执行方案生成步骤。本发明的技术方案提高了血糖控制的自适应性和鲁棒性。

Description

一种胰岛素输注方案自适应调节方法、装置及存储介质

技术领域

本发明涉及血糖控制技术领域，具体而言，涉及一种胰岛素输注方案自适应调节方法、装置及存储介质。

背景技术

据国际糖尿病联盟(International Diabetes Federation，IDF)2019年发布的最新版《糖尿病概览》显示，全世界有4.63亿成年人(20--79岁)患有糖尿病，并且目前糖尿病呈现出发病率逐年递增、发病群体年轻化的趋势，严重威胁着人类生命健康，并且给社会的发展带来了沉重的负担。

人工胰腺是治疗糖尿病的有效装置，其结合动态血糖仪和精确的智能控制算法自动调节胰岛素泵向人体输注的胰岛素。其中，智能控制算法是人工胰腺的核心技术，决定了胰岛素输注的准确性和血糖控制的有效性。由于人体内的血糖状态不仅与胰岛素的输注量相关，还与碳水化合物等的摄入量相关，而现有的智能控制算法无法应对胰岛素的输注量和摄入的碳水化合物含量不匹配，造成血糖状态扰动的问题，例如输注大剂量的胰岛素，而摄入的碳水化合物含量不足时，会导致目标用户出现低血糖的情况，鲁棒性较差。

发明内容

本发明解决的问题是如何提高血糖控制过程中的鲁棒性。

为解决上述问题，本发明提供一种胰岛素输注方案自适应调节方法、装置及存储介质。

第一方面，本发明提供了一种胰岛素输注方案自适应调节方法，包括：

获取当前时刻目标用户的当前血糖状态；

执行方案生成步骤，所述方案生成步骤包括根据策略函数和所述当前血糖状态生成当前时刻的胰岛素输注方案；

获取根据所述胰岛素输注方案输注胰岛素后，所述目标用户的下一血糖状态，根据所述下一血糖状态确定所述胰岛素输注方案的瞬时奖励，其中，所述当前血糖状态、所述胰岛素输注方案、所述下一血糖状态和所述瞬时奖励为一个交互数据；

基于主动学习算法，根据所述交互数据调整所述策略函数的参数，获得调整后的策略函数；

以所述下一血糖状态为当前血糖状态，结合所述调整后的策略函数返回执行所述方案生成步骤。

可选地，与目标用户相关联的所有所述交互数据组成的集合为目标域数据集，与历史用户和虚拟用户相关联的所有所述交互数据组成的集合为源域数据集，所述目标域数据集中的目标域数据包括目标域标签数据，所述源域数据集中的源域数据包括源域标签数据和源域未标签数据，所述根据所述交互数据调整所述策略函数的参数包括：

根据所述交互数据更新所述目标域数据集，获得新目标域数据集；

从源域数据集中挑选多个所述源域标签数据分别进行赋予适应性权重，获得多个所述适应性数据；

通过主动查询方式为各个所述源域未标签数据赋予查询标签，根据赋权结果确定适应性查询数据；

将所述新目标域数据集中的所述目标域标签数据、所述适应性数据和所述适应性查询数据输入预先建立的目标函数中，对所述目标函数进行求解，更新所述适应性权重和所述查询标签；

根据所述适应性权重和所述查询标签从所述目标域数据集中挑选所述目标域数据作为训练数据，采用所述训练数据训练所述策略函数，更新所述策略函数的参数；

其中，所述目标函数与源域数据与目标域数据之间的第一差异性，标签数据与未标签数据之间的第二差异性和所述策略函数的不稳定性相关。

可选地，所述目标函数采用第一公式表示，所述第一公式包括：

其中，

表示所述源域数据与目标域数据之间的第一差异性，

表示所述标签数据与未标签数据之间的第二差异性，ζ为折扣因子，

表示所述策略函数的不稳定性，ω表示通过主动查询给各个所述源域未标签数据赋予的所述查询标签，υ表示各个所述源域标签数据的所述适应性权重，

表示所述策略函数在源域未标签数据上的方差，S_U表示源域未标签数据集。

可选地，所述第一差异性采用第二公式表示，所述第二公式包括：

其中，

表示所述源域数据与目标域数据之间的第一差异性，n_S表示所述源域数据的数量，S表示所述源域数据集，υ(x)表示适应性权重，

表示从特征空间到再生核希尔伯特空间的一个映射，n_T表示所述目标域数据的数量，T表示所述新目标域数据集。

可选地，所述源域数据包括源域标签数据和源域未标签数据，所述目标域数据包括目标域标签数据和目标域未标签数据，所述第二差异性采用第三公式表示，所述第三公式包括：

其中，

表示所述标签数据与未标签数据之间的第二差异性，

表示所述源域标签数据的数量，

表示所述目标域标签数据的数量，n_Q表示所述适应性查询数据的数量，

表示所述源域未标签数据的数量，

表示所述目标域未标签数据的数量，S_L表示源域标签数据集，S_U表示源域未标签数据集，T_L表示目标域标签数据集，T_U表示目标域未标签数据集。

可选地，所述策略函数为条件概率分布函数。

可选地，所述根据所述下一血糖状态确定所述胰岛素输注方案的瞬时奖励包括：

若所述下一血糖状态在血糖数值的正常范围内，则所述瞬时奖励为正；

若所述下一血糖状态不在血糖数值的正常范围内，则所述瞬时奖励为负。

第二方面，本发明提供了一种胰岛素输注方案自适应调节装置，包括：

获取模块，用于获取当前时刻目标用户的当前血糖状态；

方案生成模块，用于根据策略函数和所述当前血糖状态生成当前时刻的胰岛素输注方案；

处理模块，用于获取根据所述胰岛素输注方案输注胰岛素后，所述目标用户的下一血糖状态，根据所述下一血糖状态确定所述胰岛素输注方案的瞬时奖励，其中，所述当前血糖状态、所述胰岛素输注方案、所述下一血糖状态和所述瞬时奖励为一个交互数据；

训练模块，用于基于主动学习算法，根据所述交互数据调整所述策略函数的参数，获得调整后的策略函数。

第三方面，本发明提供了一种电子设备，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面任一项所述的胰岛素输注方案自适应调节方法。

第四方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面任一项所述的胰岛素输注方案自适应调节方法。

本发明的胰岛素输注方案自适应调节方法、装置及存储介质的有益效果是：获取目标用户的当前血糖状态，目标用户可为临床真实患者，将当前血糖状态输入策略函数中，确定适合目标用户的胰岛素输注方案，然后获取根据胰岛素输注方案对目标用户输注胰岛素后，目标用户的下一血糖状态，并根据下一血糖状态确定胰岛素输注方案的瞬时奖励，例如若下一血糖状态在正常范围内，则瞬时奖励为正，否则，瞬时奖励为负。根据当前血糖状态、胰岛素输注方案、下一血糖状态和瞬时奖励组成的交互数据，结合主动学习算法和交互过程中生成的所有交互数据调整策略函数的参数，获得调整后的策略函数，然后根据下一血糖状态和调整后的策略函数从新生成下一时刻的胰岛素输注方案，循环迭代这个过程，实现对目标用户血糖有反馈地、实时地、动态地闭环控制。使用过程中采用主动学习算法不断调整策略函数，能够在极少的数据下适应目标用户，并在使用过程中不断根据新生成的交互数据实时调整胰岛素输注方案，能够及时应对碳水化合物摄入量不稳定等造成的血糖扰动，自适应性强，提高了血糖控制的鲁棒性。

附图说明

图1为本发明实施例的一种胰岛素输注方案自适应调节方法的流程示意图；

图2为本发明实施例的主动学习算法框架示意图；

图3为本发明另一实施例的一种胰岛素输注方案自适应调节装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

在真实临床环境中，新患者的相关数据往往是非常有限的，当面对一个新患者的时候，需要根据既往的历史经验和已知的新患者的个人信息，制定出适合新患者的胰岛素输注方案。在新患者使用人工胰腺的过程中，会缓慢的生成经验数据，可以帮助调整策略函数，数据生成过程是很缓慢的，所以在算法优化的过程中仍然需要用到已知的历史经验。

如图1所示，本发明实施例提供的一种胰岛素输注方案自适应调节方法，包括：

步骤S110，获取当前时刻目标用户的当前血糖状态。

具体地，目标用户指临床中的真实糖尿病患者，当前时刻t的当前血糖状态(State)s_t，包括目标用户的当前血糖值、血药浓度等生理指标。

步骤S120，根据策略函数和所述当前血糖状态生成当前时刻的胰岛素输注方案。

具体地，策略函数的公式化表示为π_θ(a_t|s_t)，给定当前时刻t的血糖状态s_t，策略函数输出胰岛素输注输注方案a_t。

步骤S130，获取根据所述胰岛素输注方案输注胰岛素后，所述目标用户的下一血糖状态，根据所述下一血糖状态确定所述胰岛素输注方案的瞬时奖励，其中，所述当前血糖状态、所述胰岛素输注方案、所述下一血糖状态和所述瞬时奖励为一个交互数据。

具体地，根据胰岛素输注输注方案a_t向目标用户输注胰岛素以后，目标用户的血糖状态发生变化，演变为下一血糖状态s_t+1。根据下一血糖状态s_t+1确定胰岛素输注输注方案a_t的瞬时奖励(Reward)r_t，得到一个交互数据，交互数据为经验四元组(s_t,a_t,r_t,s_t+1)。

步骤S140，基于主动学习算法，根据所述交互数据调整所述策略函数的参数，获得调整后的策略函数。

具体地，根据主动学习算法确定各个交互数据的权重，根据所述权重挑选多个所述交互数据作为训练数据，采用所述训练数据训练所述策略函数，获得调整后的策略函数。

步骤S150，以所述下一血糖状态为当前血糖状态，结合所述调整后的策略函数返回步骤S120。

具体地，根据主动学习算法调整策略函数π_θ，根据下一血糖状态s_t+1生成下一时刻的胰岛素输注方案a_t+1，循环迭代上述过程，以此形成有反馈的实时、动态闭环控制。

本实施例中，获取目标用户的当前血糖状态，目标用户可为临床真实患者，将当前血糖状态输入策略函数中，确定适合目标用户的胰岛素输注方案，然后获取根据胰岛素输注方案对目标用户输注胰岛素后，目标用户的下一血糖状态，并根据下一血糖状态确定胰岛素输注方案的瞬时奖励，例如若下一血糖状态在正常范围内，则瞬时奖励为正，否则，瞬时奖励为负。根据当前血糖状态、胰岛素输注方案、下一血糖状态和瞬时奖励组成的交互数据，结合主动学习算法和生成的所有交互数据调整策略函数的参数，获得调整后的策略函数，然后根据下一血糖状态和调整后的策略函数从新生成下一时刻的胰岛素输注方案，循环迭代这个过程，实现对目标用户血糖有反馈地、实时地、动态地闭环控制。使用过程中采用主动学习算法不断调整策略函数，能够在极少的数据下适应目标用户，并在使用过程中不断根据新生成的交互数据实时调整胰岛素输注方案，能够及时应对碳水化合物摄入量不稳定等造成的血糖扰动，自适应性强，提高了血糖控制的鲁棒性。

需要说明的是，目标用户指临床中的真实糖尿病患者，历史用户指过往治疗过的糖尿病患者，虚拟用户指糖尿病代谢模拟器(diabetes mellitus metabolic simulators)中提供的虚拟受试者，是一个计算机程序。血糖状态包括血糖值、血药浓度等各种人体生理指标。虚拟用户的血糖状态由计算机模拟程序生成，真实糖尿病患者的血糖状态，由安装在患者身上的胰岛素泵采集得到，并通过血糖仪进行分析。

本发明中的目标任务是将目标用户的血糖调整到正常范围(70-180mg/dL)内，如图2所示，在主动学习算法的框架下，训练策略函数的数据分为源域数据集和目标域数据集。目标域数据集T包括目标用户的数据，其中目标域数据包括目标域标签数据T_L和目标域未标签数据T_U,T＝T_L∪T_U。

其中，

即T_L为

个经验四元组的集合，

目标域未标签数据中缺少了标签——动作a_i。

源域数据集S为历史患者数据和虚拟患者数据，S＝S_L∪S_U，其中源域标签数据S_L和源域未标签数据S_U的定义与目标域标签数据T_L和目标域未标签数据T_U相对应，即源域未标签数据相对于源域标签数据缺少了标签——动作a_i，在此不再赘述。由于虚拟标签数据远小于未标签数据的数量，所以有

和

由于虚拟患者数据是源域中的，所以源域未标签数据可以进行主动查询打上标签。

可以通过与虚拟患者进行交互，进行输注方案的测试，例如，若想要知道在目标用户身上实施胰岛素输注方案A会产生什么样的效果，可以在虚拟患者上实施胰岛素输注方案A，并且根据虚拟患者的反应预估目标患者的反应，这个过程称为主动查询。

主动学习本质上就是平衡两个数据分布之间的差异性。首先，边缘分布p(s)对于不同患者的状态s进行建模，所以源域和目标域边缘分布p(s)具有差异性(源域和目标域的患者是不同的)；其次条件分布π(a|s)即为最佳策略函数的建模，它在源域和目标域中是相同的，因为最佳策略函数对不同的患者都能给出最优的胰岛素输注方案。

为了衡量源域和目标域之间数据分布的差异性，这里同时使用了三个衡量准则，即源域数据与目标域数据之间的第一差异性，标签数据与未标签数据之间的第二差异性和控制策略的不确定性。每个衡量准则均用最大平均差异(maximum mean discrepancy，MMD)进行计算。

根据所述交互数据更新所述目标域数据集，获得新目标域数据集。

具体地，将交互数据存入目标域标签数据集中，更新目标域数据集。

根据所述适应性权重和所述查询标签从所述目标域数据集中挑选所述目标域数据作为训练数据，采用所述训练数据训练所述策略函数，更新所述策略函数的参数。

具体地，策略函数的训练数据可从目标域标签数据T_L、源域标签数据的适应性数据

适应性查询数据

中采样得到。

本可选的实施例中，根据人工胰腺使用过程中产生的交互数据存入目标域标签数据集中，然后将对应的目标域数据和源域数据等代入预先建立的目标函数中，对目标函数进行求解，就可得到新的策略函数的参数，实现对策略函数的参数的调整。通过采用使用过程中的交互数据不断训练策略函数，能够使得策略函数在使用过程中越来越适应目标用户的个体情况，并且有利于根据实时的血糖状态动态调整胰岛素的输注方案，提高血糖控制中应对血糖扰动的能力，自适应性强。

其中，

表示所述源域数据与目标域数据之间的第一差异性，

表示所述策略函数的不稳定性，ω表示通过主动查询给各个所述源域未标签数据赋予的所述查询标签，用于判断是否选择该数据，υ表示各个所述源域标签数据的所述适应性权重，源标签数据与目标用户越相似，适应性权重越大，

具体地，由于ω＝{0,1}，所以上述优化目标是NP-hard问题，所以将ω的约束放松为ω∈[0,1]。对于ω和υ采用迭代的方式求解。

可选地，所述策略函数为条件概率分布函数。

具体地，策略函数π_θ(a_t|s_t)是一个条件概率分布，表示的是针对当前状态s_t形成的胰岛素输注方案a_t的分布，通过对π_θ(a_t|s_t)采样即可得到胰岛素输注方案a_t。如果π_θ(a_t|s_t)的方差越大，则表明给出胰岛素输注方案a_t的信度越小。条件概率分布函数的训练过程为现有技术，在此不再赘述。

其中，

表示所述源域数据与目标域数据之间的第一差异性，

表示加上了适应性权重的数据集；

表示适应性数据，n_S表示所述源域数据的数量，S表示所述源域数据集，υ(x)表示适应性权重，

表示从特征空间到再生核希尔伯特空间(Reproducing Kernel Hilbert Space，RKHS)的一个映射，n_T表示所述目标域数据的数量，T表示所述新目标域数据集。

具体地，为了将源域数据迁移到目标域，对源域中的数据加上适应性权重，其中与目标域相似的数据权重大，反之则权重小。加上适应性权重后的源域数据(即适应性数据)应该变得与目标域数据的分布更相似，通过优化适应性权重υ使得

最小。

其中，

表示所述标签数据与未标签数据之间的第二差异性，

表示所述源域标签数据的数量，

表示所述源域未标签数据的数量，

具体地，由于标签数据是相比于未标签数据是很少的，标签数据的数据分布函数相比于未标签数据的数据分布函数是有偏的，而主动查询就是为了减小这种偏差。主动查询通过选出一部分未标签源域数据打标来减小偏差，选出的样本需要具有代表性，即为这些样本拿去打标签之后标签数据能够得到很好地补充，能够减小与未标签数据分布之间的差异。定义查询集为Ω＝{x＝(s,a,s′,r)|x∈S_U,ω(x)＝1}，其大小为n_Ω，查询标签

用来标识那个样本被选入查询集。在每一轮迭代中，查询集中的样本被打标并放入源域标签数据集S_L中，通过优化查询标签ω和适应性权重υ使得

最小。

需要说明的是，当目标用户刚佩戴人工胰腺时，目标域标签数据

目标域未标签数据T_U即为该使用者历史血糖变化数据。初始的时候策略函数通过主动学习从历史患者数据中挑选适应性数据

并且通过主动查询获取适应性查询数据

微调策略函数，给出目标用户当前的胰岛素输注方案；通过与目标用户的交互得到经验四元组(s_t,a_t,r_t,s_t+1)，添加到T_L中；再次从源域数据中查询数据，更新策略函数；依次迭代循环。

如图3所示，本发明另一实施例提供的一种胰岛素输注方案自适应调节装置，其用于实现如上所述的胰岛素输注方案自适应调节方法，包括：

获取模块，用于获取当前时刻目标用户的当前血糖状态；

本发明又一实施例提供的一种电子设备包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的胰岛素输注方案自适应调节方法。该电子设备包括计算机和服务器等。

本发明又一实施例提供的一种计算机可读存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的胰岛素输注方案自适应调节方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。