CN113255735A

CN113255735A - 患者用药方案的确定方法及确定装置

Info

Publication number: CN113255735A
Application number: CN202110474846.9A
Authority: CN
Inventors: 徐卓扬; 赵婷婷; 孙行智; 胡岗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-13
Anticipated expiration: 2041-04-29
Also published as: WO2022227198A1; CN113255735B

Abstract

本发明提供一种患者用药方案的确定方法及确定装置，所述方法包括以下步骤：获取目标患者的原始状态数据，所述原始状态数据用于表征所述患者的病情特征；将所述原始状态数据输入无偏模型，以得到消除了状态分布偏差的无偏状态数据；将所述无偏状态数据输入深度强化学习模型，获取对所述目标患者采取不同的用药方案时对应的奖励值；基于最大的奖励值确定所述目标患者的用药方案。本发明通过将偏差消除和强化学习引入患者用药方案的确定方法及确定装置中，消除了用药方案的选择偏差，使预期奖励的估计更加准确，显著增强了用药方案与患者之间的匹配度。

Description

患者用药方案的确定方法及确定装置

技术领域

本发明涉及智能推荐技术领域，特别涉及一种患者用药方案的确定方法及确定装置。

背景技术

由于患者身体条件的特异性，为了达到最佳治疗效果，医生对于同类疾病患者开具的药方往往是不同的。常规做法会按照一定的策略将患者划分为不同的群组，从而基于群组特征提供针对性的用药方案。可见，群组划分的准确性直接影响到患者的治疗效果。深度强化学习方法由于可以优化长期结局，可用于解决现实场景中越来越多的序列决策问题，目前已有现有技术通过深度强化学习方法进行患者分群。

深度强化学习模型需要用到对大量患者进行分群用药的历史样本数据。由于这些历史样本数据通常是由医生决策的，不可避免地存在个人经验、知识储备等方面的偏倚性。当深度强化模型基于样本数据对特定状态下不同决策的价值进行估计时，这种偏倚性会使得对不同决策价值的估计产生偏差。

发明内容

本发明的目的是提供一种能够消除患者用药方案确定过程中存在的个体特异性偏差的技术方案，以解决现有技术中存在的上述问题，从而提高患者用药方案确定过程的智能性和准确性。

为实现上述目的，本发明提供一种患者用药方案的确定方法，包括以下步骤：

获取目标患者的原始状态数据，所述原始状态数据用于表征所述患者的病情特征；

将所述原始状态数据输入无偏模型，以得到消除了状态分布偏差的无偏状态数据；

将所述无偏状态数据输入深度强化学习模型，获取对所述目标患者采取不同的用药方案时对应的奖励值；其中所述奖励值是基于所述无偏状态数据采取所述用药方案后的预期反馈效果；

基于最大的奖励值确定所述目标患者的用药方案。

根据本发明提供的患者用药方案的确定方法，所述无偏模型包括编码器、解码器和预测器，所述编码器用于对所述原始状态数据进行编码以输出无偏状态数据，所述解码器用于对所述无偏状态数据进行解码以得到与所述原始状态数据对应的解析状态数据，所述预测器基于所述解析状态数据，预测采取不同的用药方案时对应的奖励值；其中，所述编码器、所述解码器和所述预测器均为单层神经网络。

根据本发明提供的患者用药方案的确定方法，所述无偏模型的训练过程包括以下步骤：

获取多个患者的第一历史样本数据，所述第一历史样本数据包括第一历史状态数据、第一历史动作数据和第一历史奖励数据；其中，所述第一历史状态数据包括所述患者的人口统计学信息、检验检查指标和用药史；所述第一历史动作数据包括医生针对所述患者开具的用药方案，所述第一历史奖励数据包括所述患者采取所述用药方案后的健康反馈信息；

将所述第一历史状态数据作为所述编码器的输入，将所述第一历史奖励数据作为所述预测器的输出训练所述无偏模型，以确定所述编码器、所述解码器和所述预测器中的权重参数；

当所述无偏模型的损失函数收敛于预设阈值时，所述无偏模型的训练过程结束。

根据本发明提供的患者用药方案的确定方法，所述无偏模型的损失函数Loss1由以下算式确定：

Loss1＝Lce+Linf+Lr；

Lce＝∑_a∈Ap(a)*log[p(a)/p(a|E(s))]；

其中，s代表当前第一历史状态数据，E(s)代表s经过编码器后输出的第一历史无偏状态数据，a表示当前第一历史动作数据，A表示所有第一历史动作数据的集合，p(a)表示在所有第一历史动作数据中选择当前历史状态数据的概率，p(a|E(s))表示在当前第一历史无偏状态数据下采取当前第一历史动作数据的概率，D(E(s))表示第一历史无偏状态数据经过解码器后输出的第一历史解析状态数据，

表示对x的L2正则化，r表示当前第一历史奖励数据，R(E(s),a)表示在当前第一历史无偏状态数据下采取当前第一历史动作数据对应的第一历史奖励数据。

根据本发明提供的患者用药方案的确定方法，所述深度强化学习模型的训练过程，包括以下步骤：

获取多个患者的第二历史样本数据，所述第二历史样本数据包括第二历史状态数据、第二历史动作数据和第二历史奖励数据；其中，所述第二历史状态数据包括所述患者的人口统计学信息、检验检查指标和用药史；所述第二历史动作数据包括医生针对所述患者开具的用药方案，所述第二历史奖励数据包括所述患者采取所述用药方案后的健康反馈信息；

将所述第二历史状态数据作为输入，将所述第二历史奖励数据作为输出以训练所述深度强化学习模型中的策略函数，以使所述深度强化学习模型基于所述第二历史状态数据通过所述策略函数选择对应的第二历史动作数据时输出的所述第二历史奖励数据最大；

当所述深度强化学习模型的损失函数收敛于预设阈值时，所述训练过程结束。

根据本发明提供的患者用药方案的确定方法，所述深度强化学习模型的损失函数Loss2由以下算式确定：

Loss2＝(Q(s_t,a_t)-(r_t+max(γ×Q(s_t+1,a)))²；

上式中，s_t表示在t时刻的第二历史状态数据，a_t表示在t时刻的第二历史动作数据，r_t表示对第二历史状态数据s_t采取第二历史动作数据a_t对应的第二历史奖励数据；Q(s_t+1,a)表示对t+1时刻的第二历史状态数据采取第二历史动作数据时得到的第二历史奖励数据，γ为常数。

根据本发明提供的患者用药方案的确定方法，所述第二历史奖励数据包括短期奖励数据和长期奖励数据，所述长期奖励数据的权重高于所述短期奖励数据的权重。

为实现上述目的，本发明还提供一种患者用药方案的确定装置，包括：

原始状态获取模块，适用于获取目标患者的原始状态数据，所述原始状态数据用于表征所述患者的病情特征；

无偏处理模块，适用于将所述原始状态数据输入无偏模型，以得到消除了状态分布偏差的无偏状态数据；

深度学习模块，适用于将所述无偏状态数据输入深度强化学习模型，获取对所述目标患者采取不同的用药方案时对应的奖励值；其中所述奖励值是基于所述无偏状态数据采取所述用药方案后的预期反馈效果；

方案确定模块，适用于基于最大的奖励值确定所述目标患者的用药方案。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明将因果推断领域中的偏差消除引入到强化学习的决策中，优化决策选择的长期累积回报的同时限制选择偏差带来的估计误差，提高了模型在现实使用中的准确性、安全性。通过将偏差消除和强化学习引入患者用药方案的确定方法及确定装置中，消除了用药方案的选择偏差，使预期效果的估计更加准确，从而增强了用药方案与患者之间的匹配度，治疗效果得到明显提升。

附图说明

图1为本发明的患者用药方案的确定方法实施例一的流程图；

图2为本发明实施例一的无偏模型结构示意图；

图3为本发明实施例一对无偏模型进行训练示意性性流程图；

图4为本发明实施例一对深度强化学习模型、进行训练示意性性流程图；

图5为本发明实施例一的深度强化学习模型应用示意图；

图6为本发明的患者用药方案的确定装置实施例一的程序模块示意图；

图7为本发明的患者用药方案的确定装置实施例一的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提出一种患者用药方案的确定方法，该确定方法可适用于终端或服务器中。其中终端可以包括智能手机、笔记本电脑、平板电脑等智能设备，服务器可包括PC机、工作组服务器、企业级服务器等。请参阅图1，本实施例的确定方法包括以下步骤：

S100:获取目标患者的原始状态数据，所述原始状态数据用于表征所述患者的病情特征。

深度强化学习用于实现从状态到动作之间的映射策略学习，根据每个动作对应的奖励值学习最优映射策略，根据策略选择最优动作，基于最优动作引起的状态变化得到延迟反馈值，通过迭代循环直至满足终止条件。在本发明实施例中，状态指的是目标患者的原始状态数据，动作则指的是具体的用药方案，奖励值指的是基于目标患者的状态采取特定用药方案后的预期反馈效果。其中原始状态数据可以包括患者的长期医疗随访记录，例如每次随访时的人口统计学信息、检验检查指标、用药史等数据内容。对于多条记录，可以根据不同时间进行加权求和以得到整体记录。

S200:将所述原始状态数据输入无偏模型，以得到消除了状态分布偏差的无偏状态数据。

图2为本发明实施例一的无偏模型结构示意图。如图2所示，无偏模型包括编码器、解码器和预测器，其中编码器用于对输入的原始状态数据s进行编码以输出无偏状态数据E(s)，解码器用于对无偏状态数据E(s)进行解码以得到与原始状态数据对应的解析状态数据D(E(s))，预测器基于输入的解析状态数据D(E(s))，预测采取不同的动作a(即用药方案)时对应的奖励值R(s,a)。其中上述编码器、解码器和预测器均可以通过单层神经网络实现。

一方面，本实施例提供的无偏模型通过将编码器与预测器相结合，可以使编码后的无偏状态数据E(s)具有预测奖励值R(s,a)的能力；另一方面，本实施例提供的无偏模型通过将编码器与解码器相结合，可以保留足够的原始输入信息，从而保证预测结果的准确性。可以理解，通过构造合适的损失函数对无偏模型进行训练，可以影响无偏模型在特定状态下选择特定动作的倾向性。关于损失函数的具体组成本实施例会在下文中详细描述。

S300:将所述无偏状态数据输入深度强化学习模型，获取对所述目标患者采取不同的用药方案时对应的奖励值。

本领域技术人员理解，深度强化模型涉及的输入输出数据包括状态、动作和奖励值。深度强化学习模型利用神经网络来拟合策略(policy)，网络对于输入状态(state)采取策略(policy)后，输出各个动作(action)对应的预期奖励值(reward)，其中最大的奖励值对应的action即为深度强化模型认为应该选择的最佳动作。在本实施例中，状态(state)指的是目标患者的原始状态数据的多维编码，动作(action)指的是用药方案的多维编码，预期奖励值(reward)指的是对特定原始状态数据采取特定用药方案的反馈效果的编码数据。需要说明的是，本实施例中的输入状态(state)可以是经由无偏模型中编码器输出的无偏状态数据E(s)，具体可以包括对人口统计学信息、检验检查指标、用药史组成的多维向量编码数据，通过将无偏状态数据E(s)作为深度强化学习模型的输入状态数据，可以消除状态数据中的特异性，使得强化学习模型的输出结果更加准确。

S400:基于最大的奖励值确定所述目标患者的用药方案。

本步骤可以基于患者的状态数据确定预期治疗效果最好的用药方案，从而更有针对性地为不同患者制定更加合适的治疗方案，明显改善治疗效果。本实施例可以根据奖励值的大小确定用药方案的治疗效果，例如数值最大的奖励值通常表示具有最佳的治疗效果。假设针对某患者的无偏状态数据E0，可采取的用药方案包括A1、A2、A3，深度强化学习模型输出针对每个用药方案的奖励值分别为R1、R2、R3，如果R1>R2>R3，则R1为具有最佳治疗效果的奖励值，与R1对应的用药方案A1则为最终确定的用药方案。

通过上述步骤，本方案提供的无偏模型可以在保留患者数据原本信息的基础上最大程度去除患者数据中存在的偏倚量，从而保证深度强化学习模型中输入数据的客观性，使得深度强化学习模型对于患者分类的输出结果更加准确公正。

图3示出了本发明实施例一对无偏模型进行训练示意性性流程图。如图3所示，训练无偏模型包括以下步骤：

S310:获取多个患者的第一历史样本数据，所述第一历史样本数据包括第一历史状态数据、第一历史动作数据和第一历史奖励数据。

其中，上述第一历史状态数据包括患者的人口统计学信息、检验检查指标和用药史；第一历史动作数据包括医生针对所述患者开具的用药方案，第一历史奖励数据包括所述患者采取所述用药方案后的健康反馈信息。

S320:将第一历史状态数据作为编码器的输入，将第一历史奖励数据作为预测器的输出训练无偏模型，以确定所述编码器、所述解码器和所述预测器中的权重参数。

S330：当无偏模型的损失函数收敛于预设阈值时，所述无偏模型的训练过程结束。

在一个示例中，上述无偏模型的损失函数Loss1由以下算式确定：

Loss1＝Lce+Linf+Lr；

Lce＝∑_a∈Ap(a)*log[p(a)/p(a|E(s))]；

上式中，Lce是一个KL散度损失函数，通过让编码后的空间中采取各个action的条件概率逼近全体样本中采取各个action的比例，以使在编码后的空间中选择action的倾向与输入无关，从而去除action选择的偏倚。Linf的目的是让编码后的空间保留足够的原本的状态信息；Lr的目的是让编码后的空间拥有预测reward的能力，即在编码后的空间中加入了reward的信息。使用这三个损失函数，令编码后的无偏状态数据E(s)去除了在特定状态下选择action的倾向，同时保留足够的原输入信息和reward预测能力。这样，将无偏状态数据E(s)用于深度强化学习模型的输入可以得到更加无偏的预期奖励值。

图4示出了本发明实施例一对深度强化学习模型进行训练示意性性流程图。如图4所示，深度强化学习模型包括以下步骤：

S410:获取多个患者的第二历史样本数据，所述第二历史样本数据包括第二历史状态数据、第二历史动作数据和第二历史奖励数据。

其中，上述第二历史状态数据包括所述患者的人口统计学信息、检验检查指标和用药史；上述第二历史动作数据包括医生针对所述患者开具的用药方案，上述第二历史奖励数据包括所述患者采取所述用药方案后的健康反馈信息。具体的，第二历史奖励数据可以包括短期奖励数据和长期奖励数据，其中长期奖励值的权重高于所述短期奖励值的权重。这里的短期奖励数据和长期奖励数据一按照随访时间确定的，例如规定一年以内的反馈信息属于短期奖励数据，一年以上的反馈信息属于长期奖励数据。对于患者而言，治疗后的长期效果显然比短期效果更为重要，因此本实施例对于长期奖励数据设置了更高的权重值，例如将短期奖励数据的权重设为1，将长期奖励数据的权重设为5，从而使得第二历史奖励数据更能体现出长期效果。

S420:将第二历史状态数据作为输入，将第二历史奖励数据作为输出以训练所述深度强化学习模型中的策略函数，以使所述深度强化学习模型基于所述第二历史状态数据通过所述策略函数选择对应的第二历史动作数据时输出的所述第二历史奖励数据最大。

S430：当所述深度强化学习模型的损失函数收敛于预设阈值时，所述训练过程结束。

在一个示例中，上述述深度强化学习模型的损失函数Loss2由以下算式确定：

Loss2＝(Q(s_t,a_t)-(r_t+max(γ×Q(s_t+1,a)))²；

图5为本发明实施例一的深度强化学习模型应用示意图。如图5所示，深度学习模型与无偏模型中的编码器相连，编码器输出的无偏状态数据E(s)作为深度学习模型的输入数据，最终通过深度学习模型分别输出对于同一个状态s采取不同动作a的对应奖励值。其中图5中的Q(s,a0)、Q(s,a1)……Q(s,an)分别代表采取不同动作an得到的奖励值。

请继续参阅图6，示出了一种患者用药方案的确定装置，在本实施例中，患者用药方案的确定装置60可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述患者用药方案的确定方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述患者用药方案的确定装置60在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

原始状态获取模块61，适用于获取目标患者的原始状态数据，所述原始状态数据用于表征所述患者的病情特征；

无偏处理模块62，适用于将所述原始状态数据输入无偏模型，以得到消除了状态分布偏差的无偏状态数据；

深度学习模块63，适用于将所述无偏状态数据输入深度强化学习模型，获取对所述目标患者采取不同的用药方案时对应的奖励值；其中所述奖励值是基于所述无偏状态数据采取所述用药方案后的预期反馈效果；

方案确定模块64，适用于基于最大的奖励值确定所述目标患者的用药方案。

本实施例提供的患者用药方案的确定装置，通过无偏处理模块消除了动作选择的偏差，使预期奖励的估计更加准确，从而确保深度学习模块拟合得到更加合理的预期奖励值，从而改善患者的治疗效果。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备70至少包括但不限于：可通过系统总线相互通信连接的存储器71、处理器72，如图7所示。需要指出的是，图7仅示出了具有组件71-72的计算机设备70，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器71(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器71可以是计算机设备70的内部存储单元，例如该计算机设备70的硬盘或内存。在另一些实施例中，存储器71也可以是计算机设备70的外部存储设备，例如该计算机设备70上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器71还可以既包括计算机设备70的内部存储单元也包括其外部存储设备。本实施例中，存储器71通常用于存储安装于计算机设备70的操作系统和各类应用软件，例如实施例一的患者用药方案的确定装置60的程序代码等。此外，存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制计算机设备70的总体操作。本实施例中，处理器72用于运行存储器71中存储的程序代码或者处理数据，例如运行患者用药方案的确定装置60，以实现实施例一的患者用药方案的确定方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储患者用药方案的确定装置60，被处理器执行时实现实施例一的患者用药方案的确定方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解，实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种患者用药方案的确定方法，其特征在于，包括以下步骤：

基于最大的奖励值确定所述目标患者的用药方案。

2.根据权利要求1所述的患者用药方案的确定方法，其特征在于，所述无偏模型包括编码器、解码器和预测器，所述编码器用于对所述原始状态数据进行编码以输出无偏状态数据，所述解码器用于对所述无偏状态数据进行解码以得到与所述原始状态数据对应的解析状态数据，所述预测器基于所述解析状态数据，预测采取不同的用药方案时对应的奖励值；其中，所述编码器、所述解码器和所述预测器均为单层神经网络。

3.根据权利要求2所述的患者用药方案的确定方法，其特征在于，所述无偏模型的训练过程包括以下步骤：

4.根据权利要求3所述的患者用药方案的确定方法，其特征在于，所述无偏模型的损失函数Loss1由以下算式确定：

Loss1＝Lce+Linf+Lr；

Lce＝∑_a∈Ap(a)*log[p(a)/p(a|E(s))]；

5.根据权利要求1所述的患者用药方案的确定方法，其特征在于，所述深度强化学习模型的训练过程，包括以下步骤：

6.根据权利要求5所述的患者用药方案的确定方法，其特征在于，所述深度强化学习模型的损失函数Loss2由以下算式确定：

Loss2＝(Q(s_t,a_t)-(r_t+max(γ×Q(s_t+1,a)))²；

7.根据权利要求5所述的患者用药方案的确定方法，其特征在于，所述第二历史奖励数据包括短期奖励数据和长期奖励数据，所述长期奖励数据的权重高于所述短期奖励数据的权重。

8.一种患者用药方案的确定装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。