CN114783571A

CN114783571A - 基于深度强化学习的中医动态诊疗方案优化方法及系统

Info

Publication number: CN114783571A
Application number: CN202210356305.0A
Authority: CN
Inventors: 杨扩; 周雪忠
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-22

Abstract

本发明提供一种基于深度强化学习的中医动态诊疗方案优化方法及系统，属于中医诊疗技术领域，通过结合Q‑Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的强化学习模型进行诊疗优化模型训练，获得最佳患者诊疗方案；将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方；最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。本发明针对中医诊疗优化问题，通过设计离线虚拟环境、奖励函数、状态转移预测以及诊疗方案聚类分析，构建出一个基于深度强化学习的中医动态诊疗方案优化模型。

Description

基于深度强化学习的中医动态诊疗方案优化方法及系统

技术领域

本发明涉及中医诊疗技术领域，具体涉及一种基于深度强化学习的中医动态诊疗方案优化方法及系统。

背景技术

智能诊断和自动药物推荐是指运用人工智能、数据挖掘等计算机技术，实现根据患者的症状提供相应的治疗方案和药物推荐。中医临床诊疗中，医生给患者的诊疗过程可以看作是一个序贯的决策过程，即根据患者的当前患病情况，给出治疗方案(中药、针灸、按摩或其他方案)，再根据患者治疗后的恢复情况，给出新治疗方案，以此形成具有多个诊次的序贯诊疗过程。我们称单次治疗过程为一个诊疗方案(Diagnosis and Treatment Plan,DTP)，称这种序贯诊疗过程为动态诊疗方案(Dynamic Diagnosis and Treatment Scheme,DDTS)，指根据患者的不同治疗阶段，设计动态的、顺序的诊断和治疗措施。但由于中药处方组合的机制复杂性、合并症患者的复杂性和患者的个体差异，设计出一个合适的DDTS是一个难点。

结合强化学习的诊疗方案优化模型通过对临床中患者的症状以及医生给出的诊疗方案进行训练以及学习，提取现实世界的中药用药规则，建立有效的模型进行诊疗方案的优化，从而给出更加合理的诊疗方案和相应的中药处方。目前已有的诊疗方案优化和处方推荐方法如下：

随着大规模真实世界临床数据的累积和人工智能技术的发展，目前的处方推荐方法以机器学习，特别是深度学习模型为主。Li等人提出了一个改进的seq2seq模型，能够生成草药处方。Yu等人提出了基于卷积神经网络(CNN)和主题模型的模型用于预测中药处方。Liao等人提出了一个基于CNN的模型，能够提取面部图像特征并建立面部特征与药物之间的映射关系，从而预测中药处方。随着2015年AlphaGO的出现，强化学习逐渐成为人工智能领域的一个研究热点，在医学领域也不断得到应用。Shamim等人提出了一个基于强化学习的循环决策框架，能够为患者提供个性化的用药方案。Wang等人提出了一个基于循环神经网络的有监督强化学习模型用于推荐动态诊疗方案。在中医人工智能领域，冯奇提出了一种基于部分可观察马尔科夫决策过程的优动态诊疗方案优化模型。

目前将患者诊疗过程作为一个连续的决策过程来进行中医诊疗优化的研究还很少。现有方案大多是针对患者的现存具体症状给出相应的诊断以及治疗方案，而不是统筹患者的各个不同治疗阶段去设计动态的、有顺序的治疗措施。因此，这些解决方案针对患者诊疗方案优化是阶段性的，而非针对患者的全局治疗过程而进行动态诊疗方案优化。由于处方中药配伍的复杂性、合并症患者的复杂性以及患者的个体差异，仍然难以设计出一个合理的DDTS优化模型。现有的DDTS优化模型，没有很好的学习中医的处方配伍规律，不能达到预期的效果。

发明内容

本发明的目的在于提供一种通过学习临床序贯诊疗病历数据的中药用药规律，给出疗效更佳的诊疗方案和中药处方的基于深度强化学习的中医动态诊疗方案优化方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种基于深度强化学习的中医动态诊疗方案优化方法，包括：通过结合Q-Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的强化学习模型进行诊疗优化模型训练，获得最佳患者诊疗方案；将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方；最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

优选的，进行模型训练时，对于不同的症状定义相同的权重，同时将患者的状态得分定义为患者的症状数量。

优选的，使用经典聚类算法K-means对处方进行聚类分析，将分析结果得到的多个处方类作为诊疗方案，同时，通过聚类个数以及聚类结果评估得到最优的处方聚类结果，并作为强化学习模型的动作空间。

优选的，采用治疗前后两次就诊的症状评分的加减作为患者当前行动的及时奖励值；同时，使用Jaccard系数用来计算两个动作的相似度；预测的动作和医生的动作越相似，相应的及时奖励值就越高，奖励函数如下：

其中，α₁表示患者第i个症状的权重，o₁表示患者本次就诊的第i个症状，o₁′表示患者下次就诊时的第i个症状；γ表示患者治疗效果的权重，β表示风险权重，a表示医生开出的处方，a′表示优化模型给出的处方。

优选的，强化学习模型训练的终止条件为：通过统计患者症状数目的分布，可以看出94.7％的患者症状数量分布在1-20之间，根据症状的数量分布和中医专家的建议，设定第一终止条件被定义为患者的症状得分≤3；同时根据糖尿病治疗效果的评价标准，第二个终止条件被定义为患者症状评分减少60％，其中，评价标准为患者的症状评分减少30％则为有效，患者的症状评分减少70％为明显有效；最后，若模型迭代次数多于15次，则模型停止。

优选的，在使用深度强化学习模型对DDTS进行优化时，采用状态转移的预测策略，用于获得患者治疗后的症状；该策略首先根据模型预测的动作，在训练集中筛选出所有具有相同动作的四元组，然后通过计算每个四元组中的O1和当前症状观察之间的Jaccard相似度，能够得到与当前症状相似度最高的O1；最后，选择与O1相同的四元组中的O2作为患者治疗后的状态；其中，构建的四元组为(O1，A，R，O2)，O1代表患者当前的症状观察，A表示基于O1的真实行动，R表示完成行动A后的奖励，O2表示完成行动A后的新症状观察。

第二方面，本发明提供一种基于深度强化学习的中医动态诊疗方案优化和处方推荐系统，包括：诊疗方案优化模块，通过结合Q-Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的强化学习模型进行诊疗方案优化模型训练，得到最佳的患者诊疗方案；处方推荐模块，用于将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方，最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

第三方面，本发明提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于深度强化学习的中医动态诊疗方案优化方法。

第四方面，本发明提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如上所述的基于深度强化学习的中医动态诊疗方案优化方法。

第五方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的中医动态诊疗方案优化方法。

本发明有益效果：针对中医诊疗优化问题，通过设计离线虚拟环境、奖励函数、状态转移预测以及诊疗方案聚类分析，构建出一个基于深度强化学习的中医动态诊疗方案优化模型。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的诊疗方案优化方法的技术框架图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种基于深度强化学习的中医动态诊疗方案优化系统，包括：诊疗方案优化模块，通过结合Q-Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的预测模型进行诊疗方案优化模型训练，得到最佳的患者诊疗方案；处方推荐模块，用于将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方，最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

本实施例1中，利用上述的系统，实现了一种基于深度强化学习的中医动态诊疗方案优化方法，包括：结合Q-Learning和卷积神经网络的强化学习模型、融合全连接神经网络与LSTM神经网络的强化学习模型，获得患者最佳诊疗方案；将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方；最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

在模型训练部分，对于不同的症状定义相同的权重，同时将患者的状态得分定义为患者的症状数量。

使用经典聚类算法K-means对处方进行聚类分析，将分析结果得到的多个处方类作为诊疗方案，同时，通过聚类个数以及聚类结果评估得到最优的处方聚类结果，并作为强化学习模型的动作空间。

采用治疗前后两次就诊的症状评分的加减作为患者当前行动的及时奖励值；同时，使用Jaccard系数用来计算两个动作的相似度；预测的动作和医生的动作越相似，相应的及时奖励值就越高，奖励函数如下：

模型训练优化的终止条件为：通过统计患者症状数目的分布，可以看出94.7％的患者症状数量分布在1-20之间，根据症状的数量分布和中医专家的建议，设定第一终止条件被定义为患者的症状得分≤3；同时根据糖尿病治疗效果的评价标准，第二个终止条件被定义为患者症状评分减少60％，其中，评价标准为患者的症状评分减少30％则为有效，患者的症状评分减少70％为明显有效；最后，若模型迭代次数多于15次，则模型停止。

在使用深度强化学习模型对DDTS进行优化时，采用状态转移的预测策略，用于获得患者治疗后的症状；该策略首先根据模型预测的动作，在训练集中筛选出所有具有相同动作的四元组，然后通过计算每个四元组中的O1和当前症状观察之间的Jaccard相似度，能够得到与当前症状相似度最高的O1；最后，选择与O1相同的四元组中的O2作为患者治疗后的状态；其中，构建的四元组为(O1，A，R，O2)，O1代表患者当前的症状观察，A表示基于O1的真实行动，R表示完成行动A后的奖励，O2表示完成行动A后的新症状观察。

实施例2

如图1所示，本实施例2中，提出了一种基于深度强化学习的诊疗方案优化方法及模型。在此模型中，将对DDTS进行预测建模为一个强化学习任务，将对患者的症状观察作为深度强化学习模型输入，将DTP推荐作为优化的目标(图1)。选择两个深度强化学习模型，即DQN(结合Q-Learning和卷积神经网络的强化学习模型)和DRQN(通过两个全连接层提取特征，然后添加LSTM层，最终通过一个全连接层进行预测)进行模型训练。然后，将患者的症状和优化出的DTP作为输入，构建一个多层神经网络用于预测中药处方。最终将DTP和中药处方作为治疗方案推荐给患者。

本实施例中，基于深度强化学习的诊疗方案优化方法主要包括以下几个部分。

1)患者的状态观察

在诊疗方案优化问题中，获得患者真实状态是强化学习模型的关键。中医诊疗过程中，医生通过“望闻问切”获得患者的症状描述，并进行中医辨证，给患者开出合适的处方。由于患者的真实状态不可得，即使有经验的医生也不能完全确定患者的真实状态，因此使用医生观测到的症状来判断患者的状态。实际上，每种疾病都关联多个症状，中医存在主症和兼症的存在，因此，不同症状的权重也不一样。但由于具体的症状分级难以获得，因此，本实施例中对于不同的症状，定义相同的权重(W＝1)。同时，将患者的状态得分定义为患者的症状数量。

2)诊疗方案

在中医诊疗中，医生根据患者症状开出中药处方，从所有的临床病历记录中获得了9695个不同的中医处方。若将这么多的中医处方作为强化学习的动作空间，那么将大大增加算法的训练和收敛的难度。因此使用经典聚类算法K-means对这些处方进行聚类分析，将分析结果得到的多个处方类作为诊疗方案，即DTP。同时，通过调参(聚类个数)以及聚类结果评估(通过卡方检验来评估聚类结果中两个类之间的统计差异性)得到最优的处方聚类结果，并作为强化学习模型的动作空间。

3)奖励函数

基于强化学习的动态诊疗方案优化的目标是从大量诊疗数据中学习最佳的动态诊疗方案，其期望使治疗效果最大化，而且还要考虑给出合理的处方，尽量避免对患者有副作用或不符合配伍规律的处方。由于数据中缺乏疗效评价，采用治疗前后两次就诊的症状评分的加减作为患者当前行动的及时奖励值。同时，使用Jaccard系数用来计算两个动作的相似度。预测的动作和医生的动作越相似，相应的及时奖励值就越高，奖励函数如下：

其中α_i表示患者第i个症状的权重，o_i表示患者本次就诊的第i个症状，o′_i表示患者下次就诊时的第i个症状。γ表示患者治疗效果的权重，β表示风险权重，a表示医生开出的处方，a′表示优化模型给出的处方。

4)模型优化的终止条件

通过统计患者症状数目的分布，可以看出94.7％的患者症状数量分布在1-20之间，根据症状的数量分布和中医专家的建议，第一终止条件被定义为患者的症状得分≤3。同时根据糖尿病治疗效果的评价标准，患者的症状评分减少30％则为有效，患者的症状评分减少70％为明显有效。根据这一标准，第二个终止条件被定义为患者症状评分减少60％。最后，若强化学习模型迭代次数多于15次，则模型停止。

5)虚拟环境构建

由于无法在真实诊疗过程中训练DDTS优化模型，因此依据现有患者的病历信息建立了一个离线的虚拟环境。根据每个患者在当前和下一次诊疗过程中的症状观察和处方信息，构建了一个四元组(O1，A，R，O2)，其中O1代表患者当前的症状观察，A表示基于O1的真实行动，R表示完成行动A后的奖励，O2表示完成行动A后的新症状观察。

6)状态转移预测

在使用深度强化学习模型对DDTS进行优化时，由于缺乏训练阶段构建的四元组，因此根据当前症状获得下一个症状观察十分困难。基于临床的数据，患者的状态变化可以通过包含状态和行动的状态转移网络来实现，因此，设计了一个状态转移的预测策略，用于获得患者治疗后的症状。该策略首先根据模型预测的动作，在训练集中筛选出所有具有相同动作的四元组，然后通过计算每个四元组中的O1和当前症状观察之间的Jaccard相似度，能够得到与当前症状相似度最高的O1。最后，选择与O1相同的四元组中的O2作为患者治疗后的状态。

7)使用多层神经网络进行处方预测

中医临床实践中，构建诊疗方案辅助决策系统的最终目的是向患者推荐有效的中药处方。因此，基于训练后的深度强化学习模型，可以得到患者的序贯诊疗方案。然后，为了预测出合理的处方，构建了一个基于多层神经网络的多标签预测模型，该模型以患者症状和诊疗优化模型预测出的诊疗方案作为输入特征，以中医处方为预测目标，通过训练神经网络模型，形成最后的处方推荐模型。

实施例3

本发明实施例3提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于深度强化学习的中医动态诊疗方案优化方法，该方法包括如下流程步骤：

构建结合Q-Learning和卷积神经网络的强化学习模型以及融合全连接神经网络与LSTM神经网络的强化学习模型，通过模型训练和预测，获得患者最佳诊疗方案；将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方；最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

实施例4

本发明实施例4提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现基于深度强化学习的中医动态诊疗方案优化方法，该方法包括如下流程步骤：

实施例5

本发明实施例5提供一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行基于深度强化学习的中医动态诊疗方案优化方法，该方法包括如下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，包括：通过结合Q-Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的强化学习模型进行诊疗优化模型训练，获得最佳患者诊疗方案；将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方；最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

2.根据权利要求1所述的基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，进行模型训练时，对于不同的症状定义相同的权重，同时将患者的状态得分定义为患者的症状数量。

3.根据权利要求1所述的基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，使用经典聚类算法K-means对处方进行聚类分析，将分析结果得到的多个处方类作为诊疗方案，同时，通过聚类个数以及聚类结果评估得到最优的处方聚类结果，并作为强化学习模型的动作空间。

4.根据权利要求1所述的基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，采用治疗前后两次就诊的症状评分的加减作为患者当前行动的及时奖励值；同时，使用Jaccard系数用来计算两个动作的相似度；预测的动作和医生的动作越相似，相应的及时奖励值就越高，奖励函数如下：

其中，α₁表示患者第i个症状的权重，o₁表示患者本次就诊的第i个症状，o′₁表示患者下次就诊时的第i个症状；γ表示患者治疗效果的权重，β表示风险权重，a表示医生开出的处方，a′表示优化模型给出的处方。

5.根据权利要求1所述的基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，模型训练优化的终止条件为：通过统计患者症状数目的分布，可以看出94.7％的患者症状数量分布在1-20之间，根据症状的数量分布和中医专家的建议，设定第一终止条件被定义为患者的症状得分≤3；同时根据糖尿病治疗效果的评价标准，第二个终止条件被定义为患者症状评分减少60％，其中，评价标准为患者的症状评分减少30％则为有效，患者的症状评分减少70％为明显有效；最后，若模型迭代次数多于15次，则模型停止。

6.根据权利要求1所述的基于深度强化学习的中医动态诊疗方案优化方法，其特征在于，在使用深度强化学习模型对DDTS进行优化时，采用状态转移的预测策略，用于获得患者治疗后的症状；该策略首先根据模型预测的动作，在训练集中筛选出所有具有相同动作的四元组，然后通过计算每个四元组中的O1和当前症状观察之间的Jaccard相似度，能够得到与当前症状相似度最高的O1；最后，选择与O1相同的四元组中的O2作为患者治疗后的状态；其中，构建的四元组为(O1，A，R，O2)，O1代表患者当前的症状观察，A表示基于O1的真实行动，R表示完成行动A后的奖励，O2表示完成行动A后的新症状观察。

7.一种基于深度强化学习的中医动态诊疗方案优化和处方推荐系统，其特征在于，包括：诊疗方案优化模块，通过结合Q-Learning和卷积神经网络的强化学习模型、通过融合全连接网络和LSTM神经网络的强化学习模型进行诊疗方案优化模型训练，得到最佳的患者诊疗方案；处方推荐模块，用于将患者的症状和患者症状和诊疗优化模型优化输出的诊疗方案作为输入，构建多层神经网络用于预测中药处方，最终将优化输出的诊疗方案和预测的中药处方作为治疗方案推荐给患者。

8.一种计算机设备，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-6任一项所述的基于深度强化学习的中医动态诊疗方案优化方法。

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器和所述存储器相互通信，所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行如权利要求1-6任一项所述的基于深度强化学习的中医动态诊疗方案优化方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的基于深度强化学习的中医动态诊疗方案优化方法。