CN115151303A

CN115151303A - 治疗计划生成方法、装置、设备及介质

Info

Publication number: CN115151303A
Application number: CN202280002027.7A
Authority: CN
Inventors: 郭鹏; 李金升
Original assignee: Our United Corp
Current assignee: Our United Corp
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-10-04
Also published as: WO2023184178A1

Abstract

本申请实施例提供一种治疗计划生成方法、装置及存储介质，涉及医疗信息技术领域，方法包括：获取目标靶区的目标轮廓；在预设靶点映射关系中查找与所述目标轮廓对应的目标靶点集；所述目标靶点集包括靶点的数量以及各靶点的尺寸；根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置；根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，并生成治疗计划。本申请可提高治疗计划的制定效率。

Description

治疗计划生成方法、装置、设备及介质

技术领域

本申请涉及医疗信息技术领域，尤其涉及一种治疗计划生成方法、装置、设备及介质。

背景技术

放射治疗，简称放疗，是一种常见的癌症治疗手段。在采用放疗设备为病患进行放疗之前，需先设计针对该病患的治疗计划。

目前，治疗计划大多为物理师基于临床经验，采用治疗计划系统(TreatmentPlanSystem，TPS)对靶区内靶点的数量、尺寸、位置以及各靶点的剂量等进行设计，从而得到治疗计划。

但是，人工设计治疗计划，对物理师的临床经验要求较高，并且，为使得设计的治疗计划能确保满足处方剂量，需要不断进行试错调整，其整个过程时间较长。

发明内容

本申请实施例提供一种治疗计划生成方法、装置、设备及介质，以提升治疗计划的制定效率。

第一方面，本申请实施例提供一种治疗计划生成方法包括：

获取目标靶区的目标轮廓；

在预设靶点映射关系中查找与所述目标轮廓对应的目标靶点集；所述目标靶点集包括靶点的数量以及各靶点的尺寸；

根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置；

根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，并生成治疗计划。

在另一种实现方式中，所述根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置，包括：

根据所述靶点的尺寸，确定各靶点的靶点掩膜；

根据所述靶点掩膜对所述目标轮廓进行卷积形状匹配，确定各靶点在所述目标靶区内的位置。

在又一种实现方式中，所述根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，包括：

根据各靶点的尺寸、位置、权重进行剂量计算，得到所述目标靶区的剂量线分布；

根据所述剂量线分布以及所述预设处方剂量，确定各靶点的剂量。

在再一种实现方式中，所述在预设靶点映射关系中查找与所述目标轮廓对应的目标靶点集之前，所述方法还包括：

获取多个靶区；

对多个所述靶区进行勾画，得到多个所述靶区的靶区轮廓；

根据每个所述靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集；

根据所述靶区轮廓以及对应靶区轮廓的靶点集，建立所述预设靶点映射关系。

在再一种可实现方式中，所述根据每个所述靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集，包括：

根据所述靶区轮廓，制作对应靶区的靶区掩膜；

根据所述靶区掩膜构建对应靶区的状态矩阵，其中，所述状态矩阵包括：所述靶区掩膜；

根据所述状态矩阵，得到所述靶区轮廓的靶点集。

在再一种可实现方式中，所述根据所述状态矩阵，得到所述对应靶区轮廓的靶点集，包括：

基于卷积神经网络对所述状态矩阵进行特征提取，确定得到第一个靶点的尺寸；

根据所述第一个靶点的尺寸，确定所述第一个靶点的位置以及所述第一个靶点的剂量，并更新所述对应靶区的状态矩阵；

根据更新后的所述状态矩阵，依次确定后续靶点的尺寸、靶点的位置以及靶点剂量直至满足所述预设处方剂量，并更新所述对应靶区的状态矩阵；

统计上述靶点数量，将靶点数量以及各靶点的尺寸作为对应所述靶区轮廓的靶点集。

在再一种可实现方式中，所述基于卷积神经网络对所述状态矩阵进行特征提取，得到第一个靶点的尺寸，包括：

采用所述卷积神经网络对所述状态矩阵进行特征提取，得到对应靶区的初始状态特征；

采用预设的动作选择网络对所述初始状态特征进行处理，得到所述第一个靶点的尺寸。

在再一种可实现方式中，所述根据第一个靶点的尺寸，确定所述第一个靶点的位置以及所述第一个靶点的剂量，包括：

根据所述第一个靶点的尺寸，确定所述第一个靶点的掩膜；

根据所述第一个靶点的掩膜对靶区轮廓进行卷积形状匹配，确定所述第一个靶点的位置；

根据所述第一个靶点的位置，确定所述第一个靶点的剂量。

在再一种可实现方式中，所述状态矩阵还包括：对应靶区的剂量状态，所述更新对应靶区的状态矩阵，包括：

根据第t个靶点的剂量以及对应靶区的体积，计算对应靶区内t个靶点的剂量状态信息；其中，t为大于或等于1的整数；

根据所述t个靶点的剂量状态信息，更新所述剂量状态。

在再一种可实现方式中，所述剂量状态包括：剂量覆盖分布、剂量适形分布以及剂量溢出分布；所述剂量状态信息包括：剂量覆盖信息、剂量适形信息以及剂量溢出信息；

所述根据所述t个靶点的剂量状态信息，更新所述剂量状态，包括：

根据所述t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，分别更新所述剂量覆盖分布、所述剂量适形分布以及所述剂量溢出分布。

在再一种可实现方式中，所述方法还包括：

根据所述t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，计算所述第t个靶点的奖励信息。

在再一种可实现方式中，所述方法还包括：

根据所述第t个靶点的奖励信息，计算对应靶区内t个靶点的当前累计奖励信息；

所述当前累计奖励信息用于表征所述靶区轮廓的当前靶点集的可靠度。

在再一种可实现方式中，所述方法还包括：

存储更新后的所述状态矩阵、所述靶区轮廓的当前靶点集、所述当前累计奖励信息。

在再一种可实现方式中，所述方法还包括：

根据所述当前累计奖励信息以及对应靶区的历史累计奖励信息，计算所述靶区轮廓的当前靶点集和所述靶区轮廓的前一次靶点集之间的相对优势参数；所述历史累计奖励信息用于表征所述前一次靶点集的可靠度；

根据所述相对优势参数，从所述当前靶点集和所述前一次靶点集中确定并更新所述靶区轮廓的目标靶点集。

第二方面，本申请实施例还可提供一种治疗计划生成装置包括：

获取模块，用于获取目标靶区的目标轮廓；

查找模块，用于在预设靶点映射关系中查找与所述目标轮廓对应的目标靶点集；所述目标靶点集包括靶点的数量以及各靶点的尺寸；

第一确定模块，用于根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置；

第二确定模块，用于根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，并生成治疗计划。

第三方面，本申请实施例还提供一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一所述的治疗计划生成方法。

第四方面，本申请实施例还提供一种非易失性存储介质，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述第一方面任一所述的治疗计划生成方法。

本申请实施例提供的治疗计划生成方法、装置、设备及介质，可基于目标靶区的目标轮廓，通过与预先得到的靶点映射关系进行形状匹配，确定目标轮廓的目标靶点集，实现了目标靶区内最佳靶点组合的确定，在最佳靶点组合，也即目标靶点集确定的情况下，还根据确定的目标靶点集中的各靶点的尺寸，确定各靶点在目标靶区内的位置，确定了各尺寸靶点在目标靶区内放置的最佳位置，其次，还根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，实现了各靶点在目标靶区内对应位置处的剂量计算，继而实现了治疗计划生成过程中，靶点数量以及靶点尺寸的最佳靶点组合、靶点位置以及剂量的自动程序化计算，避免了人工制定治疗计划的过程中各步骤的重复，简化了治疗计划的制定生成过程，也降低了治疗计划对临床经验的依赖，提高了治疗计划的精度以及效率，从而使得治疗计划的应用得到有效保证。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种治疗计划生成方法的流程图；

图2为本申请实施例提供的一种治疗计划生成方法中确定靶点剂量的方法流程图；

图3为本申请实施例提供的一种治疗计划生成方法中训练预设靶点映射关系的方法流程图；

图4为本申请实施例提供的一种治疗计划生成方法中靶区轮廓的深度强化学习训练的方法流程图；

图5为本申请实施例提供的一种治疗计划生成方法中得到靶区轮廓的靶点集的方法流程图；

图6为本申请实施例提供的一种治疗计划生成方法中训练模块的框架示意图；

图7为本申请实施例提供的一种治疗方法生成方法中靶区轮廓的深度强化学习训练的又一方法流程图；

图8为本申请实施例提供的一种治疗计划生成装置的示意图；

图9为本申请实施例提供的一种计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

相对于传统技术中，人工涉及治疗计划，本申请实施例旨在提供一种可通过算法程序为目标靶区自动生成治疗计划的方案，无需人为介入，且避免了治疗计划设计过程中的反复试错调整，提高了治疗计划的制定效率。

执行本申请实施例提供的治疗计划生成方法的设备可以为安装有治疗计划生成算法的计算机设备，计算机设备可以通过运行治疗计划生成算法，执行对应的治疗计划生成方法。放疗计划生成算法可以为TPS的一个子功能模块，其还可称为TPS计算模块。需要指的是，采用本申请实施例提供的治疗计划生成方法，所生成的治疗计划，可以被应用于任意放射治疗设备。放射治疗设备可以包括：聚焦治疗设备或适形治疗设备。下述实施例中，以应用在多源聚焦治疗头为例，具体的以伽玛刀治疗头为例进行举例说明。

伽玛刀是一种常见的癌症治疗设备，目前伽玛刀治疗计划多为物理师使用治疗计划系统(TPS)根据临床经验对不同尺寸靶点数量、靶点位置进行设计，使靶区满足处方剂量的同时危及器官(OAR)尽可能少地受到照射，是一个不断试错、调整的过程，这个过程繁复且耗时。

现有的伽玛刀治疗计划优化方法主要是基于几何特征的优化方法，即需要根据靶区形状、面积估计出不同尺寸的靶点个数组合，计划优化的过程是最优化靶点位置的过程。人工治疗计划能确保满足处方剂量但耗时较长，基于靶点位置优化的自动治疗计划速度快、花费人力少，但是初始化的靶点尺寸组合需要丰富经验，优化过程漫长，结果也往往不尽如人意，最后还需物理师进行调整。

针对以上问题，本申请实施例提出一种基于深度强化学习和形态匹配的治疗计划算法。深度强化学习是以图像为输入将深度学习对环境特征的感知能力和强化学习对事件的决策能力相结合的人工智能算法。深度强化学习是在智能体(Agent)与环境(Env)相互作用中，从环境中获取t时刻图像状态(State)，根据当前状态执行某种行为(Action)，获得对应的奖励与惩罚(Reward)。强化学习算法的目的就是通过训练去学习一套动作策略(Policy)，来最大化未来的累积回报(CumulativeReward)。由于强化学习训练过程中不需要人为经验数据作为训练模板，大大减少了人工成本，因此，使用深度强化学习算法符合伽玛刀治疗计划设计的特点，让计算机实现重复试错过程，得出最佳治疗计划，可以降低对临床经验的依赖，无需人工设置靶点组合和靶点位置，也无需人工的训练样本，提高治疗计划的效果，提升物理师制定治疗计划的效率。

如下结合多个示例，首先对本申请实施例所提供的治疗计划生成方法进行示例的解释说明。图1为本申请实施例提供的一种治疗计划生成方法的流程图。如图1所示，治疗计划生成方法可包括：

S101、获取目标靶区的目标轮廓。

在可能的实现示例中，预先获取待照射对象的图像，并对该图像进行轮廓勾画，得到图像中待照射对象的目标靶区的轮廓，也就是目标轮廓。其中，目标靶区包括待照射对象的待照射区域。示例的，待照射对象可以为模体、人体以及动物等。目标靶区可以为人体的肿瘤区域或者动物的肿瘤区域等，目标轮廓即为肿瘤区域的轮廓。轮廓勾画可以是医师人工勾画，也可以是自动勾画。本申请实施例可从预设的存储位置中获取预先勾画得到的目标靶区的目标轮廓，也可从靶区轮廓设备中获取实时勾画的目标靶区的目标轮廓。

需要说明的是，目标靶区还可称为计划靶区(Planning Target Volume，PTV)，目标轮廓还可称为PTV形状或者PTV轮廓。

S102、在预设靶点映射关系中查找与目标轮廓对应的目标靶点集。

目标靶点集包括靶点的数量以及各靶点的尺寸。预设靶点映射关系中至少可存储有多个靶区轮廓的靶点集，在可能的实现过程中，可将目标轮廓与预设靶点映射关系中各靶区轮廓进行形状匹配，根据形状匹配结果，确定预设靶点映射关系中与目标靶区的形状匹配度最高的靶区轮廓的靶点集作为目标轮廓对应的目标靶点集。也就是说，与目标轮廓对应，指的是，形状与目标轮廓的外形相匹配。预设靶点映射关系中的每个靶区轮廓的靶点集中均包括有：对应靶区轮廓内的靶点数量，以及各靶点的尺寸，其指代的含义可以是，在对应靶区轮廓内最佳放置的各靶点的尺寸，以及各尺寸下的靶点数量。换言之，预设靶点映射关系中，每个靶区轮廓的靶点集实际为对应靶区轮廓下的各靶点尺寸下的靶点数量组合，即在对应靶区轮廓下，靶点尺寸和数量的最佳组合。预设靶点映射关系例如可预先存储在记忆单元中，通过记忆单元中存储的预设靶点映射关系查找出的目标靶点集即为针对目标靶区的最佳靶点策略。

下文如无特说明，为便于描述，如下涉及的靶点的数量以及靶点的尺寸，指的是目标靶点集中的靶点数量，以及各靶点的尺寸。

S103、根据各靶点的尺寸，确定各靶点在目标靶区内的位置。

在具体实现过程中，可根据各靶点的尺寸与目标靶区的目标轮廓进行形状匹配的方式，确定对应尺寸的靶点放置在目标靶区内的最佳位置，即为各靶点在目标靶区内的位置。

在一种可能的实现示例中，如上S103中根据各靶点的尺寸，确定各靶点在目标靶区内的位置可包括：

根据靶点的尺寸，确定各靶点的靶点掩膜；

根据靶点掩膜对目标轮廓进行卷积形状匹配，确定各靶点在目标靶区内的位置。

示例的，可根据靶点的尺寸，基于预设的靶点形状，采用预设的靶点掩膜制作方式，生成靶点的靶点掩膜，靶点掩膜即为对应靶点尺寸的靶点掩膜，靶点的一个尺寸，对应有一个靶点掩膜，不同尺寸对应不同的靶点掩膜。在得到靶点掩膜之后，可采用靶点掩膜，对目标轮廓进行卷积形状匹配，以确定该尺寸的靶点放置在目标靶区内的最佳位置，即靶点在目标靶区内的位置。在具体的实现示例中，可将靶点掩膜和目标轮廓输入至预设的卷积形状匹配网络，以采用卷积形状匹配网络对靶点掩膜和目标轮廓进行形状匹配，得到靶点在目标靶区内的位置。

S104、根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，并生成治疗计划。

在可能实现方式中，可将各靶点放置在目标靶区内对应的位置处，并结合预设处方剂量，计算各靶点放置在对应位置处的剂量，即各靶点的剂量，其中，预设处方剂量指的是针对目标靶区预先设定的处方剂量。示例的，在计算各靶点的剂量的过程中，可将各靶点放置在目标靶区内对应的位置处，对各靶点进行剂量计算，得到各靶点在对应位置的剂量分布，继而根据剂量分布以及预设处方剂量，计算各靶点的剂量。

制定治疗计划本身实际是，在指定目标靶区内进行放疗时，目标靶区内的靶点的数量、各靶点的尺寸以及各靶点的剂量。如此，在得到各靶点的剂量之后，可根据目标靶点集中靶点的数量、各靶点的尺寸、各靶点的位置以及各靶点的剂量，生成针对目标靶区的治疗计划。

本申请实施例提供的治疗计划生成方法，可基于目标靶区的目标轮廓，通过与预先得到的靶点映射关系进行形状匹配，确定目标轮廓的目标靶点集，实现了目标靶区内最佳靶点组合的确定，在最佳靶点组合，也即目标靶点集确定的情况下，还根据确定的目标靶点集中的各靶点的尺寸，确定各靶点在目标靶区内的位置，确定了各尺寸靶点在目标靶区内放置的最佳位置，其次，还根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，实现了各靶点在目标靶区内对应位置处的剂量计算，继而实现了治疗计划生成过程中，靶点数量以及靶点尺寸的最佳靶点组合、靶点位置以及剂量的自动程序化计算，避免了人工制定治疗计划的过程中各步骤的重复，简化了治疗计划的制定生成过程，也降低了治疗计划对临床经验的依赖，提高了治疗计划的精度以及效率，从而使得治疗计划的应用得到有效保证。

其次，本实施例提供的方法中，通过靶点的尺寸确定各靶点的靶点掩膜，采用靶点掩膜对目标轮廓进行卷积形状匹配，确定了各靶点在目标靶区内的位置，实现了各尺寸的靶点的最优位置的自动确定，避免了人为反复确定并调整靶点位置，提高了治疗计划的精度以及效率。

在上述实施例提供的治疗计划生成方法的基础上，针对上述实施例中提到的确定各靶点的剂量的具体实现，本申请实施例提供了一种可能的实现方式。图2为本申请实施例提供的一种治疗计划生成方法中确定靶点剂量的方法流程图。如图2所示，上述方法中S104中根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，可以包括：

S201、根据各靶点的尺寸、位置、权重进行剂量计算，得到目标靶区的剂量线分布。

示例的，可根据各靶点的尺寸、位置以及各靶点在目标靶区内的权重，采用预设的剂量计算方法，计算将各靶点放置于目标靶区内对应位置处的目标靶区的剂量线分布。其中，预设的剂量计算方法例如可以为蒙特卡洛模拟计算方法，也可以为其他的剂量计算方法。剂量线分布可以为50％剂量线分布，也就是目标靶区内被50％剂量线所覆盖的区域；也可以为其他数值百分比计量线，具体根据实际需求进行设定，本申请实施例不做具体限定。

S202、根据剂量线分布以及预设处方剂量，确定各靶点的剂量。

通过剂量计算得到目标靶区内各靶点在对应位置处时目标靶区的剂量线分布，如此，可根据剂量线分布乘以预设处方剂量，得到各靶点的剂量，当然，在采用剂量线分布乘以预设处方剂量之后，还可采用其它的靶点剂量修正方法，对计算得到的剂量进行修正或者调整，本申请实施例不进行赘述。

为更好的理解本方案，现对剂量线分布和剂量进行说明，采用剂量计算的方式得到的剂量线分布可用于表征目标靶区内的剂量分布，但其不等于实际剂量，而基于预设处方剂量确定的各靶点的剂量为各靶点的实际剂量，其用于指导基于治疗计划在靶点处的放射剂量。

本实施例提供的方法中，可先根据各靶点的尺寸、位置及权重进行剂量计算，得到目标靶区的剂量线分布，继而根据剂量线分布以及预设处方剂量确定各靶点的剂量，实现了目标靶区内各靶点剂量的计算，确保了目标靶区内的处方剂量要求，避免了人工治疗计划中靶点剂量的反复确认，降低了生成治疗计划过程中确保处方剂量的耗时。

如上所示的预设靶点映射关系可以预先根据多个靶区轮廓进行深度强化学习训练得到的。通过深度强化学习训练得到预设靶点映射关系例如可以是由计算机设备的处理单元执行，处理单元可以为中央处理单元，也可以为图形处理单元(Graphics ProcessingUnit，GPU)。采用GPU执行深度强化学习训练，可使得预设靶点映射关系的训练效率得到有效保证。执行深度强化学习训练得到预设靶点映射关系的计算机设备，与执行治疗计划生成方法的计算机设备可以为同一计算机设备，也可以为不同计算机设备。

如下结合具体的示例进行说明，图3为本申请实施例提供的一种治疗计划生成方法中训练预设靶点映射关系的方法流程图。如图3所示，在上述方法S102中在预设靶点映射关系中查找与目标轮廓对应的目标靶点集之前，还可包括：

S301、获取多个靶区。

多个靶区可以为形状随机的多个靶区。多个靶区可以为同时生成，也可依次生成，本申请实施例不对此进行限制。多个靶区可以是获取多张不同靶区的医学图像，然后从中提取靶区图像，从而得到的靶区；也可以是模拟生成的多个不同形状的靶区。

S302、对多个靶区进行勾画，得到多个靶区的靶区轮廓。

对每个靶区的勾画，和上述实施例中得到目标靶区的靶区轮廓的具体实现类似，具体参见上述，在此不再赘述。

S303、根据每个靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集。

在可能的实现方式中，可采用预设的训练模块，根据每个靶区轮廓进行深度强化学习训练，训练出针对每个靶区轮廓满足处方剂量要求的计划模型，即对应靶区轮廓的靶点集。在采用深度强化学习对每个靶区轮廓进行训练的过程中，实际是针对每个靶区轮廓，通过机器试错的方式不断进行训练，直至确定出满足处方剂量要求的情况下，在对应靶区轮廓内允许放置的靶点数量以及各靶点的尺寸，如此，得到了对应靶区轮廓的靶点集。

S304、根据靶区轮廓以及对应靶区轮廓的靶点集，建立预设靶点映射关系。

在对多个靶区的靶区轮廓进行深度强化学习训练得到各个靶区轮廓的靶点集之后，便可基于靶区轮廓以及对应靶区轮廓的靶点集，建立靶区轮廓和靶点集映射关系，如此实现了预设靶点映射关系的建立，在建立预设靶点映射关系的情况下，还可将预设靶点映射关系作为深度强度学习训练得到的经验参数，存储在记忆单元中。记忆单元也可称为经验记忆单元。

本申请实施例提供的方法中，在对每个靶区轮廓进行深度强化学习训练的过程中，通过机器重复试错，得到对应靶区轮廓的靶点集，得到了最佳的靶点组合，实现了靶区轮廓对应的靶点轮廓的自动生成，无需人工设置靶点组合，无需人为经验数据作为训练样本，大大减少了人工成本，也降低了对临床经验的依赖，从而有效保证基于靶点集生成的治疗计划的效果，提升了物理师制定治疗计划的效率。

如下结合附图通过具体的示例对每个靶区轮廓的深度强化学习训练过程进行解释说明。图4为本申请实施例提供的一种治疗计划生成方法中靶区轮廓的深度强化学习训练的方法流程图，如图4所示，如上所示方法中的S303中根据每个靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集可以包括：

S401、根据靶区轮廓，制作对应靶区的靶区掩膜。

在具体实现过程中，可根据靶区轮廓以及危及器官(Organ At Risk，OAR)图像，对预设三维图像进行处理，制作得到靶区掩膜。危机器官图像指的是靶区轮廓对应区域周边的正常器官即未发生病变的器官，其所在的图像。预设三维图像可以为具有预设尺寸的三维图像，也可称为尺寸统一的三维矩阵。在制作靶区掩膜的过程中，例如，可基于靶区轮廓，对预设三维图像中靶区轮廓对应的区域进行和OAR区域分别执行不同的操作，生成靶区掩膜，使得靶区掩膜中靶区轮廓对应的区域，和OAR区域进行区分，同时，将后续靶点位置搜索空间限制在靶区掩膜中靶区轮廓对应的区域，避免靶点位置落入OAR区域，从而避免对OAR区域的治疗损伤。

示例的，为统一靶区位置的搜索空间，在制作靶区掩膜的过程中，可将预设尺寸的三维像素矩阵中靶区轮廓对应区域的像素值设为1，OAR区域的像素值设置为-1，其他组织区域的像素值设置为0。也就是说，生成的靶区轮廓实际为三维像素矩阵，即三维的靶区掩膜图像。

虽然靶点位置的搜索空间是在靶区掩膜的三维像素矩阵中，但是由于靶区掩膜中不同区域的像素值不同，在基于靶区掩膜后续生成的状态矩阵得到靶点集的过程中，靶区轮廓对应靶区的靶点位置也只能将像素值为1的区域作为可行域进行选择，即靶点位置是基于靶区掩膜中靶区轮廓对应区域内进行选择。

S402、根据靶区掩膜构建对应靶区的状态矩阵。

在可能的实现过程中，可根据靶区掩膜，采用预设的状态矩阵模型，构建对应靶区的状态矩阵。状态矩阵模型作为深度强化学习系统的环境状态矩阵，可用于表征环境状态特征，例如可包括：多层特征矩阵，靶区掩膜作为其中一层，用以表征靶区掩膜的状态特征。也就是说，状态矩阵至少可用于表示靶区掩膜的状态矩阵。示例的，靶区掩膜可作为状态矩阵中的第一层特征矩阵，即靶区对应的基础特征矩阵。

S403、根据状态矩阵，得到靶区轮廓的靶点集。

在可能的实现过程中，可根据状态矩阵，对靶区轮廓进行深化强化学习训练，直至得到满足预设处方剂量要求的靶区轮廓的靶点集。

本实施例提供的方法中，可通过采用靶区轮廓生成得到对应靶区的靶区掩膜的基础上，还针对特定的靶区形状，即靶区轮廓，将靶点限制在靶区轮廓对应区域内，避免在其他区域内搜索靶点位置，减少了靶点位置的搜索空间，提高了基于靶区轮廓的训练速度，从而使得治疗计划的制定速度得到有效提升。

在上述图4所示的深度强化学习训练的基础上，本申请实施例还提供了一种基于状态矩阵得到靶点集的可能实现示例。图5为本申请实施例提供的一种治疗计划生成方法中得到靶区轮廓的靶点集的方法流程图，如图5所示，如上所示的方法中S403中根据状态矩阵，得到靶区轮廓的靶点集，可以包括：

S501、基于卷积神经网络(Convolutional Neural Networks，CNN)对状态矩阵进行特征提取，得到第一个靶点的尺寸。

在一种可能的实现方式中，可采用卷积神经网络对状态矩阵进行特征提取，得到对应靶区的初始状态特征；采用预设的动作选择网络对初始状态特征进行处理，得到第一个靶点的尺寸。

在基于状态矩阵进行学习的过程中，可将状态矩阵输入至预设的智能体，又称智能网络模型中，得到第一个靶点的尺寸。其中，预设的智能体可包括：CNN，可基于CNN对状态矩阵进行特征提取，得到对应靶区的初始状态特征。在得到初始状态特征之后，可基于初始状态特征，模拟在对应靶区内放置第一个靶点的过程，以得到第一个靶点的尺寸。

在可能的实现示例中，预设的智能体中还包括：动作选择网络又称动作网络(ActorNet)，动作选择网络的输入层连接CNN的输出层，以将CNN得到的对应靶区的初始状态特征，输入至动作选择网络中。如此，在采用CNN对状态矩阵进行特征提取，得到对应靶区的初始状态特征之后，还可采用动作选择网络对初始状态特征进行处理，得到第一个靶点的尺寸。

其中，CNN为三层的三维卷积神经网络，动作选择网络可以为神经网络架构的智能网络模型，以基于CNN提取到的状态特征确定靶点尺寸。动作选择网络例如可以是基于近端策略优化算法(PPO)的神经网络模型，其可根据提取的状态特征，采用PPO算法，得到靶点尺寸，如根据初始状态特征采用PPO算法，得到第一个靶点的尺寸。

S502、根据第一个靶点的尺寸，确定第一个靶点的位置以及第一个靶点的剂量，并更新对应靶区的状态矩阵。

在确定第一个靶点的尺寸的情况下，可将第一个靶点的尺寸，与对应靶区轮廓进行形状匹配，确定具有对应尺寸的第一个靶点放置在目标靶区内的最佳位置，即为第一个靶点的位置，继而根据第一个靶点的位置以及预设处方剂量确定第一个靶点的剂量。

在一种可能实现方式中，如上S103中根据第一个靶点的尺寸，确定第一个靶点的位置以及第一个靶点的剂量，可以包括：

根据第一个靶点的尺寸，确定第一个靶点的掩膜；

根据第一个靶点的掩膜对靶区轮廓进行卷积形状匹配，确定第一个靶点的位置；

根据第一个靶点的位置，确定第一个靶点的剂量。

在本实施例中，确定第一个靶点的掩膜的具体实现过程，与上述确定目标靶点集中各靶点的靶点掩膜的具体实现过程示例，参见上述，本实施例在此不再赘述；相应的，在本实施例中确定第一个靶点的位置的具体实现过程，与上述确定目标靶点集中各靶点在目标靶区内的位置的具体实现过程类似，具体描述参见上述，本实施例在此不再赘述；相应的，确定第一个靶点的剂量的具体实现过程，与上述S104中确定目标靶点集中各靶点的剂量的具体实现类似，具体描述参见上述，本实施例在此不再赘述。

在确定第一个靶点的位置以及第一个靶点的剂量之后，可基于第一个靶点的剂量，更新对应靶区的状态矩阵。

S503、根据更新后的状态矩阵，依次确定后续靶点的尺寸、位置以及剂量直至满足预设处方剂量。

根据更新后的状态矩阵，重新执行确定靶点的尺寸、位置以及剂量的过程，每确定出一个靶点的尺寸、位置以及剂量之后，便更新一次状态矩阵，直至针对靶区轮廓对应靶区确定出的各靶点的剂量分布满足预设处方剂量的要求，且，靶点数量未超出预设的单个靶区内的靶点数量阈值。其中，针对靶区轮廓对应靶区确定出的各靶点的剂量分布满足预设处方剂量的要求，例如可以是，针对靶区轮廓对应的靶区确定出的所有靶点的总剂量之和达到预设处方剂量。

其中，基于更新后的状态矩阵，确定后续各靶点的尺寸、位置以及剂量的具体实现，可与基于状态矩阵确定第一个靶点的尺寸、位置以及剂量的实现过程类似，具体描述参见上述。

在上述实施例提供的方法的基础上，其中，状态矩阵除了包括靶区掩膜，还可包括对应靶区的剂量状态。相应的，上述方法中更新对应靶区的状态矩阵，可以包括：

根据t个靶点的剂量状态信息，更新状态矩阵中的剂量状态。

对应靶区内t个靶点的剂量状态信息，指的是，在对应靶区内放置t个靶点，对应靶区的剂量状态信息。也就是说，在采用上述方法每确定出一个靶点的剂量，便可基于当前确定靶点的剂量以及对应靶区的体积，计算对应靶区内当前所有靶点的剂量状态信息，继而更新剂量状态。其中，靶区的体积指的是，靶区对应三维区域的体积。示例的，若t为1，也就是第1个靶点，在确定出第一个靶点的剂量的情况下，可根据第一个靶点的剂量以及对应靶点的体积，计算对应靶区内1个靶点的剂量状态信息，继而根据1个靶点的剂量状态信息，更新状态矩阵中的剂量状态。若t为大于1的整数，在确定出第t个靶点的剂量的情况下，可根据第t个靶点的剂量、对应靶点的体积以及第t个靶点之前t-1个靶点的剂量，计算对应靶区内t个靶点的剂量状态信息，继而根据t个靶点的剂量状态信息，更新状态矩阵中的剂量状态。

在可能的实现方式中，如上所示的剂量状态可包括：剂量覆盖分布、剂量适形分布以及剂量溢出分布。其中，剂量覆盖分布、剂量适形分布以及剂量溢出分布分别作为状态矩阵中的三层特征矩阵。也就是说，状态矩阵可包括：四层特征矩阵，四层特征矩阵分别可以为靶区掩膜、剂量覆盖分布、剂量适形分布以及剂量溢出分布。其中，靶区掩膜可以作为第一层特征矩阵，剂量覆盖分布可以作为第二层特征矩阵、剂量适形分布可以作为第三层特征矩阵，剂量溢出分布作为第四层特征矩阵。剂量覆盖分布可用于表征对应靶区内存在剂量分布的区域，剂量适形分布可用于表征对应靶区内存在剂量不足的区域，剂量溢出分布可用于表征对应靶区内存在剂量溢出的区域。

相应的，剂量状态信息包括：剂量覆盖信息、剂量适形信息以及剂量溢出信息。

其中，剂量覆盖信息例如可以是根据第t个靶点的剂量以及对应靶区的体积，分别采用下述公式(1)-公式(3)计算对应靶区内t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息。

其中，Cov_t为t个靶点的剂量覆盖信息，又称剂量覆盖度，

为第t个靶点以及第t-1个靶点的50％剂量，即，前后两个靶点执行后的50％剂量，PTV为对应靶区的体积，Con_t为t个靶点的剂量适形信息又称剂量适形度，Out_t为t个靶点的剂量溢出信息又称剂量溢出度。

如上所示的方法中，根据t个靶点的剂量状态信息，更新剂量状态，则可包括：

根据t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，分别更新剂量覆盖分布、剂量适形分布以及剂量溢出分布。

即，根据t个靶点的剂量覆盖信息，更新状态矩阵中的剂量覆盖分布，相应的，根据t个靶点的剂量适形信息，更新状态矩阵中的剂量适形分布；相应的，根据t个靶点的剂量溢出信息，更新状态矩阵中的剂量溢出分布。

S504、统计上述靶点数量，将靶点数量以及各靶点的尺寸作为靶区轮廓的靶点集。

示例的，在针对靶区轮廓对应靶区，确定出的所有靶点的剂量满足预设处方剂量的情况下，可对针对靶区轮廓对应靶区所确定的所有靶点中不同尺寸的靶点进行数量统计，得到靶区轮廓对应的各尺寸的靶点数量，并将靶点数量和各靶点的尺寸作为靶区轮廓的靶点集进行存储。也就是说，靶区轮廓的靶点集中的靶点数量可以是针对各靶点尺寸的数量。例如，靶区轮廓的靶点集为：X个A尺寸的靶点、Y个B尺寸的靶点……等等。

当然，在另外的一些可能实现方式中，靶点数量也可以是针对靶区轮廓对应靶区的总靶点数量，各靶点的尺寸可以是逐个靶点进行列出，例如为第一个靶点的尺寸为A尺寸、第二靶点的尺寸为B尺寸……第t个靶点的尺寸为U尺寸……等等。

在上述实施例所示的方法的基础上，本方法还可包括：

根据t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，计算第t个靶点的奖励信息。

例如，可根据t个靶点的剂量覆盖信息、剂量适形信息、剂量溢出信息，以及t-1个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，采用下述公式(4)计算第t个靶点的奖励信息。

其中，R_t为第t个靶点的奖励信息，Cov_t为t个靶点的剂量覆盖信息，

为t-1个靶点的剂量覆盖信息，Con_t为t个靶点的剂量适形信息，Con_t-1为t-1个靶点的剂量适形信息，Out_t为t个靶点的剂量溢出信息，Out_t-1为t-1个靶点的剂量溢出信息。

在可能的实现方式中，方法还可包括：

根据第t个靶点的奖励信息，计算对应靶区内t个靶点的当前累计奖励信息；当前累计奖励信息用于表征靶区轮廓的当前靶点集的可靠度。

例如，可根据t个靶点中各靶点对应的奖励折扣率，采用下述公式(5)对各靶点的奖励信息进行累加，得到对应靶区内t个靶点的当前累计奖励信息。

其中，R_i为针对对应靶区的第i个计划策略π_i，当前累计奖励信息，其中，i为当前计划策略，表示每计算一个靶点的尺寸、位置以及剂量，对于对应靶区，相当于得到一个计划策略。γ^t-1为第t-1个靶点对应的奖励折扣率，其中，γ可根据预设的最大靶点数量也就是靶点数量阈值，可近似计算设置为0.1¹/₂₀≈0.9，其可用于表征t个靶点之后的20步动作对当前状态的影响。由于折扣率的存在，越往后的动作增加确定的靶点对当前动作确定的靶点的影响越小。R_t为第t个靶点的奖励信息。t为大于或等于1的整数。

累计奖励信息即为t个靶点的累积回报信息，其值越高，其表征靶区轮廓的靶点集的可靠度越高，反之，累计奖励信息的值越低，表征靶区轮廓的当前靶点集的可靠度越低。

在可能的实现方式中，方法还可包括：

存储更新后的对应靶区的状态矩阵、靶区轮廓的当前靶点集、对应靶区的当前累计奖励信息。

将更新后的状态矩阵、靶区轮廓的当前靶点集、对应靶区的当前累计奖励信息存储至记忆单元中。

在另外的可能的实现方式中，方法还可包括：

根据当前累计奖励信息以及对应靶区的历史累计奖励信息，计算靶区轮廓的当前靶点集和靶区轮廓的历史靶点集之间的相对优势参数；历史累计奖励信息用于表征历史靶点集的可靠度；

根据相对优势参数，从当前靶点集和所述历史靶点集中确定并更新靶区轮廓的靶点集。

例如，可根据当前累计奖励信息以及对应靶区的历史累计奖励信息，采用下述公式(6)计算靶区轮廓的当前靶点集和靶区轮廓的历史靶点集，也就是靶区轮廓的新旧策略之间的相对优势参数。

上述公式中，

表示s_t状态下采用动作a_t的新旧策略比值，在本实施例中，动作a_t为当前确定的靶点尺寸，P_θ(a_t|s_t)为动作a_t下历史靶点集的选取概率，

为动作a_t下当前靶点集的选取概率，因此新旧策略比值实际为s_t状态下当前靶点集的选取概率和历史靶点集的选取概率的比值。其中，当前靶点集的选取概率为根据当前累计奖励信息确定得到，历史靶点集的选取概率为根据历史累计奖励信息确定得到。

表示当前策略下奖励的期望，其可根据当前累计奖励信息和当前靶点集的选取概率计算得到，ε为优势函数的预设裁剪系数，

为相对优势参数。

在计算得到相对优势参数之后，可基于相对优势参数，从当前靶点集和历史靶点集中确定最优的目标靶点集，并将记忆单元中的靶区轮廓的靶点集更新为最优的目标靶点集。示例的，若相对优势参数满足第一条件，则可确定当前靶点集优于历史靶点集，因此可将当前靶点集确定并更新为靶区轮廓的靶点集；若相对优势参数满足第二条件，则可确定历史靶点集优于当前靶点集，则可确定历史靶点集为靶区轮廓的最优靶点集。

本实施例提供的方法，通过对靶区轮廓的深度强化学习训练，实现了在深度强化学习训练过程中的机器重复试错，从而找到对应靶区轮廓的靶点集，避免了人工设置靶点组合，无需人为经验数据作为训练样本，大大减少了人工成本，同时也降低对临床经验的依赖，还保证了靶区轮廓的靶点集的准确度，从而有效保证治疗计划的精度以及效率。

为保证对本申请提供的方案更好的理解，如下继续结合附图通过完整的细化实现示例，对靶区轮廓的深度强化学习训练过程进行解释说明。图6为本申请实施例提供的一种治疗计划生成方法中训练模块的框架示意图，训练模块为对靶区轮廓进行深度强化学习训练的算法模型。训练模块可用于根据输入的靶区轮廓，又称靶区形状训练出符合预设处方剂量的要求的计划模型，也即靶区轮廓的靶点集。采用训练模块对靶区轮廓进行训练的过程，实际为机器试错的经验积累过程，其相当于物理师在执着治疗计划的试错过程。

训练模块的输入：基于靶区轮廓制作靶区轮廓对应靶区的靶区掩膜。

环境的状态特征：分为四部分，相应的，状态矩阵为四层特征矩阵，第一层特征矩阵即State[0]为靶区掩膜，第二层特征矩阵即State[1]为剂量覆盖分布，第三层特征矩阵即State[2]为剂量适形分布，第四层特征矩阵即State[3]为剂量溢出分布。

深度强化学习训练的智能体：由一个CNN和由CNN连接的两个不同网络，即动作网络(ActorNet)和评价网络(CriticNet)，其中，CNN用于对状态矩阵进行特征提取，得到状态特征，动作网络用于基于状态特征进行动作选择，即根据状态特征确定对应靶区内的靶点的尺寸，评价网络用于基于状态特征计算对应靶区的状态价值参数，即得到状态的评价参数值，继而根据状态评价参数计算智能体的损失函数值，继而判断其是否满足停止迭代条件。

L＝αL_actor+βL_critic

L_actor＝mean(min(ratio*A_t，clip(ratio，1-ε，1+ε)*A_t))

L_critic＝(A_t+value-V_critic)²

其中α＝1，β＝0.5，L_actor为ActorNet的损失函数值，L_critic为CriticNet的损失函数值。Radio为新旧策略的相对优势，即相对优势参数，value为状态的评价参数值，A_t为t时刻算选动作即t时刻确定的靶点尺寸。

采用训练之后的智能体可通过对靶区轮廓进行深度强化学习训练得到，靶区轮廓的靶点尺寸，再结合卷积形状匹配的方式确定各靶点的位置。

深度强化学习训练过程的奖励机制：奖励分为两部分，实时奖励和延迟奖励，其中，实时奖励是计算前后两个靶点的尺寸执行后50％剂量覆盖率(Coverage)和靶区适形度(Conformity)的增长值作为正向奖励，同时使用尽可能少的靶点个数，在每放置一个靶点后进行一个负奖励；延迟奖励是达到预设处方剂量的要求时，剂量覆盖率后有一个较大的正向奖励，最终会计算每个计划策略也即每个靶点的累积奖励信息，即累计回报。

经验记忆单元，用于储存状态矩阵St、动作At、奖励Rt、价值Vt等组合信息。其中，状态矩阵St的具体描述可参加上述，动作At即为采用动作网络所确定的第t个靶点的尺寸，奖励Rt即为上述第t个靶点的奖励信息，价值Vt即为对状态矩阵St进行评价得到的评价参数值。

策略更新模块：可使用近端策略优化(PPO)算法对记忆单元中存储的靶区轮廓的靶点集也即策略进行优化更新。例如，可根据对应靶区的当前累计奖励信息以及对应靶区的历史累计奖励信息，采用PPO算法计算靶区轮廓的当前靶点集和靶区轮廓的历史靶点集，也就是靶区轮廓的新旧策略之间的相对优势参数。其中，当前靶点集可表示为对应靶区的新策略(New_n)，历史靶点集可表示为对应靶区的旧策略(Old_n)。

图7为本申请实施例提供的一种治疗方法生成方法中靶区轮廓的深度强化学习训练的又一方法流程图，如图7所示，方法包括：

S701、根据随机生成的一个靶区轮廓以及OAR图像，生成一个靶区轮廓对应的靶区掩膜。

S702、确定靶区掩膜中靶区轮廓对应区域为目标搜索区域。

通过确定靶区掩膜中靶区轮廓对应的区域为目标搜索区域，可将靶点位置限制在靶区轮廓对应的区域内，而避免靶点位置落入其他区域内，从而在治疗过程中对其他区域如危及器官区域造成不必要的损伤，从而还减少了搜索控件，提高了训练和计划制定的效率。

S703、根据靶区掩膜构建对应靶区的状态矩阵。

S704、采用CNN对状态矩阵进行特征提取，得到状态特征，并采用动作网络基于状态特征得到对应靶区的第一个靶点尺寸。

S705、根据第一个靶点的尺寸，对靶区轮廓进行卷积形状匹配，确定所述第一个靶点的位置。

S706、根据第一个靶点的位置以及预设处方剂量，确定第一个靶点的剂量。

S707、根据第一个靶点的剂量以及对应靶区的体积，计算对应靶区内1个靶点的剂量状态信息，并更新对应靶区的状态矩阵、计算1个靶点的累计奖励信息。

S708、基于更新后的状态矩阵，预设靶点数量阈值内重复执行以确定后续靶点的尺寸、位置以及剂量，并更新状态矩阵，计算当前靶点的累计奖励信息，直至对应靶区内的靶点的剂量分布满足预设处方剂量，存储靶区轮廓的靶点集。

S709、重新随机生成另一靶区轮廓，基于重新生成的靶区轮廓重新进行深度强化学习训练，得到另一靶区轮廓的靶点集，直至达到预设的停止迭代条件。

S710、根据各靶区轮廓以及对应靶区轮廓的靶点集，建立预设靶点映射关系。

本实施例提供的方法，通过对随机生成的各靶区轮廓进行深度强化学习训练，实现了在深度强化学习训练过程中的机器重复试错，从而找到对应靶区轮廓的靶点集，大大减少了人工成本，同时也降低对临床经验的依赖，还保证了靶区轮廓的靶点集的准确度，从而有效保证治疗计划的精度以及效率。

下述对用以执行的本申请所提供的治疗计划生成装置、设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

图8为本申请实施例提供的一种治疗计划生成装置的示意图，如图8所示，治疗计划生成装置800可包括：

获取模块801，用于获取目标靶区的目标轮廓；

查找模块802，用于在预设靶点映射关系中查找与目标轮廓对应的目标靶点集；目标靶点集包括靶点的数量以及各靶点的尺寸。

确定模块803，用于根据各靶点的尺寸，确定各靶点在目标靶区内的位置；

生成模块804，用于根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，并生成治疗计划。

可选的，确定模块803，具体用于根据靶点的尺寸，确定各靶点的靶点掩膜；根据靶点掩膜对目标轮廓进行卷积形状匹配，确定各靶点在目标靶区内的位置。

在其中一个实施例中，生成模块804，具体用于根据各靶点的尺寸、位置、权重进行剂量计算，得到目标靶区的剂量线分布；根据剂量线分布；以及预设处方剂量，确定各靶点的剂量。

在其中一个实施例中，治疗计划生成装置800还包括：

训练模块，用于在预设靶点映射关系中查找与目标轮廓对应的目标靶点集之前，获取多个靶区；对多个靶区进行勾画，得到多个靶区的靶区轮廓；根据每个靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集；根据靶区轮廓以及对应靶区轮廓的靶点集，建立预设靶点映射关系。

在其中一个实施例中，训练模块，具体用于根据靶区轮廓，制作对应靶区的靶区掩膜；根据靶区掩膜构建对应靶区的状态矩阵，其中，状态矩阵包括：所述靶区掩膜；根据状态矩阵，得到靶区轮廓的靶点集。

在其中一个实施例中，训练模块，具体用于基于卷积神经网络对状态矩阵进行特征提取，得到第一个靶点的尺寸；根据第一个靶点的尺寸，确定第一个靶点的位置以及第一个靶点的剂量，并更新对应靶区的状态矩阵；根据更新后的状态矩阵，依次确定后续靶点的尺寸、位置以及剂量直至满足所述预设处方剂量；统计上述靶点数量，将靶点数量以及各靶点的尺寸作为靶区轮廓的靶点集。

在其中一个实施例中，训练模块，具体用于采用卷积神经网络对状态矩阵进行特征提取，得到对应靶区的初始状态特征；采用预设的动作选择网络对初始状态特征进行处理，得到第一个靶点的尺寸。

在其中一个实施例中，训练模块，具体用于根据第一个靶点的尺寸，确定第一个靶点的掩膜；根据第一个靶点的掩膜对靶区轮廓进行卷积形状匹配，确定第一个靶点的位置；根据第一个靶点的位置，确定第一个靶点的剂量。

在其中一个实施例中，状态矩阵还包括：对应靶区的剂量状态，训练模块，具体用于根据第t个靶点的剂量以及对应靶区的体积，计算对应靶区内t个靶点的剂量状态信息；其中，t为大于或等于1的整数；根据t个靶点的剂量状态信息，更新剂量状态。

在其中一个实施例中，剂量状态包括：剂量覆盖分布、剂量适形分布以及剂量溢出分布；剂量状态信息包括：剂量覆盖信息、剂量适形信息以及剂量溢出信息。

训练模块，具体用于根据t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，分别更新所剂量覆盖分布、剂量适形分布以及剂量溢出分布。

在其中一个实施例中，训练模块，还用于根据t个靶点的剂量覆盖信息、剂量适形信息以及剂量溢出信息，计算第t个靶点的奖励信息。

在其中一个实施例中，训练模块，还用于根据第t个靶点的奖励信息，计算对应靶区内t个靶点的当前累计奖励信息；当前累计奖励信息用于表征靶区轮廓的当前靶点集的可靠度。

在其中一个实施例中，训练模块，还用于存储更新后的状态矩阵、靶区轮廓的当前靶点集、当前累计奖励信息。

在其中一个实施例中，训练模块，还用于根据当前累计奖励信息以及对应靶区的历史累计奖励信息，计算靶区轮廓的当前靶点集和靶区轮廓的前一次靶点集之间的相对优势参数；历史累计奖励信息用于表征前一次靶点集的可靠度；根据相对优势参数，从当前靶点集和前一次靶点集中确定并更新靶区轮廓的目标靶点集。

上述装置用于执行前述实施例提供的治疗计划生成方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本申请实施例提供的一种计算机设备的示意图，该计算机设备的具体产品形态可以为具备计算处理功能的计算设备或服务器。

计算机设备900包括：存储器901、处理器902。存储器901和处理器902通过总线连接。

存储器901存储有处理器902可执行的计算机程序，处理器902在执行计算机程序时，可实现执行上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

在上述放疗剂量确定方法的基础上，本申请实施例还可提供一种用于执行上述放疗剂量确定方法的计算机可读存储介质，其可以为非易失性存储介质，其上存储有计算机程序，计算机程序可在被读取并执行时执行上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种治疗计划生成方法，其特征在于，包括：

获取目标靶区的目标轮廓；

根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置；

2.根据权利要求1所述的方法，其特征在于，所述根据各靶点的尺寸，确定各靶点在所述目标靶区内的位置，包括：

根据所述靶点的尺寸，确定各靶点的靶点掩膜；

3.根据权利要求1所述的方法，其特征在于，所述根据各靶点的位置以及预设处方剂量，确定各靶点的剂量，包括：

4.根据权利要求1所述的方法，其特征在于，所述在预设靶点映射关系中查找与所述目标轮廓对应的目标靶点集之前，所述方法还包括：

获取多个靶区；

对多个所述靶区进行勾画，得到多个所述靶区的靶区轮廓；

5.根据权利要求4所述的方法，其特征在于，所述根据每个所述靶区轮廓进行深度强化学习训练，得到对应靶区轮廓的靶点集，包括：

根据所述靶区轮廓，制作对应靶区的靶区掩膜；

根据所述状态矩阵，得到所述靶区轮廓的靶点集。

6.根据权利要求5所述的方法，其特征在于，所述根据所述状态矩阵，得到所述靶区轮廓的靶点集，包括：

基于卷积神经网络对所述状态矩阵进行特征提取，得到第一个靶点的尺寸；

根据更新后的所述状态矩阵，依次确定后续靶点的尺寸、位置以及剂量直至满足所述预设处方剂量；

统计上述靶点数量，将靶点数量以及各靶点的尺寸作为所述靶区轮廓的靶点集。

7.根据权利要求6所述的方法，其特征在于，所述基于卷积神经网络对所述状态矩阵进行特征提取，得到第一个靶点的尺寸，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据第一个靶点的尺寸，确定所述第一个靶点的位置以及所述第一个靶点的剂量，包括：

根据所述第一个靶点的尺寸，确定所述第一个靶点的掩膜；

根据所述第一个靶点的位置，确定所述第一个靶点的剂量。

9.根据权利要求6所述的方法，其特征在于，所述状态矩阵还包括：对应靶区的剂量状态，所述更新对应靶区的状态矩阵，包括：

根据所述t个靶点的剂量状态信息，更新所述剂量状态。

10.根据权利要求9所述的方法，其特征在于，所述剂量状态包括：剂量覆盖分布、剂量适形分布以及剂量溢出分布；所述剂量状态信息包括：剂量覆盖信息、剂量适形信息以及剂量溢出信息；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

15.一种治疗计划生成装置，其特征在于，包括：

获取模块，用于获取目标靶区的目标轮廓；

16.一种计算机设备，其特征在于，包括：存储器和处理器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1-14任一项所述的治疗计划生成方法。

17.一种非易失性存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被读取并执行时，实现上述权利要求1-14任一项所述的治疗计划生成方法。