CN116936033B

CN116936033B - 一种经皮消融手术规划方法、装置、介质及设备

Info

Publication number: CN116936033B
Application number: CN202311197468.XA
Authority: CN
Inventors: 周凡渝; 池琛; 祁霞; 张雨萌; 罗富良; 黄乾富
Original assignee: Hygea Medical Technology Co Ltd
Current assignee: Hygea Medical Technology Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-11-17
Anticipated expiration: 2043-09-18
Also published as: CN116936033A

Abstract

本发明提供一种经皮消融手术规划方法、装置、介质及设备。获取含病灶的人体三维体素图像，人体三维体素图像包括不同的已分割区域；构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，以将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，其中，所述经皮消融手术规划包括消融区域和消融路径；构建并基于第一奖励函数训练用于求解所述目标函数的强化学习模型。通过该强化学习模型能够同时推荐最优的消融区域和消融路径，获得有指导价值的进针位置和消融区域，在降低术前路径规划难度的同时提高路径规划质量。

Description

一种经皮消融手术规划方法、装置、介质及设备

技术领域

本发明涉及肿瘤经皮消融手术的术前规划领域，尤其涉及一种经皮消融手术规划方法、装置、介质及设备。

背景技术

消融（Cryoablation）是指通过高/低温或化学等技术作用于病变组织从而达到原位灭活实体组织的方法。经皮消融治疗技术目前已大量用于肺癌、肝癌、肾癌、胰腺癌、前列腺癌、骨肿瘤、软组织肿瘤、乳腺癌等多种实体肿瘤的治疗，展现出明显的临床疗效和优势，为失去手术、放化疗等传统治疗机会的年老体弱患者提供了一个新的选择和希望。

消融针放置位置的准确性是经皮消融手术成功的关键。通过高分辨率的影像引导技术，医生可以在术前准确规划消融针穿刺路径和消融区域的形状及大小，使其完全覆盖肿瘤以确保充分破坏肿瘤组织，同时尽量降低对正常组织的损伤。在经皮消融手术规划中，通常根据患者的CT(Computed Tomography，电子计算机断层扫描)或MRI（MagneticResonance Imaging，磁共振成像）扫描来得到患者的三维影像；规划手术路径时，根据待消融肿瘤和附近危及器官计算消融手术的进针点、角度、深度以及消融范围；最后将计算所得的消融区域通过影像显示单元融合显示于患者的三维影像上。通过这些方法，可以以三维影像的方式反映出患者器官和肿瘤真实解剖结构, 准确地预测消融范围，从而为实施消融手术提供客观的参考。医生期望借助计算机辅助规划系统，为其提供具有指导价值的进针位置和消融区覆盖模型，在降低术前路径规划难度的同时提高路径规划质量。

相关技术中，研究人员将消融治疗的临床需求和目标量化成多个临床约束条件，以此作为计算机辅助规划系统的要求，形成基于约束条件的路径规划算法。然而在实际应用中，此类方法缺乏将最优化消融区域与路径规划相结合的能力，且消融手术规划方案若由临床医生执行，还需考虑医生的操作习惯（如站位、姿势等），由于约束条件并不详尽，基于约束条件的推荐方案并不能完全符合临床医生的实际需求。

发明内容

为了解决上述问题，本发明提供一种经皮消融手术规划方法、装置、介质及设备。

第一方面，本发明实施例提供一种经皮消融手术规划的强化学习模型训练方法，包括：

获取含病灶的人体三维体素图像，人体三维体素图像包括不同的已分割区域；

构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，以将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，其中，所述经皮消融手术规划包括消融区域和消融路径，所述目标函数以最大化病灶覆盖率为目标，且满足第一约束条件和第二约束条件，第一约束条件包括消融路径与第一区域间的距离最小值不小于设定的最小安全距离，第二约束条件包括消融区域与第二区域的交集为0，第一区域包括消融路径不能经过的已分割区域，第二区域包括消融区域不能包含的已分割区域；

构建并基于第一奖励函数训练用于求解所述目标函数的强化学习模型。

在一些实现方式中，所述人体三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；

所述获取含病灶的人体三维体素图像，包括：

获取含病灶的原始人体三维体素图像；

对所述原始人体三维体素图像中的病灶边缘进行膨胀操作，以创建出病灶边缘外扩大的安全边界区域；

对所述安全边界区域中与血管间距离小于预设值的区域进行腐蚀操作，得到最终的含病灶的人体三维体素图像。

在一些实现方式中，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；所述获取含病灶的人体三维体素图像，包括：

获取含病灶的原始人体三维体素图像；

基于病灶及所述安全边界区域创建目标病灶图像区域；

对所述目标病灶图像区域中与血管距离小于预设值的区域进行腐蚀操作，并将膨胀操作前的病灶恢复至腐蚀操作后的目标病灶图像区域中，得到最终的含病灶的人体三维体素图像。

在一些实现方式中，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；所述构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，包括：

将含病灶的人体三维体素图像置于三维坐标系中，以第一数值表示病灶对应的体素，以第二数值表示仅属于第一区域的体素，以第三数值表示仅属于第二区域的体素，以第四数值表示同时属于第一区域和第二区域的体素，含病灶的人体三维体素图像中的其余体素用第四数值表示；

以消融区域与病灶区域的交并比表示病灶覆盖率；

以最大化病灶覆盖率为目标，构建初始目标函数，所述初始目标函数表示为病灶覆盖率的负值，所述初始目标函数满足第一约束条件和第二约束条件；

引入拉格朗日乘子和惩罚项，基于初始目标函数、第一约束条件和第二约束条件构建增广拉格朗日函数形式的目标函数，以将经皮消融手术规划的约束优化问题转化为无约束的增广拉格朗日优化问题；

其中，所述第一约束条件的表达式为：，/>表示设定的最小安全距离，表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点；所述第二约束条件的表达式为：/>，/>表示消融区域与第二区域的交集，/>表示消融区域的坐标点。

在一些实现方式中，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；所述经皮消融手术规划的增广拉格朗日函数形式的目标函数，表达式如下：

其中，表示增广拉格朗日函数形式的目标函数，/>表示决策变量，决策变量包括消融路径和消融范围，/>= (x, y, z, alpha, beta, ra, rb)），（x, y, z）表示消融针针尖位置的坐标，(alpha, beta) 表示消融针绕针尖旋转的欧拉角，所述坐标和所述欧拉角用于表示消融路径，(ra, rb)表示椭球状消融区域的长半轴和短半轴，用于表示消融范围，/>=/>，/>表示最大化病灶覆盖率的目标，/>表示病灶覆盖率，λ= {/>,/>}表示拉格朗日乘子，/>表示惩罚因子，/>表示设定的最小安全距离，/>表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点，/>，/>表示消融区域与第二区域的交集，/>，/>表示消融区域的坐标点。

在一些实现方式中，本发明实施例的方法还包括：

基于训练的强化学习模型生成针对目标函数的一组求解结果；

获取专家针对该组求解结果反馈的一组评分；

构建并基于该组评分学习用于预测反馈的线性模型；

基于所述线性模型对第一奖励函数进行奖励塑形，得到第二奖励函数；

使用新的奖励函数再次训练强化学习模型，以更新所述强化学习模型。

在一些实现方式中，所述强化学习模型包括SAC算法的网络结构，所述第一奖励函数表达式如下：

其中，表示奖励，/>表示0~1的常量，/>表示消融针状态向量，/>表示用于表征消融针状态变化的状态转移函数，/>，/>= (x, y, z, alpha, beta, ra, rb)），（x, y, z）表示消融针针尖位置的坐标，(alpha, beta) 表示消融针绕针尖旋转的欧拉角，(ra, rb)表示椭球状消融区域的长半轴和短半轴，/>表示消融针动作向量，/>= (dx, dy, dz,dalpha, dbeta，dra, drb)，/>表示消融针状态变化对应的病灶覆盖率的负值，/>表示消融针动作向量对应的病灶覆盖率的负值，/>表示设定的最小安全距离，/>表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点，/>，/>表示消融区域与第二区域的交集，/>，/>表示消融区域的坐标点。

在一些实现方式中，所述用于预测反馈的线性模型，表达式如下：

其中，表示专家反馈的评分，/>表示权重参数，/>表示针对目标函数的求解结果对应的消融针状态和消融针动作的特征表示，/>表示偏置项。

在一些实现方式中，所述基于所述评分学习用于预测反馈的线性模型，包括：

通过最小化预测的专家反馈的评分与实际的专家反馈的评分之间的平方误差，学习权重参数和偏置项b，得到用于预测反馈的线性模型。

在一些实现方式中，所述基于所述线性模型对第一奖励函数进行奖励塑形，得到第二奖励函数，包括：

采用下式对第一奖励函数进行奖励塑形，得到第二奖励函数；

其中，表示第二奖励函数，/>表示第一奖励函数，/>表示所述线性模型，/>表示超参数。

第二方面，本发明实施例提供一种经皮消融手术规划方法，包括：

获取含病灶的目标人体三维体素图像；

采用第一方面所述的方法训练得到的经皮消融手术规划的强化学习网络，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

第三方面，本发明实施例提供一种经皮消融手术规划的强化学习网络训练装置，包括：

第一获取模块，用于获取含病灶的人体三维体素图像，人体三维体素图像包括不同的已分割区域；

目标函数构建模块，用于构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，以将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，其中，所述经皮消融手术规划包括消融区域和消融路径，所述目标函数以最大化病灶覆盖率为目标，且满足第一约束条件和第二约束条件，第一约束条件包括消融路径与第一区域间的距离最小值不小于设定的最小安全距离，第二约束条件包括消融区域与第二区域的交集为0，第一区域包括消融路径不能经过的已分割区域，第二区域包括消融区域不能包含的已分割区域；

学习网络训练模块，用于构建并基于第一奖励函数训练用于求解所述目标函数的强化学习网络。

第四方面，本发明实施例提供一种经皮消融手术规划装置，包括：

第二获取模块，用于获取含病灶的目标人体三维体素图像；

手术规划模块，用于采用第三方面所述的装置训练得到的经皮消融手术规划的强化学习网络，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

第五方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现如第一方面或第二方面所述的方法。

第六方面，本发明实施例提供一种电子设备，包括存储器和至少一个处理器，所述存储器上存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现如第一方面或第二方面所述的方法。

本发明的实施例至少具有如下有益效果：

本发明构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，构建并基于第一奖励函数训练用于求解目标函数的强化学习网络，通过该强化学习网络能够同时推荐最优的消融区域和消融路径，获得有指导价值的进针位置和消融区域，在降低术前路径规划难度的同时提高路径规划质量。进一步地，通过引入医生的专家反馈，进行奖励塑形，来再次训练强化学习网络，使得更新后的强化学习网络更加符合临床医生的实际需求，获得满足专家期望的最佳消融区域和消融路径的推荐信息，以期后续实现肿瘤的“适形”治疗。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定。

图1是本发明实施例提供的强化学习模型训练方法流程图；

图2是本发明实施例提供的3D环境中建模病灶和关键结构示意图；

图3是本发明实施例提供的SAC算法的网络结构的训练过程示例；

图4是本发明实施例提供的经皮消融手术规划方法流程图；

图5是本发明实施例提供的强化学习模型训练装置框图；

图6是本发明实施例提供的经皮消融手术规划装置框图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种经皮消融手术规划的强化学习网络训练方法，如图1所示，至少包括步骤S101~步骤S103：

步骤S101、获取含病灶的人体三维体素图像，人体三维体素图像包括不同的已分割区域。

在本实施例中，人体三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管等区域，其中，病灶可以是但不限于肿瘤，血管可以指直径大于设定值的较大血管，设定值例如是2mm，对于直径小于或等于2mm的较小血管则不做分割处理。

在一些实现方式中，步骤S101中获取含病灶的人体三维体素图像，包括：

步骤S101a1、获取含病灶的原始人体三维体素图像；原始人体三维体素图像可以指针对人体CT图像进行图像分割后的三维体素图像。

步骤S101a2、对原始人体三维体素图像中的病灶边缘进行膨胀操作，以创建出病灶边缘外扩大的安全边界区域。

在一个示例中，使用膨胀算法对原始人体三维体素图像中的肿瘤边缘进行膨胀操作，使肿瘤边缘扩大4~6毫米，以创建出一个安全边界区域。通过这样的膨胀操作能够沿着肿瘤边缘扩展出一定像素，使得原肿瘤区域的边缘向外扩展，通过逐渐扩展出的安全边界区域，能够防止误判或遗漏。

步骤S101a3、对安全边界区域中与血管间距离小于预设值的区域进行腐蚀操作，得到最终的含病灶的人体三维体素图像。

继续前面的示例，在安全边界图像中，使用腐蚀算法去除安全边界区域中距离直径大于2mm的较大血管小于1mm的区域。通过腐蚀操作会逐渐减小安全边界图像中的区域，以达到去除血管的目的，同时通过在腐蚀操作中将原肿瘤区域排除在外，使得在进行腐蚀操作时原肿瘤区域不受影响，保持原肿瘤区域完好无损。

通过步骤S101a1~步骤S101a3的预处理步骤，可以对原始人体三维体素图像中的肿瘤和血管进行处理，其中的膨胀操作将扩大肿瘤边缘以创建安全边界区域，腐蚀操作则去除血管区域并保持原肿瘤区域完好无损。

在另一些实现方式中，步骤S101中获取含病灶的人体三维体素图像，包括：

步骤S101b1、获取含病灶的原始人体三维体素图像；

步骤S101b2、对原始人体三维体素图像中的病灶边缘进行膨胀操作，以创建出病灶边缘外扩大的安全边界区域；

步骤S101b3、基于病灶及安全边界区域创建目标病灶图像区域；

步骤S101b4、对目标病灶图像区域中与血管距离小于预设值的区域进行腐蚀操作，并将膨胀操作前的病灶恢复至腐蚀操作后的目标病灶图像区域中，得到最终的含病灶的人体三维体素图像。

在一个示例中，使用膨胀算法对原始人体三维体素图像中的肿瘤边缘进行膨胀操作，使肿瘤边缘扩大4~6毫米，以创建出一个安全边界区域。通过这样的膨胀操作能够沿着肿瘤边缘扩展出一定像素，使得原肿瘤区域的边缘向外扩展，通过逐渐扩展出的安全边界区域，能够防止误判或遗漏。进一步地，继续前面的示例，在目标病灶图像区域中使用腐蚀算法去除距离直径大于2mm的较大血管小于1mm的区域。通过腐蚀操作会逐渐减小目标病灶图像区域，以达到去除血管的目的，同时通过在腐蚀操作完成后将原肿瘤区域重新恢复为原始状态，保持原肿瘤区域完好无损。

通过步骤S101b1~步骤S101b4的预处理步骤，可以对原始人体三维体素图像中的肿瘤和血管进行处理，其中的膨胀操作将扩大肿瘤边缘以创建安全边界区域，腐蚀操作则去除血管区域并保持原肿瘤区域完好无损。

步骤S102、构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，以将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，其中，经皮消融手术规划包括消融区域和消融路径，目标函数以最大化病灶覆盖率为目标，且满足第一约束条件和第二约束条件，第一约束条件包括消融路径与第一区域间的距离最小值不小于设定的最小安全距离，第二约束条件包括消融区域与第二区域的交集为0，第一区域包括消融路径不能经过的已分割区域，第二区域包括消融区域不能包含的已分割区域。

在一些实现方式中，构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，可以包括步骤S102a~步骤S102b：

步骤S102a、将含病灶的人体三维体素图像置于三维坐标系中，以第一数值表示病灶对应的体素，以第二数值表示仅属于第一区域的体素，以第三数值表示仅属于第二区域的体素，以第四数值表示同时属于第一区域和第二区域的体素，含病灶的人体三维体素图像中的其余体素用第四数值表示。

本实施例中，将前述预处理后的含病灶的人体三维体素图像置于三维坐标系中，以实现在3D环境中建模病灶和关键结构，如图2所示。

在一个示例中，第一数值、第二数值、第三数值、第四数值可分别为1、-1、-2、0。病灶的体素可以用1来表示，仅属于第一区域的体素即仅需要避免穿刺经过的区域的体素可以用-1表示，仅属于第二区域的体素即需要消融区域避免包含的区域的体素可以用-2表示，避免穿刺的区域和消融区域避免包含的区域重叠区域的体素用-3表示，其他区域可以用0表示。

消融针的位置、方向和以及消融区域大小的状态可以用一个向量来表示：

s= (x, y, z, alpha, beta, ra, rb)，

其中，(x, y, z, alpha, beta, ra, rb)），（x, y, z）表示消融针针尖位置的坐标，(alpha, beta) 表示消融针绕针尖旋转的欧拉角（忽略消融针自转的角度），所述坐标和所述欧拉角用于表示消融路径，(ra, rb)表示椭球状消融区域的长半轴和短半轴，用于表示消融范围。

经皮消融计划的目标是规划最优的消融范围和消融路径，使得满足最大化肿瘤覆盖率同时避开路径上的危及器官和消融不能损伤的区域。消融的范围可以近似为一个椭球，消融穿刺的三维空间包括病灶、关键结构等。消融针可以看作是在空间中移动和旋转且前端有一个椭球区域的刚体。

步骤S102b、以消融区域与病灶区域的交并比表示病灶覆盖率。

步骤S102c、以最大化病灶覆盖率为目标，构建初始目标函数，初始目标函数表示为病灶覆盖率的负值，初始目标函数满足第一约束条件和第二约束条件。

其中，第一约束条件的表达式为：，/>表示设定的最小安全距离，表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点；第二约束条件的表达式为：/>，/>表示消融区域与第二区域的交集，/>表示消融区域的坐标点。

在本实施例中，病灶覆盖率可以是指肿瘤覆盖率。

假设消融的肿瘤覆盖率用消融区域O _a与目标肿瘤区域O _t的交并比R表示，（O _a，O _t），则初始目标函数可以定义为最大化肿瘤覆盖率。这里，用负的肿瘤覆盖率表示初始目标函数/>，转换为最小化问题更符合优化的传统形式。

目标函数考虑以下约束条件：

第一约束条件：消融路径不能经过器官、骨骼、血管等特定区域（即第一区域），记为O₁。若p1表示路径上的坐标点，表示消融路径与O₁的最小安全距离可以取3~5mm，用函数G(p)表示穿刺路径与O₁距离的最小值。第一约束条件可以表示为：/>。

第二约束条件：消融区域不能包含器官和皮肤, 记为O₂。若p2表示消融区域上的坐标点，可以用函数H(p)表示消融区域与O₂交集。第二约束条件可以表示为：。

上述问题可以看作是一个约束优化问题。增广拉格朗日方法是一种求解约束优化问题的方法，通过引入拉格朗日乘子和一个惩罚项，可以将约束优化问题转化为无约束优化问题。增广拉格朗日函数考虑了原始问题的目标函数和约束条件，还增加了对违反约束的惩罚项，以此确保在迭代优化过程中满足约束条件。构建问题增广拉格朗日的无约束的优化问题的目标函数。

步骤S102d、引入拉格朗日乘子和惩罚项，基于初始目标函数、第一约束条件和第二约束条件构建增广拉格朗日函数形式的目标函数，以将经皮消融手术规划的约束优化问题转化为无约束的增广拉格朗日优化问题。

在一些实现方式中，经皮消融手术规划的增广拉格朗日函数形式的目标函数，表达式如下：

拉格朗日乘子和惩罚因子的选择和更新可以影响到方法的收敛性和解的精度。解决这个问题时，分别对决策变量π、拉格朗日乘子λ和惩罚因子μ进行更新，以减小目标函数值，直到满足终止条件为止。

本实施例中，可以采用强化学习实现决策变量π、拉格朗日乘子λ和惩罚因子μ的更新。

步骤S103、构建并基于第一奖励函数训练用于求解目标函数的强化学习模型。

在一些实现方式中，强化学习模型包括SAC（Soft Actor-Critic）算法的网络结构。在确定了优化目标后，可以使用SAC算法的网络结构来找到上述增广拉格朗日问题的最优解。SAC是一种基于策略的强化学习算法，主要采用了 Actor-Critic架构和最大熵强化学习原理。在此架构中，Actor用于决定在给定消融针状态下的动作，而 Critic则用于评估这些动作的质量。在这个场景中，用来确定最优的决策变量π以及拉格朗日乘子λ和惩罚因子μ。

将消融针的动作表示为一个向量，包括决定消融针的平移和旋转和消融范围的变化操作等，记为a= (dx, dy, dz, dalpha, dbeta，dra, drb)。消融针状态的变化可以状态转移函数表示为。

训练强化学习模型所用的第一奖励函数表达式如下：

构建强化学习环境（Reinforcement Learning Environment）：将上述状态空间（消融针状态向量的取值范围）、动作空间（动作向量a的取值范围）、第一奖励函数r和状态转移函数组合成一个强化学习环境，供智能体进行学习和优化。

SAC算法的网络结构包括待求解参数为的状态-值网络/>、参数为/>的软/>值网络/>以及参数为/>的策略网络/>。为了满足前述2个约束条件，增加了若干/>值网络用来更新λ、μ参数，然后用于更新策略网络/>，最后在满足约束的情况下达到最大的肿瘤覆盖率。策略网络用于产生基于当前状态产生相应的动作，状态-值网络、软Q值网络用于更新SAC算法的网络结构的强化学习环境。

在一个具体示例中，如图3所示，SAC算法的网络结构的训练过程如下：

（1）初始化所有网络的参数（Φ、ψ、θ），以及拉格朗日乘子向量λ和惩罚项μ；

（2）对于每个episode（批次）：

a）从强化学习环境中观察当前t时刻的状态；

b）根据策略网络和当前t时刻的状态选择动作/>∼/>(/>|/>)；

c）执行动作，观察下一个状态/>和奖励/>；

d）将经验 ( ,/>) 存储到经验回放（缓存）库D；

在执行完每个批次后，需要进行一次梯度下降。

（3）对于每一次梯度下降的步骤：

a）从经验回放（缓存）库D中随机采样一个批次（例如第i批次）的经验 ,)；

b）状态-值网络通过最小化均方误差来训练：计算出均方误差损失Loss(/>) =MSELoss(/>,/>-α/>)²，并使用优化器（例如SGD或Adam）来最小化此损失，计算梯度/>并更新参数/>；

c）软值网络/>通过最小化软贝尔曼残差来训练: 计算目标值/>：使用软/>值网络/>评估下一个状态的目标值：/>,/>，/>是折扣因子，决定了未来奖励的重要性，0 ≤/>≤ 1；将软/>值网络对(/>,/>)的估计值和目标值/>进行比较，计算出均方误差损失Loss(/>)=MSELoss(/>,/>,/>)，MSELoss表示软贝尔曼残差，并使用优化器（例如SGD或Adam）来最小化这个损失, 计算梯度/>并更新参数/>；

d）策略网络的训练：Loss (/>) = -/>,/>+ α * log(π(/>|/>))，计算梯度并更新策略网络参数/>；

e）策略网络更新达到一定次数，更新拉格朗日乘子：/>到下一批次；

f）策略网络更新达到一定次数，若不满足前述两个约束条件，则需要增大惩罚系数/>，进入下一批次的训练；

重复（2）~（3），直到强化学习环境内所有网络收敛，或者批次达到设定次数的情况下，停止训练。

在一些实现方式中，本发明实施例的方法还包括：

步骤S104、根据专家反馈，更新强化学习模型。

根据专家反馈的指导，对强化学习模型进行微调，得到网络的参数更新后的深度强化学习模型，既能够将最优化的消融区域与路径规划相结合，又能使其推荐的经皮手术规划的消融区域和消融路径更符合专家经验，符合临床医生的实际需求。

在使用SAC算法的网络结构得到初步解后，可以通过比较偏好学习和奖励塑形的人类反馈方法来微调SAC算法的网络结构。智能体与医生（专家）交互，医生可以通过专业知识和经验来提供反馈，帮助改善和优化SAC算法的网络结构的输出。

在一些实现方式中，根据专家反馈，更新的强化学习模型，可以进一步包括步骤S104a~步骤S104e：

步骤S104a、基于训练的强化学习模型生成针对目标函数的一组求解结果。

利用步骤S103训练的SAC算法的网络结构生成一组行动方案，此处的行动方案可以指一组包括消融路径和消融区域的经皮消融手术规划方案，并让专家对这些方案进行评分。

步骤S104b、获取专家针对该组求解结果反馈的一组评分。

设该组方案中有n个方案，每个方案（/>）由一系列状态和动作 (/>)组成，并由专家评出的分数/>表示。

步骤S104c、构建并基于该组评分学习用于预测反馈的线性模型。

对于一组人类反馈，可以利用线性模型预测用于预测专家的反馈，线性模型的表达式如下：

在一些实现方式中，基于评分学习用于预测反馈的线性模型，包括：通过最小化预测的专家反馈的评分与实际的专家反馈的评分之间的平方误差，学习权重参数和偏置项b，得到用于预测反馈的线性模型：

。

步骤S104d、基于线性模型对第一奖励函数进行奖励塑形，得到第二奖励函数。

在一些实现方式中，基于线性模型对第一奖励函数进行奖励塑形，得到第二奖励函数，包括：

其中，表示第二奖励函数，/>表示第一奖励函数，/>表示线性模型，/>表示超参数，用于控制专家反馈的影响力。

步骤S104e、使用新的奖励函数再次训练强化学习模型，以更新强化学习模型。

在训练过程中，可以周期性地生成新的行动方案，获得专家反馈，更新 F(s, a,s') ，然后微调奖励函数。直到智能体的行为（推荐的经皮消融手术规划）满足专家的期望。

本实施例结合了专家的直接反馈（进行奖励塑形）和间接反馈（基于比较偏好学习进行评分），能够从不同的角度引导智能体的学习，使其更好地适应复杂的任务和环境。通过这种方式，智能体不仅可以从奖励函数学习任务，还可以从专家的直接反馈中学习更复杂的任务知识和人类的偏好。从而使训练得到的深化强度学习模型能够获得最佳的消融区域和消融路径的推荐信息，以期后续应用中实现肿瘤的“适形”治疗。

实施例二

本实施例提供一种经皮消融手术规划方法，如图4所示，包括：

步骤S201、获取含病灶的目标人体三维体素图像；

步骤S202、采用实施例一的方法训练得到的经皮消融手术规划的强化学习模型，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

由于经皮消融手术规划的强化学习模型实现了将最优化消融区域与路径规划相结合，在降低术前路径规划难度的同时提高了路径规划质量。进一步地，在训练过程中，结合专家反馈进行奖励塑形以更新强化学习模型，能够使得强化学习模型推荐的经皮消融手术规划更加符合实际需求，以期后续应用中实现肿瘤的“适形”治疗。

实施例三

本实施例提供一种经皮消融手术规划的强化学习模型训练装置，如图5所示，包括：

第一获取模块301，用于获取含病灶的人体三维体素图像，人体三维体素图像包括不同的已分割区域；

目标函数构建模块302，用于构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，以将经皮消融手术规划优化问题转化为增广拉格朗日优化问题，其中，经皮消融手术规划包括消融区域和消融路径，目标函数以最大化病灶覆盖率为目标，且满足第一约束条件和第二约束条件，第一约束条件包括消融路径与第一区域间的距离最小值不小于设定的最小安全距离，第二约束条件包括消融区域与第二区域的交集为0，第一区域包括消融路径不能经过的已分割区域，第二区域包括消融区域不能包含的已分割区域；

学习模型训练模块303，用于构建并基于第一奖励函数训练用于求解所述目标函数的强化学习模型。

各模块的具体实现方式详见实施例一，本实施例不再赘述。应当理解的是，本实施例具备实施例一的全部有益效果。

实施例四

本实施例提供一种经皮消融手术规划装置，如图6所示，包括：

第二获取模块401，用于获取含病灶的目标人体三维体素图像；

手术规划模块402，用于采用实施例三的装置训练得到的经皮消融手术规划的强化学习模型，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

各模块的具体实现方式详见实施例二或实施例三，本实施例不再赘述。应当理解的是，本实施例具备实施例二或实施例三的全部有益效果。

实施例五

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被至少一个处理器执行时，实现如实施例一或二的方法。

其中，计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。

其中，处理器可以是专用集成电路（Application Specific IntegratedCircuit，简称ASIC）、数字信号处理器（Digital Signal Processor，简称DSP）、数字信号处理设备（Digital Signal Processing Device，简称DSPD）、可编程逻辑器件（ProgrammableLogic Device，简称PLD）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现，用于执行上述实施例中的方法。

实施例六

本实施例提供一种电子设备，包括存储器和至少一个处理器，存储器上存储有计算机程序，计算机程序被至少一个处理器执行时实现如实施例一或二的方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。

需要说明的是，在本文中，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种经皮消融手术规划的强化学习模型训练方法，其特征在于，包括：

构建并基于第一奖励函数训练用于求解所述目标函数的强化学习模型；

所述强化学习模型包括SAC算法的网络结构，所述第一奖励函数表达式如下：

其中，表示奖励，/>表示0~1的常量，/>表示消融针状态向量，/>表示用于表征消融针状态变化的状态转移函数，/>，/>= (x, y, z, alpha, beta, ra, rb)，（x, y, z）表示消融针针尖位置的坐标，(alpha, beta) 表示消融针绕针尖旋转的欧拉角，(ra, rb)表示椭球状消融区域的长半轴和短半轴，/>表示消融针动作向量，/>= (dx, dy, dz, dalpha,dbeta，dra, drb)，/>表示消融针状态变化对应的病灶覆盖率的负值，/>表示消融针动作向量对应的病灶覆盖率的负值，/>表示设定的最小安全距离，/>表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点，/>，/>表示消融区域与第二区域的交集，/>，/>表示消融区域的坐标点。

2.根据权利要求1所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述人体三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；

所述获取含病灶的人体三维体素图像，包括：

获取含病灶的原始人体三维体素图像；

3.根据权利要求1所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；

所述获取含病灶的人体三维体素图像，包括：

获取含病灶的原始人体三维体素图像；

基于病灶及所述安全边界区域创建目标病灶图像区域；

4.根据权利要求1所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；所述构建经皮消融手术规划的增广拉格朗日函数形式的目标函数，包括：

以消融区域与病灶区域的交并比表示病灶覆盖率；

5.根据权利要求1所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述三维体素图像包括已分割的皮肤、骨骼、器官、病灶和血管；所述经皮消融手术规划的增广拉格朗日函数形式的目标函数，表达式如下：

其中，表示增广拉格朗日函数形式的目标函数，/>表示决策变量，决策变量包括消融路径和消融范围，/>= (x, y, z, alpha, beta, ra, rb)，（x, y, z）表示消融针针尖位置的坐标，(alpha, beta) 表示消融针绕针尖旋转的欧拉角，所述坐标和所述欧拉角用于表示消融路径，(ra, rb)表示椭球状消融区域的长半轴和短半轴，用于表示消融范围，=/>，/>表示最大化病灶覆盖率的目标，/>表示病灶覆盖率，λ = {/>, />}表示拉格朗日乘子，/>表示惩罚因子，/>表示设定的最小安全距离，/>表示消融路径与第一区域间距离的最小值，/>表示消融路径上的坐标点，/>，/>表示消融区域与第二区域的交集，/>，/>表示消融区域的坐标点。

6.根据权利要求1所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，还包括：

获取专家针对该组求解结果反馈的一组评分；

构建并基于该组评分学习用于预测反馈的线性模型；

7.根据权利要求6所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述用于预测反馈的线性模型，表达式如下：

8.根据权利要求7所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述基于所述评分学习用于预测反馈的线性模型，包括：

9.根据权利要求7所述的经皮消融手术规划的强化学习模型训练方法，其特征在于，所述基于所述线性模型对第一奖励函数进行奖励塑形，得到第二奖励函数，包括：

10.一种经皮消融手术规划方法，其特征在于，包括：

获取含病灶的目标人体三维体素图像；

采用权利要求1至9任一项所述的方法训练得到的经皮消融手术规划的强化学习模型，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

11.一种经皮消融手术规划的强化学习模型训练装置，其特征在于，包括：

学习模型训练模块，用于构建并基于第一奖励函数训练用于求解所述目标函数的强化学习模型；

12.一种经皮消融手术规划装置，其特征在于，包括：

第二获取模块，用于获取含病灶的目标人体三维体素图像；

手术规划模块，用于采用权利要求11所述的装置训练得到的经皮消融手术规划的强化学习模型，得到针对目标人体三维体素图像中病灶的经皮消融手术规划。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被至少一个处理器执行时，实现如权利要求1至10中任一项所述的方法。

14.一种电子设备，其特征在于，包括存储器和至少一个处理器，所述存储器上存储有计算机程序，所述计算机程序被所述至少一个处理器执行时实现如权利要求1至10中任一项所述的方法。