CN117152155B - 一种多针消融规划方法、装置、存储介质及电子设备 - Google Patents

一种多针消融规划方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117152155B
CN117152155B CN202311425955.7A CN202311425955A CN117152155B CN 117152155 B CN117152155 B CN 117152155B CN 202311425955 A CN202311425955 A CN 202311425955A CN 117152155 B CN117152155 B CN 117152155B
Authority
CN
China
Prior art keywords
ablation
state
needle
focus
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311425955.7A
Other languages
English (en)
Other versions
CN117152155A (zh
Inventor
张明莉
介清
池琛
江荣华
杨晶晶
罗富良
黄乾富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hygea Medical Technology Co Ltd
Original Assignee
Hygea Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hygea Medical Technology Co Ltd filed Critical Hygea Medical Technology Co Ltd
Priority to CN202311425955.7A priority Critical patent/CN117152155B/zh
Publication of CN117152155A publication Critical patent/CN117152155A/zh
Application granted granted Critical
Publication of CN117152155B publication Critical patent/CN117152155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供一种多针消融规划方法、装置、存储介质及电子设备,所述方法包括:获取基于医学图像获取的待消融目标病灶的初始状态;将初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;其中,多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括各时刻目标病灶预测状态。在强化学习模型中引入图注意力机制,规划消融方案时不仅考虑单针自身消融动作的影响,还融合考虑其他单针消融所带来的影响,极大限度地精准覆盖病灶。

Description

一种多针消融规划方法、装置、存储介质及电子设备
技术领域
本发明属于消融技术领域,特别涉及一种多针消融规划方法、装置、存储介质及电子设备。
背景技术
随着科学技术的进步,微波消融或冷冻消融已经被广泛应用。目前在进行消融手术时,单针消融较为成熟,然而单针消融范围有限,难以完全覆盖体积较大的肿瘤。为增大消融灶,降低复发率,临床中医生大多采用多针联合消融的方式,但这需要医生凭借经验根据单针的消融覆盖范围来规划多针消融的治疗方案,布针不当则会降低消融覆盖率,消融针功率过大和治疗时间过长也可能伤害到病灶周围健康的组织。现有的该领域多为仅应用强化学习方法,且多为单针的手术规划方案,未考虑到针对较大病灶的多针消融的情况,现有技术亟待提高。
发明内容
为解决上述问题,本发明提供一种多针消融规划方法、装置、存储介质及电子设备,能够在多针消融的情况下尽可能提高消融覆盖率,生成更为高效的消融规划方案。
第一方面,本发明实施例提供一种多针消融规划方法,包括:
获取基于医学图像获取的待消融目标病灶的初始状态;
将所述初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,所述多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,所述多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态。
在一些实现方式中,所述多针消融状态转移模型包括长短期记忆网络和循环神经网络;
所述长短期记忆网络的输入包括当前时刻目标病灶初始状态的特征信息,输出包括融合历史时刻目标病灶状态的第一状态特征;
所述循环神经网络的输入包括当前时刻消融动作特征与所述第一状态特征的拼接结果,输出包括下一时刻目标病灶预测状态特征。
在一些实现方式中,还包括:训练多针消融状态转移模型;所述训练多针消融状态转移模型的过程包括:
收集和构建训练数据集,训练数据集中每一条训练数据包括各时刻目标病灶初始状态和消融动作,以及基于各时刻目标病灶初始状态和消融动作得到的下一时刻病灶状态;
构建多针消融状态转移模型,并初始化所述多针消融状态转移模型参数;
将所述训练数据集划分为训练集和测试集;
提取当前时刻病灶初始状态的特征信息;
将所述当前时刻病灶初始状态的特征信息输入所述长短期记忆网络,融合历史时刻病灶状态,获得当前时刻的第一状态特征;
提取当前时刻消融动作特征;
将当前时刻消融动作特征与所述第一状态特征的结果拼接后,输入所述循环神经网络,得到下一时刻病灶预测状态特征;
计算下一时刻病灶真实状态特征与下一时刻病灶预测状态特征的误差,基于所述误差更新所述多针消融状态转移模型参数;
基于所述测试集验证所述多针消融状态转移模型,在所述多针消融状态转移模型满足预设误差要求的情况下,训练得到最终的多针消融状态转移模型。
在一些实现方式中,所述当前时刻病灶初始状态的特征信息和所述当前时刻消融动作特征通过多层感知器提取。
在一些实现方式中,还包括:训练多针消融规划模型;所述训练多针消融规划模型的过程包括:
将每个消融针抽象为一个智能体,构建嵌入图注意力机制的强化学习模型及将所述强化学习模型的决策过程定义为七元组,所述七元组包括病灶的总体状态空间,智能体的消融动作空间,智能体的消融动作局部状态空间,奖励函数,多针消融状态转移模型,奖励折扣因子和智能体的数目;
初始化所述强化学习模型的参数以及图注意力机制的参数;
执行智能体与病灶的交互迭代,包括:
观测当前智能体的局部状态空间,计算当前智能体的局部状态空间特征;
将当前智能体的局部状态空间特征与其他智能体的局部状态空间特征进行拼接,依次输入到图注意力机制中计算当前智能体相对其他智能体的注意力权重;
基于注意力权重计算当前智能体的融合状态特征,所述融合状态特征是当前智能体的局部状态空间特征,与其他智能体的局部状态空间特征及对应注意力权重的加权和之间的拼接结果;
将所述融合状态特征输入所述强化学习模型的动作网络,得到当前智能体的所有消融动作的估计价值,基于所述估计价值从中选择要执行的消融动作;
执行所选消融动作,基于奖励函数获得相应的奖励值,并将当前病灶状态和所选消融动作输入到多针消融状态转移模型,得到下一时刻的病灶预测状态,将当前智能体的当前状态信息存入经验池,所述状态信息包括消融动作、局部状态空间与奖励值和下一时刻的病灶预测状态;
从经验池中采集预设数量的目标状态信息,计算各目标状态信息对应的消融动作的奖励值;
通过梯度反向传播更新所述强化学习模型的参数;
重复执行智能体与病灶的交互迭代过程,直至满足预设目标,训练得到最终的多针消融动作模型。
在一些实现方式中,所述奖励函数如下:
在多个智能体均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体均到达病灶的情况下,奖励值增加设定值;
在多个智能体的消融范围均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体的消融范围覆盖到整个病灶的情况下,奖励值增加设定值;
各智能体的消融重叠区域的奖励值,采用下式计算:
其中,表示奖励值,/>表示智能体的数目,/>表示第i个智能体的消融体积,/>表示所有智能体的消融重叠区域的消融体积。
在一些实现方式中,所述各时刻目标病灶的初始状态和各时刻目标病灶预测状态包括病灶的大小、形状和位置;所述消融动作包括消融时间、消融功率和进针位置。
第二方面,本发明实施例提供一种多针消融规划装置,包括:
获取模块,用于获取基于医学图像获取的待消融目标病灶的初始状态;
规划模块,用于将所述初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,所述多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,所述多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如第一方面所述的方法。
第四方面,本发明实施例提供一种电子设备,包括存储器和至少一个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现如第一方面所述的方法。
有益效果:
本发明在强化学习模型中引入图注意力机制,使单针消融的同时注意到其他单针的信息,在规划消融方案时不仅考虑单针自身消融动作的影响,还融合考虑了其他单针消融所带来的影响,极大限度地精准覆盖病灶,打破了传统依据经验布针消融的局限性,很大程度上提高了多针消融手术的操作精度和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。
图1是本发明实施例提供一种多针消融规划方法流程图;
图2是本发明实施例提供的多针消融状态转移模型示意图;
图3是本发明实施例提供的具有4根消融针的多针消融情形示意图;
图4是本发明实施例提供一种多针消融规划装置框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供一种多针消融规划方法,如图1所示,包括:
步骤S101、获取基于医学图像获取的待消融目标病灶的初始状态。
在实际应用中,医学图像可以指包含待消融目标病灶的CT图像,目标病灶例如是肿瘤。
步骤S102、将初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态。
本实施例中,通过在强化学习模型中嵌入图注意力机制实现多个消融针的特征融合,综合考虑其他单针的状态进行判断,以提高病灶的消融覆盖率,同时尽量减少对正常组织的覆盖。此外,结合了反映多针消融下病灶预测状态的多针消融状态转移模型,能够在进行多针特征融合时准确学习到每个时刻的目标消融动作。
本实施例的方法还包括:
步骤S100、训练多针消融状态转移模型。
具体地,训练多针消融状态转移模型的过程包括:
步骤S100a、收集和构建训练数据集,训练数据集中每一条训练数据包括各时刻目标病灶初始状态和消融动作,以及基于各时刻目标病灶初始状态和消融动作得到的下一时刻病灶状态。
在实际应用中,收集临床医生在针对肿瘤的多针消融手术中的相关数据,包括但不限于手术前、手术中和手术后病患病灶处状态,消融针的角度,进针压力,消融功率,消融时间等数据。将上述数据按照时刻划分,获得每一时刻目标病灶初始状态,消融动作以及采取消融动作后的目标病灶状态,构建出预训练数据集,其中的每一条训练数据包括当前时刻目标病灶的原始状态和消融动作序列和采取消融动作后的下一时刻目标病灶状态。
其中,各时刻目标病灶的初始状态和各时刻目标病灶预测状态包括病灶的大小、形状和位置;消融动作包括消融时间、消融功率和进针位置,还可以包括消融针角度、进针深度等。
在实际应用中,考虑到多针消融情况下的相关数据获得困难以及数据较少等因素,可以结合单针消融手术中的相关数据来构建训练数据,以扩充训练数据集。
步骤S100b、构建多针消融状态转移模型,并初始化多针消融状态转移模型参数。
在一些实现方式中,如图2所示,多针消融状态转移模型包括长短期记忆网络(Long Short-Term Memory,LSTM)和循环神经网络(Recurrent Neural Network,RNN)。
其中,长短期记忆网络的输入包括当前时刻目标病灶初始状态的特征信息,输出包括融合历史时刻目标病灶状态的第一状态特征;循环神经网络的输入包括当前时刻消融动作特征与第一状态特征的拼接结果,输出包括下一时刻目标病灶预测状态特征。
其中,当前时刻病灶初始状态的特征信息和当前时刻病灶初始状态的特征信息通过多层感知器MLP(Multi-Layer Perceptron)提取,以实现输入前的数据清洗。
步骤S100c、将训练数据集划分为训练集和测试集。例如,训练数据集中的80%训练数据作为训练集,训练数据集中的20%训练数据作为测试集。
步骤S100d、将当前时刻病灶初始状态的特征信息输入长短期记忆网络,融合历史时刻病灶状态,获得当前时刻的第一状态特征。
具体地,通过多层感知器MLP进行当前时刻病灶初始状态的特征信息提取:
其中,表示时刻i提取的病灶初始状态的高级特征信息,/>表示时刻/>的病灶初始状态,/>为多层感知器/>的网络参数。
将上述高级状态特征信息输入长短期记忆网络,融合历史时刻病灶状态,获得当前时刻输入状态特征/>,即第一状态特征,
其中,表示长短期记忆网络/>的网络参数。
步骤S100e、提取当前时刻消融动作特征。
具体地,通过多层感知器MLP进行消融动作特征提取:
其中,表示时刻/>提取的消融动作的高级特征信息,/>表示时刻/>的初始消融动作,表示多层感知器/>的网络参数。
步骤S100f、将当前时刻消融动作特征与第一状态特征的结果拼接后,输入循环神经网络,得到下一时刻病灶预测状态特征。
具体地,将时刻的第一状态特征/>与消融动作特征/>拼接作为输入,输入循环神经网络RNN,得到下一时刻/>的病灶预测状态特征/>
其中,为表示循环神经网络/>的网络参数。
步骤S100g、计算下一时刻病灶真实状态特征与下一时刻病灶预测状态特征的误差,基于误差更新多针消融状态转移模型参数。
在实际应用中,计算下一时刻的病灶真实状态特征/>(根据训练数据可知)与下一时刻/>的状态特征/>的误差,更新多针消融状态转移模型参数。
在一些实现方式中,计算误差采用MSE均方损失误差,可以采用梯度反向更新多针消融状态转移模型参数。
采用MSE均方损失误差的情况下,损失误差函数如下:
步骤S100h、基于测试集验证多针消融状态转移模型,在多针消融状态转移模型满足预设误差要求的情况下,训练得到最终的多针消融状态转移模型。
重复上述步骤S100c~步骤S100g的训练过程,并在测试集上进行模型验证,直到达到预设的误差上限,最终获得多针消融状态转移模型,即可利用该模型,实现输入当前时刻的病灶初始状态和消融动作,输出下一时刻的病灶预测状态。
在训练多针消融状态转移模型后,构建多针消融规划模型,输入是各时刻病灶的初始状态,输出是多针消融过程中单针各时刻的目标消融动作构成的一套多针消融动作方案。
在一些实现方式中,本实施例的方法还包括:
步骤S200、训练多针消融规划模型。
具体地,训练多针消融规划模型的过程可以进一步包括:
步骤S200a、将每个消融针抽象为一个智能体,构建嵌入图注意力机制的强化学习模型及将强化学习模型的决策过程定义为七元组,七元组包括病灶的总体状态空间,智能体的消融动作空间,智能体的消融动作局部状态空间,奖励函数,多针消融状态转移模型,奖励折扣因子和智能体的数目。
本实施例中所采用的强化学习模型可以是DDQN(双深度Q网络)。
以图3所示的具有4根消融针的多针消融情形为例,其中,不规则椭球形代表肿瘤,虚线圆圈代表消融范围,消融针抽象为智能体,线条代表注意力,线条越粗,注意力值越大,S表示消融针的状态,例如进针位置。以智能体1为例,其主要注意智能体4,在经过图注意力机制获取其他智能体的状态后,各智能体调整各自的消融动作,重新规划更合理的消融动作方案。
在一些示例中,多针消融规划模型的决策过程可以定义为如下七元组:
其中,表示病灶的总体状态空间。/>、/>和/>分别表示智能体/>的消融动作空间、局部状态空间和奖励函数,总体状态空间可以包括多针操作范围内的病灶状态,局部状态空间可以包括单针操作范围内的病灶状态。/>表示多针消融状态转移模型,/>表示奖励折扣因子,/>表示环境中智能体的数目。
步骤S200b、初始化强化学习模型的参数以及图注意力机制的参数/>、查询向量和键值向量/>
步骤S200c、执行智能体与环境(病灶)的交互迭代,包括:
步骤S200c-1、观测当前智能体的局部状态空间,计算当前智能体的局部状态空间特征。
具体实现中,观测智能体的局部状态/>,利用长短期记忆网络LSTM计算智能体/>的局部状态空间特征/>
步骤S200c-2、将当前智能体的局部状态空间特征与其他智能体的局部状态空间特征进行拼接,依次输入到注意力机制中计算当前智能体相对其他智能体的注意力权重。
将智能体的局部状态空间特征/>与其他智能体/>的局部状态空间特征/>进行拼接,依次输入到图注意力机制中,计算得到智能体/>相对于其他智能体/>的注意力权重:
其中,表示/>的转置向量,/>表示/>的转置向量,/>表示智能体/>与智能体/>之间的注意力权重,注意力权重值在0到1之间。
步骤S200c-3、基于注意力权重计算当前智能体的融合状态特征,融合状态特征是当前智能体的局部状态空间特征,与其他智能体的局部状态空间特征及对应注意力权重的加权和之间的拼接结果。
根据注意力权重计算智能体的状态输入/>
其中,表示智能体/>的局部状态空间特征/>与其他智能体的局部状态空间特征/>与注意力权重/>加权和的拼接结果,即智能体/>的融合状态特征。
步骤S200c-4、将融合状态特征输入强化学习模型的动作网络,得到当前智能体的所有消融动作的估计价值,基于估计价值从中选择要执行的消融动作。
在具体实现中,将智能体的融合状态特征/>输入智能体的强化学习模型的动作网络,得到智能体/>的所有消融动作的估计价值,可以基于估计价值使用/>-贪婪法选择要执行的消融动作/>
步骤S200c-5、执行所选消融动作,基于奖励函数获得相应的奖励值,并将当前病灶状态和所选消融动作输入到多针消融状态转移模型,得到下一时刻的病灶预测状态,将当前智能体的当前状态信息存入经验池,状态信息包括消融动作、局部状态空间与奖励值和下一时刻的病灶预测状态。
在具体实现中,执行消融动作,获得相应的奖励值/>,并将当前病灶状态/>和消融动作/>输入到前面所训练的多针消融状态转移模型,得到下一时刻的下一时刻的病灶预测状态/>,并将/>作为状态信息存入经验池D。
在一些实现方式中,奖励函数如下:
在多个智能体均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体均到达病灶的情况下,奖励值增加设定值;
在多个智能体的消融范围均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体的消融范围覆盖到整个病灶的情况下,奖励值增加设定值;
各智能体的消融重叠区域的奖励值,采用下式计算:
其中,表示奖励值,/>表示智能体的数目,/>表示第i个智能体的消融体积,/>表示所有智能体的消融重叠区域的消融体积。
奖励值的具体设置以表格形式汇总如下:
步骤S200c-6、从经验池中采集预设数量的目标状态信息,计算各目标状态信息对应的消融动作的真实奖励值。
在具体实现中,从经验池中采集/>个样本/>。计算在状态/>时当前执行的消融动作/>的真实奖励值/>
其中,表示根据奖励函数获得的奖励值,/>表示在状态/>时估计的智能体会采取的获得最大奖励值的动作,任务结束表示智能体到达终止状态。/>表示融合状态特征,Q()表示强化学习模型的Q网络。
步骤S200c-7、通过梯度反向传播更新强化学习模型的参数。
在具体实现中,可以使用均方损失误差函数,通过神经网络的梯度反向传播来更新Q网络的所有参数。
均方损失误差函数表示如下:
其中,为在状态/>采取动作/>时Q网络获得的估计价值,/>表示在状态/>时执行消融动作/>所获得真实的奖励值,/>表示均方损失误差函数。
步骤S200d、重复执行步骤S200c-1~步骤S200c-7的智能体与病灶的交互迭代过程,直至满足预设目标,训练得到最终的多针消融动作模型。
在获得多针消融治疗模型后,将患者的患处信息实时输入模型,即可得到包含一系列具体消融动作的消融规划方案,后续供医生辅助决策时参考。
在多智能体强化学习的基础上采用图注意力机制,使单针通过注意力权重获取其他单针的状态,进而通过使单针融合其他单针的状态,使用强化学习模型输出单针的消融动作。单针通过图注意力机制,不仅可以考虑自身状态进行动作决策,还可以综合考虑其他单针的状态进行综合判断,高效地规划多根消融针的布针消融方案,能够有效提高消融覆盖率,尽量降低对正常组织的损伤,后续多针消融过程中若实施本实施例得到的多针消融规划方案,能够使得多针消融的手术规划方案更加优化高效。
实施例二
本实施例提供一种多针消融规划装置,如图4所示,包括:
获取模块201,用于获取基于医学图像获取的待消融目标病灶的初始状态;
规划模块202,用于将初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态。
本实施例中,通过在强化学习模型中嵌入图注意力机制实现多个消融针的特征融合,实现综合考虑其他单针的状态进行综合判断,以提高消融覆盖率。同时,结合了反映多针消融下病灶预测状态的针消融状态转移模型,能够在进行多针特征融合时准确学习到每个时刻的目标消融动作。
本实施例的装置还包括:第一训练模块,用于训练多针消融状态转移模型。
具体地,训练多针消融状态转移模型的过程包括:
第一步,收集和构建训练数据集,训练数据集中每一条训练数据包括各时刻目标病灶初始状态和消融动作,以及基于各时刻目标病灶初始状态和消融动作得到的下一时刻病灶状态。其中,各时刻目标病灶的初始状态和各时刻目标病灶预测状态包括病灶的大小、形状和位置;消融动作包括消融时间、消融功率和进针位置,还可以包括消融针角度、进针深度等。
第二步,构建多针消融状态转移模型,并初始化多针消融状态转移模型参数。
在一些实现方式中,如图2所示,多针消融状态转移模型包括长短期记忆网络(Long Short-Term Memory,LSTM)和循环神经网络(Recurrent Neural Network,RNN)。
其中,长短期记忆网络的输入包括当前时刻目标病灶初始状态的特征信息,输出包括融合历史时刻目标病灶状态的第一状态特征;循环神经网络的输入包括当前时刻消融动作特征与第一状态特征的拼接结果,输出包括下一时刻目标病灶预测状态特征。
其中,当前时刻病灶初始状态的特征信息和当前时刻病灶初始状态的特征信息通过多层感知器MLP(Multi-Layer Perceptron)提取,以实现输入前的数据清洗。
第三步,将训练数据集划分为训练集和测试集。例如,训练数据集中的80%训练数据作为训练集,训练数据集中的20%训练数据作为测试集。
第四步,将当前时刻病灶初始状态的特征信息输入长短期记忆网络,融合历史时刻病灶状态,获得当前时刻的第一状态特征。
具体地,通过多层感知器MLP进行当前时刻病灶初始状态的特征信息提取:
其中,表示时刻i提取的病灶初始状态的高级特征信息,/>表示时刻/>的病灶初始状态,/>为多层感知器/>的网络参数。
将上述高级状态特征信息输入长短期记忆网络,融合历史时刻病灶状态,获得当前时刻输入状态特征/>,即第一状态特征,
其中,表示长短期记忆网络/>的网络参数。
第五步,提取当前时刻消融动作特征。
具体地,通过多层感知器MLP进行消融动作特征提取:
其中,表示时刻/>提取的消融动作的高级特征信息,/>表示时刻/>的初始消融动作,表示多层感知器/>的网络参数。
第六步,将当前时刻消融动作特征与第一状态特征的结果拼接后,输入循环神经网络,得到下一时刻病灶预测状态特征。
具体地,将时刻的第一状态特征/>与消融动作特征/>拼接作为输入,输入循环神经网络RNN,得到下一时刻/>的病灶预测状态特征/>
其中,为表示循环神经网络/>的网络参数。
第七步,计算下一时刻病灶真实状态特征与下一时刻病灶预测状态特征的误差,基于误差更新多针消融状态转移模型参数。
在实际应用中,计算下一时刻的病灶真实状态特征/>(根据训练数据可知)与下一时刻/>的状态特征/>的误差,更新多针消融状态转移模型参数。
在一些实现方式中,计算误差采用MSE均方损失误差,可以采用梯度反向更新多针消融状态转移模型参数。
采用MSE均方损失误差的情况下,损失误差函数如下:
第八步,基于测试集验证多针消融状态转移模型,在多针消融状态转移模型满足预设误差要求的情况下,训练得到最终的多针消融状态转移模型。
重复上述训练过程,并在测试集上进行模型验证,直到达到预设的误差上限,最终获得多针消融状态转移模型,即可利用该模型,实现输入当前时刻的病灶初始状态和消融动作,输出下一时刻的病灶预测状态。
在训练多针消融状态转移模型后,构建多针消融规划模型,输入是各时刻病灶的初始状态,输出是多针消融过程中单针各时刻的目标消融动作构成的一套多针消融动作方案。
在一些实现方式中,本实施例的方装置还包括:第二训练模块,用于训练多针消融规划模型。
具体地,训练多针消融规划模型的过程可以进一步包括:
第一步,将每个消融针抽象为一个智能体,构建嵌入图注意力机制的强化学习模型及将强化学习模型的决策过程定义为七元组,七元组包括病灶的总体状态空间,智能体的消融动作空间,智能体的消融动作局部状态空间,奖励函数,多针消融状态转移模型,奖励折扣因子和智能体的数目。
本实施例中所采用的强化学习模型可以是DDQN(双深度Q网络)。
在一些示例中,多针消融规划模型的决策过程可以定义为如下七元组:
其中,表示病灶的总体状态空间。/>、/>和/>分别表示智能体/>的消融动作空间、局部状态空间和奖励函数,总体状态空间可以包括多针操作范围内的病灶状态,局部状态空间可以包括单针操作范围内的病灶状态。/>表示多针消融状态转移模型,/>表示奖励折扣因子,/>表示环境中智能体的数目。
第二步,初始化强化学习模型的参数以及图注意力机制的参数/>、查询向量/>和键值向量/>
第三步,执行智能体与环境(病灶)的交互迭代,包括:
步骤3.1、观测当前智能体的局部状态空间,计算当前智能体的局部状态空间特征。
具体实现中,观测智能体的局部状态/>,利用长短期记忆网络LSTM计算智能体/>的局部状态空间特征/>
步骤3.2、将当前智能体的局部状态空间特征与其他智能体的局部状态空间特征进行拼接,依次输入到注意力机制中计算当前智能体相对其他智能体的注意力权重。
将智能体的局部状态空间特征/>与其他智能体/>的局部状态空间特征/>进行拼接,依次输入到图注意力机制中,计算得到智能体/>相对于其他智能体/>的注意力权重:
其中,表示/>的转置向量,/>表示/>的转置向量,/>表示智能体/>与智能体/>之间的注意力权重,注意力权重值属于0到1。
步骤3.3、基于注意力权重计算当前智能体的融合状态特征,融合状态特征是当前智能体的局部状态空间特征,与其他智能体的局部状态空间特征及对应注意力权重的加权和之间的拼接结果。
根据注意力权重计算智能体的状态输入/>
其中,表示智能体/>的局部状态空间特征/>与其他智能体的局部状态空间特征/>与注意力权重/>加权和的拼接结果,即智能体/>的融合状态特征。/>
步骤3.4、将融合状态特征输入强化学习模型的动作网络,得到当前智能体的所有消融动作的估计价值,基于估计价值从中选择要执行的消融动作。
在具体实现中,将智能体的融合状态特征/>输入智能体的强化学习模型的动作网络,得到智能体/>的所有消融动作的估计价值,可以基于估计价值使用/>-贪婪法选择要执行的消融动作/>
步骤3.5、执行所选消融动作,基于奖励函数获得相应的奖励值,并将当前病灶状态和所选消融动作输入到多针消融状态转移模型,得到下一时刻的病灶预测状态,将当前智能体的当前状态信息存入经验池,状态信息包括消融动作、局部状态空间与奖励值和下一时刻的病灶预测状态。
在具体实现中,执行消融动作,获得相应的奖励值/>,并将当前病灶状态/>和消融动作/>输入到前面所训练的多针消融状态转移模型,得到下一时刻的下一时刻的病灶预测状态/>,并将/>作为状态信息存入经验池D。
在一些实现方式中,奖励函数如下:
在多个智能体均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体均到达病灶的情况下,奖励值增加设定值;
在多个智能体的消融范围均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体的消融范围覆盖到整个病灶的情况下,奖励值增加设定值;
各智能体的消融重叠区域的奖励值,采用下式计算:
其中,表示奖励值,/>表示智能体的数目,/>表示第i个智能体的消融体积,/>表示所有智能体的消融重叠区域的消融体积。
步骤3.6、从经验池中采集预设数量的目标状态信息,计算各目标状态信息对应的消融动作的真实奖励值。
在具体实现中,从经验池中采集/>个样本/>。计算在状态/>时当前执行的消融动作/>的真实奖励值/>
其中,表示根据奖励函数获得的奖励值,/>表示在状态/>时估计的智能体会采取的获得最大奖励值的动作,任务结束表示智能体到达终止状态。/>表示融合状态特征,Q()表示强化学习模型的Q网络。
步骤3.7、通过梯度反向传播更新强化学习模型的参数。
在具体实现中,可以使用均方损失误差函数,通过神经网络的梯度反向传播来更新Q网络的所有参数。
均方损失误差函数表示如下:
/>
其中,为在状态/>采取动作/>时Q网络获得的估计价值,/>表示在状态/>时执行消融动作/>所获得真实的奖励值,/>表示均方损失误差函数。
第四步,重复执行智能体与病灶的交互迭代过程,直至满足预设目标,训练得到最终的多针消融动作模型。
在获得多针消融治疗模型后,将患者的患处信息实时输入模型,即可得到包含一系列具体消融动作的消融规划方案,后续供医生辅助决策时参考。
在多智能体强化学习的基础上采用图注意力机制,使单针通过注意力权重获取其他单针的状态,进而通过使单针融合其他单针的状态,使用强化学习模型输出单针的消融动作。单针通过图注意力机制,不仅可以考虑自身状态进行动作决策,还可以综合考虑其他单针的状态进行综合判断,能够有效提高消融覆盖率。
应当理解的是,本实施例的装置具备实施例一的全部有益效果。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被至少一个处理器执行时,实现实施例一的方法。
实施例四
本实施例提供一种电子设备,包括存储器和至少一个处理器,存储器上存储有计算机程序,计算机程序被至少一个处理器执行时实现实施例一的方法。
前述计算机可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
前述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器 (Microcontroller Unit, MCU)、微处理器或其他电子元件实现,用于执行上述方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的。
需要说明的是,在本文中,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (9)

1.一种多针消融规划方法,其特征在于,包括:
获取基于医学图像获取的待消融目标病灶的初始状态;
将所述初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,所述多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,所述多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态;
还包括:训练多针消融规划模型;所述训练多针消融规划模型的过程包括:
将每个消融针抽象为一个智能体,构建嵌入图注意力机制的强化学习模型及将所述强化学习模型的决策过程定义为七元组,所述七元组包括病灶的总体状态空间,智能体的消融动作空间,智能体的消融动作局部状态空间,奖励函数,多针消融状态转移模型,奖励折扣因子和智能体的数目;
初始化所述强化学习模型的参数以及图注意力机制的参数;
执行智能体与病灶的交互迭代,包括:
观测当前智能体的局部状态空间,计算当前智能体的局部状态空间特征;
将当前智能体的局部状态空间特征与其他智能体的局部状态空间特征进行拼接,依次输入到图注意力机制中计算当前智能体相对其他智能体的注意力权重;
基于注意力权重计算当前智能体的融合状态特征,所述融合状态特征是当前智能体的局部状态空间特征,与其他智能体的局部状态空间特征及对应注意力权重的加权和之间的拼接结果;
将所述融合状态特征输入所述强化学习模型的动作网络,得到当前智能体的所有消融动作的估计价值,基于所述估计价值从中选择要执行的消融动作;
执行所选消融动作,基于奖励函数获得相应的奖励值,并将当前病灶状态和所选消融动作输入到多针消融状态转移模型,得到下一时刻的病灶预测状态,将当前智能体的当前状态信息存入经验池,所述状态信息包括消融动作、局部状态空间与奖励值和下一时刻的病灶预测状态;
从经验池中采集预设数量的目标状态信息,计算各目标状态信息对应的消融动作的奖励值;
通过梯度反向传播更新所述强化学习模型的参数;
重复执行智能体与病灶的交互迭代过程,直至满足预设目标,训练得到最终的多针消融规划模型。
2.根据权利要求1所述的多针消融规划方法,其特征在于,所述多针消融状态转移模型包括长短期记忆网络和循环神经网络;
所述长短期记忆网络的输入包括当前时刻目标病灶初始状态的特征信息,输出包括融合历史时刻目标病灶状态的第一状态特征;
所述循环神经网络的输入包括当前时刻消融动作特征与所述第一状态特征的拼接结果,输出包括下一时刻目标病灶预测状态特征。
3.根据权利要求2所述的多针消融规划方法,其特征在于,还包括:训练多针消融状态转移模型;所述训练多针消融状态转移模型的过程包括:
收集和构建训练数据集,训练数据集中每一条训练数据包括各时刻目标病灶初始状态和消融动作,以及基于各时刻目标病灶初始状态和消融动作得到的下一时刻病灶状态;
构建多针消融状态转移模型,并初始化所述多针消融状态转移模型参数;
将所述训练数据集划分为训练集和测试集;
提取当前时刻病灶初始状态的特征信息;
将所述当前时刻病灶初始状态的特征信息输入所述长短期记忆网络,融合历史时刻病灶状态,获得当前时刻的第一状态特征;
提取当前时刻消融动作特征;
将当前时刻消融动作特征与所述第一状态特征的结果拼接后,输入所述循环神经网络,得到下一时刻病灶预测状态特征;
计算下一时刻病灶真实状态特征与下一时刻病灶预测状态特征的误差,基于所述误差更新所述多针消融状态转移模型参数;
基于所述测试集验证所述多针消融状态转移模型,在所述多针消融状态转移模型满足预设误差要求的情况下,训练得到最终的多针消融状态转移模型。
4.根据权利要求3所述的多针消融规划方法,其特征在于,所述当前时刻病灶初始状态的特征信息和所述当前时刻消融动作特征通过多层感知器提取。
5.根据权利要求1所述的多针消融规划方法,其特征在于,所述奖励函数如下:
在多个智能体均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体均到达病灶的情况下,奖励值增加设定值;
在多个智能体的消融范围均未触及危险器官的情况下,奖励值增加设定值;
在多个智能体的消融范围覆盖到整个病灶的情况下,奖励值增加设定值;
各智能体的消融重叠区域的奖励值,采用下式计算:
其中,表示奖励值,/>表示智能体的数目,/>表示第i个智能体的消融体积,/>表示所有智能体的消融重叠区域的消融体积。
6.根据权利要求1所述的多针消融规划方法,其特征在于,所述各时刻目标病灶的初始状态和各时刻目标病灶预测状态包括病灶的大小、形状和位置;所述消融动作包括消融时间、消融功率和进针位置。
7.一种多针消融规划装置,其特征在于,包括:
获取模块,用于获取基于医学图像获取的待消融目标病灶的初始状态;
规划模块,用于将所述初始状态输入预先训练的多针消融规划模型,得到多针消融过程中单针各时刻的目标消融动作;
其中,所述多针消融规划模型是通过多针消融状态转移模型和图注意力机制使多针特征融合以决策出单针各时刻的目标消融动作的强化学习模型,所述多针消融状态转移模型的输入包括各时刻目标病灶的初始状态和消融动作,输出包括基于各时刻目标病灶的初始状态和消融动作得到的各时刻目标病灶预测状态;
第二训练模块,用于训练多针消融规划模型,所述训练多针消融规划模型的过程包括:
将每个消融针抽象为一个智能体,构建嵌入图注意力机制的强化学习模型及将所述强化学习模型的决策过程定义为七元组,所述七元组包括病灶的总体状态空间,智能体的消融动作空间,智能体的消融动作局部状态空间,奖励函数,多针消融状态转移模型,奖励折扣因子和智能体的数目;
初始化所述强化学习模型的参数以及图注意力机制的参数;
执行智能体与病灶的交互迭代,包括:
观测当前智能体的局部状态空间,计算当前智能体的局部状态空间特征;
将当前智能体的局部状态空间特征与其他智能体的局部状态空间特征进行拼接,依次输入到图注意力机制中计算当前智能体相对其他智能体的注意力权重;
基于注意力权重计算当前智能体的融合状态特征,所述融合状态特征是当前智能体的局部状态空间特征,与其他智能体的局部状态空间特征及对应注意力权重的加权和之间的拼接结果;
将所述融合状态特征输入所述强化学习模型的动作网络,得到当前智能体的所有消融动作的估计价值,基于所述估计价值从中选择要执行的消融动作;
执行所选消融动作,基于奖励函数获得相应的奖励值,并将当前病灶状态和所选消融动作输入到多针消融状态转移模型,得到下一时刻的病灶预测状态,将当前智能体的当前状态信息存入经验池,所述状态信息包括消融动作、局部状态空间与奖励值和下一时刻的病灶预测状态;
从经验池中采集预设数量的目标状态信息,计算各目标状态信息对应的消融动作的奖励值;
通过梯度反向传播更新所述强化学习模型的参数;
重复执行智能体与病灶的交互迭代过程,直至满足预设目标,训练得到最终的多针消融规划模型。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被至少一个处理器执行时,实现如权利要求1至6中任一项所述的方法。
9.一种电子设备,其特征在于,包括存储器和至少一个处理器,所述存储器上存储有计算机程序,所述计算机程序被所述至少一个处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202311425955.7A 2023-10-31 2023-10-31 一种多针消融规划方法、装置、存储介质及电子设备 Active CN117152155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311425955.7A CN117152155B (zh) 2023-10-31 2023-10-31 一种多针消融规划方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311425955.7A CN117152155B (zh) 2023-10-31 2023-10-31 一种多针消融规划方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN117152155A CN117152155A (zh) 2023-12-01
CN117152155B true CN117152155B (zh) 2024-02-13

Family

ID=88906598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311425955.7A Active CN117152155B (zh) 2023-10-31 2023-10-31 一种多针消融规划方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117152155B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019157951A1 (zh) * 2018-02-14 2019-08-22 上海交通大学 多模态消融治疗术前规划方法及其设备
CN113052372A (zh) * 2021-03-17 2021-06-29 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法
KR102460814B1 (ko) * 2021-08-17 2022-10-31 주식회사 미드바르 뿌리 형태학 데이터 기반의 인공지능 모델 생성 방법 및 시스템
CN116189155A (zh) * 2022-12-14 2023-05-30 山东大学 基于深度特征和图注意力机制的疲劳驾驶检测方法及系统
CN116936112A (zh) * 2023-09-13 2023-10-24 苏州国科康成医疗科技有限公司 回归模型训练与消融规划方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019157951A1 (zh) * 2018-02-14 2019-08-22 上海交通大学 多模态消融治疗术前规划方法及其设备
CN113052372A (zh) * 2021-03-17 2021-06-29 哈尔滨工程大学 一种基于深度强化学习的动态auv追踪路径规划方法
KR102460814B1 (ko) * 2021-08-17 2022-10-31 주식회사 미드바르 뿌리 형태학 데이터 기반의 인공지능 모델 생성 방법 및 시스템
CN116189155A (zh) * 2022-12-14 2023-05-30 山东大学 基于深度特征和图注意力机制的疲劳驾驶检测方法及系统
CN116936112A (zh) * 2023-09-13 2023-10-24 苏州国科康成医疗科技有限公司 回归模型训练与消融规划方法、装置、设备及介质

Also Published As

Publication number Publication date
CN117152155A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN109785928A (zh) 诊疗方案推荐方法、装置及存储介质
Zahavy et al. Learn what not to learn: Action elimination with deep reinforcement learning
Gao et al. Automatic gesture recognition in robot-assisted surgery with reinforcement learning and tree search
CN110221225A (zh) 一种航天器锂离子电池循环寿命预测方法
Kalogirou et al. Artificial neural networks for the performance prediction of large solar systems
US11908584B2 (en) Methods and systems for modeling a necrotized tissue volume in an ablation procedure
US20180032863A1 (en) Training a policy neural network and a value neural network
Do Koo et al. Nuclear reactor vessel water level prediction during severe accidents using deep neural networks
CN110033019B (zh) 人体部位的异常检测方法、装置和存储介质
CN110111885B (zh) 属性预测方法、装置、计算机设备及计算机可读存储介质
Ahmad et al. Genetic algorithm-artificial neural network (GA-ANN) hybrid intelligence for cancer diagnosis
Levashenko et al. Reliability estimation of healthcare systems using fuzzy decision trees
Naik et al. A novel FLANN with a hybrid PSO and GA based gradient descent learning for classification
CN109493976A (zh) 基于卷积神经网络模型的慢性病复发预测方法和装置
CN117152155B (zh) 一种多针消融规划方法、装置、存储介质及电子设备
CN109933806A (zh) 一种复述生成方法、系统、设备及计算机可读存储介质
US20240058062A1 (en) System and method for ablation treatment of tissue with interactive guidance
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
Raiman et al. Long-term planning and situational awareness in openai five
Pouplin et al. Retrieval-augmented thought process as sequential decision making
CN112580868A (zh) 电力系统输电阻塞管理方法、系统、设备及存储介质
WO2023184598A1 (zh) 基于人工智能的心脏模拟器数据矫正系统和方法
CN116245009A (zh) 人机策略生成方法
CN113033064B (zh) 一种基于支持向量机的电力设备冲击负荷模拟方法
Tan et al. Fuzzy ARTMAP and hybrid evolutionary programming for pattern classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant