CN117999612A

CN117999612A - 用于预测辐射疗法处理规划的启发式参数的机器学习建模

Info

Publication number: CN117999612A
Application number: CN202280063124.7A
Authority: CN
Inventors: M·哈卡拉; E·切兹勒; S·巴西里; E·屈塞拉
Original assignee: Siemens Medical International Co ltd
Current assignee: Siemens Medical International Co ltd
Priority date: 2021-09-20
Filing date: 2022-09-09
Publication date: 2024-05-07
Also published as: US20230087944A1; EP4405976A1; WO2023043663A1

Abstract

本文中提出了用于配置用于放疗处理的计划优化器模型的方法(200)和系统，其中处理器迭代地训练(202)被配置为预测启发式参数的机器学习模型，其中对于每次迭代，机器学习模型的代理标识(204)测试启发式参数；向计划优化器模型传输(206)测试启发式参数，计划优化器模型被配置为接收一个或多个放疗处理属性并且预测处理计划；并且基于计划优化器模型的执行性能值来标识针对测试启发式参数的奖励(208)，其中处理器基于使奖励最大化而迭代地训练机器学习模型的策略(344)，直到策略(344)满足准确度阈值。

Description

用于预测辐射疗法处理规划的启发式参数的机器学习建模

相关申请的交叉引用

本申请要求于2021年9月20日提交的第17/480,056号美国申请的优先权，该申请通过引用整体并入本文。

技术领域

本申请总体上涉及使用机器学习建模来建议辐射疗法处理过程中的放疗处理属性。

背景技术

放疗(基于辐射的疗法)通过发射能够杀死细胞或缩小肿瘤的高剂量的辐射而被用作癌症治疗。旨在接收辐射的患者解剖结构的目标区域(例如，肿瘤)称为规划目标体积(PTV)。由于从放射治疗机发出的辐射的极端性质，必须精确计算并且遵循处理计划。处理计划的目标是允许放射治疗机向PTV输送足够的辐射来杀死癌细胞。然而，这一目标必须与损伤或伤害属于PTV附近或周围的其他器官或解剖区域的其他细胞的风险相平衡。这些器官或解剖区域称为危及器官(OAR)。

处理计划可以标识为患者的治疗而配置的放射治疗机的各种属性，诸如强度调制放射疗法(IMRT)参数(例如，辐波束的数目和波束角度(辐射输送方向))、体积调制电弧治疗(VMAT)参数(例如，电弧的数目和范围(全部或部分))、准直器角度、准直器钳口位置、避开扇区、等中心定位策略、治疗床旋转、治疗床角度等。

生成处理计划的常规方法涉及手动过程，在该过程中，医疗专业人员团队将审查患者的属性和诊断，并且相应地生成处理计划。该过程涉及耗时并且乏味的试错过程，效率低下并且产生不可靠的结果。为了改进这一过程，一些方法利用机器学习模型或其他启发式方法来生成处理计划。这些模型在本文中称为“计划优化器模型”或“计划优化器”。然而，这些计算机特定方法也面临着技术挑战。例如，这些计划优化器模型所使用的各种启发式参数必须由医疗专业人员输入，这会造成效率低下，并且产生取决于医疗专业人员的主观理解和判断的结果。为了改进这一过程，某些计划优化器模型将启发式参数本身作为处理计划的生成的一部分。然而，启发式参数的输入本身就是一个耗时的过程，需要高计算资源。

发明内容

根据本发明的第一方面，提供了一种根据权利要求1的配置用于放疗处理的计划优化器模型的方法。

根据本发明的第二方面，提供了一种根据权利要求10的包括处理器和非暂态计算机可读介质的服务器，该非暂态计算机可读介质包含用于配置用于放疗处理的计划优化器模型的指令。

根据本发明的第三方面，提供了一种根据权利要求19的用于配置用于放疗处理的计划优化器模型的系统。

在从属权利要求中限定了可选特征。

由于上述原因，需要估算生成治疗属性的计算机模型所使用的启发式参数，使得处理计划的生成能够使用更少的计算资源和以更及时的方式来执行。还需要生成不依赖于医疗专业人员的主观技能和理解的启发式参数。本文中公开了能够提供可以由计划优化器模型摄取以生成处理计划的连续精细化参数的系统和方法。使用医疗专业人员的先前决策和先前治疗，可以使用连续训练的机器学习模型来预测高效运行计划优化器模型所需要的一个或多个参数。

本文中描述的机器学习模型可以使用强化学习方法进行训练。强化学习方法利用代理和动态变化(例如，学习)策略来生成要由计划优化器模型摄取的参数。因此，本文中讨论的模型可以在没有预限定(例如，标记的)训练数据集(这是其他训练技术(诸如有监督学习技术)所要求的)的情况下进行训练。

本文中描述的方法和系统允许机器学习模型逐渐适应新的数据分布(例如，经由探索阶段)，以使机器学习模型对数据分布变化不那么敏感(更具抵抗力)。例如，在一些实现中，可以添加(多个)新解决方案。结果，机器学习模型可以能够适应(多个)新解决方案。

本文中讨论的强化学习方法可以学习预测计划优化器模型根据作为上下文的患者数据来生成处理计划所需要的参数。患者数据可以包括医学图像(计算机断层扫描(CT)图像、锥束CT图像(CBCT)、四维CT图像(例如，随时间变化的CT图像)、磁共振成像(MRI)图像、正电子发射断层扫描(PET)图像、超声图像、经由某些其他成像模态而获取的图像、或其组合)、和/或患者信息(例如，身高、体重、体重指数(BMI)、诊断信息(包括解剖属性，诸如PTV和/或OAR)、年龄、设备(例如，起搏器、呼吸器))等。

本文中描述的强化学习方法可以学习复制(或模拟)医疗专业人员或机器学习模型确定启发式参数的方式。机器学习模型使用强化学习方法，并且在被计划优化器模型摄取时响应于与生成最佳和/或最高效处理计划的参数相关联的累积奖励信息而被训练。

在一个实施例中，一种配置用于放疗处理的计划优化器模型的方法包括由处理器迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，机器学习模型的代理：标识测试启发式参数；向计划优化器模型传输测试启发式参数，计划优化器模型被配置为接收一个或多个放疗处理属性并且预测处理计划；以及基于计划优化器模型的执行性能值来标识针对测试启发式参数的奖励，其中处理器基于使奖励最大化而迭代地训练机器学习模型的策略，直到策略满足准确度阈值。

测试启发式参数的类别可以对应于共轭梯度混合比、行搜索中的初始步长或叶尖突变试验的数目中的至少一项。

奖励可以基于计划优化器模型是否收敛于预测的处理计划。

奖励可以基于计划优化器模型的执行时间。

启发式参数可以对应于具有最大奖励的测试启发式参数。

处理计划可以包括至少一个放射治疗机属性。

至少一个放射治疗机属性可以对应于治疗床角度、治疗床旋转属性或准直器角度设置中的至少一项。

奖励可以基于对于计划优化器模型的迭代次数。

计划优化器模型可以是机器学习模型。

测试启发式参数可以在限定的值范围内。

在另一实施例中，一种服务器包括处理器和非暂态计算机可读介质，该非暂态计算机可读介质包含用于配置用于放疗处理的计划优化器模型的指令，该指令在由处理器执行时引起处理器执行操作，该操作包括：迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，机器学习模型的代理：标识测试启发式参数；向计划优化器模型传输测试启发式参数，计划优化器模型被配置为接收一个或多个放疗处理属性并且预测处理计划；以及基于计划优化器模型的执行性能值来标识针对测试启发式参数的奖励，其中处理器基于使奖励最大化而迭代地训练机器学习模型的策略，直到策略满足准确度阈值。

奖励可以基于计划优化器模型是否收敛于预测的处理计划。

奖励可以基于计划优化器模型的执行时间。

启发式参数可以对应于具有最大奖励的测试启发式参数。

处理计划可以包括至少一个放射治疗机属性。

奖励可以基于对于计划优化器模型的迭代次数。

计划优化器模型可以是机器学习模型。

测试启发式参数可以在限定的值范围内。

在另一实施例中，一种用于配置用于放疗处理的计划优化器模型的系统包括被配置为接收一个或多个放疗处理属性并且预测处理计划的计划优化器模型；以及与计划优化器通信的服务器，服务器被配置为：迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，机器学习模型的代理：标识测试启发式参数；向计划优化器模型传输测试启发式参数；以及基于计划优化器模型的执行性能值来标识针对测试启发式参数的奖励，其中服务器基于使奖励最大化而迭代地训练机器学习模型的策略，直到策略满足准确度阈值。

附图说明

参考附图以示例的方式描述了本公开的非限制性实施例，附图是示意性的，不打算按比例绘制。除非被指示为表示背景技术，否则附图表示本公开的各方面。

图1示出了根据一个实施例的放疗处理属性推荐系统的组件。

图2示出了根据一个实施例的放疗处理属性推荐系统的流程图。

图3示出了根据一个实施例的强化学习模型。

图4-图5示出了根据一个实施例的利用本文中描述的方法和系统的工作流程。

图6示出了根据一个实施例的成本函数和混合比值。

图7示出了根据一个实施例的混合比值。

图8示出了根据一个实施例的通量图和梯度通量图。

具体实施方式

现在将参考附图中所示的说明性实施例，并且这里将使用特定语言来描述这些实施例。然而，应当理解，并非意图由此限制权利要求或本公开的范围。对本文所示的发明特征的改变和进一步修改、以及本文所示的主题的原理的附加应用(这些是相关领域的技术人员和拥有本公开的技术人员将能够想到的)将被认为在本文中公开的主题的范围内。在不脱离本公开的精神或范围的情况下，可以使用其他实施例和/或可以进行其他改变。在具体实施方式中描述的说明性实施例并不表示限制所呈现的主题。

图1示出了根据一个实施例的放疗处理属性推荐系统100的组件。系统100可以包括分析服务器110a、系统数据库110b、机器学习模型111-112、电子数据源120a-d(统称为电子数据源120)、最终用户设备140a-c(统称为最终用户设备140)、管理员计算设备150、和具有医疗设备计算机162的医疗设备160。图1所示的各种组件可以属于放疗诊所，在某些情况下，患者可以在该放疗诊所经由位于诊所内的一个或多个放射治疗机(例如，医疗设备160)接受放疗处理。

上述组件可以通过网络130彼此连接。网络130的示例可以包括但不限于专用或公共LAN、WLAN、MAN、WAN和互联网。网络130可以包括根据一个或多个标准和/或经由一个或多个传输介质的有线和/或无线通信。

网络130上的通信可以根据各种通信协议来执行，诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)和IEEE通信协议。在一个示例中，网络130可以包括符合Bluetooth规范集或另一标准或专有无线通信协议的无线通信。在另一示例中，网络130还可以包括通过蜂窝网络(包括例如GSM(全球移动通信系统)、CDMA(码分多址)、EDGE(增强型全球演进数据)网络)进行的通信。

系统100不限于本文中描述的组件，并且可以包括附加或其他组件(为简洁起见未示出)，这些组件将被视为在本文中描述的实施例的范围内。

分析服务器110a可以训练并且执行计算机模型111(包括人工智能和/或机器学习模型)，以推荐对于辅模型(计算机模型112)的启发式参数。更具体地，计算机模型112可以是机器学习模型，其被配置为从数据源120检索患者数据和/或处理数据(诸如患者的身体属性、治疗特征(例如，经由治疗医生而接收的肿瘤位置和其他信息))、和/或其他相关数据。计算机模型112然后被配置为分析该数据并且在由最终用户设备140、管理员计算设备150和/或医疗设备计算机162访问的电子平台上显示数据。在一些实施例中，计算机模型112是计划优化器模型。

电子平台可以显示一个或多个优化(推荐、标识、选择)的放疗处理属性，诸如从机器学习模型111中确定的场几何属性。电子平台可以包括被显示在每个电子数据源120、最终用户设备140、管理员计算设备150和/或医疗设备计算机162上的图形用户界面(GUI)。由分析服务器110a生成和托管的电子平台的示例可以是基于网络的应用或网站，其被配置为被显示在不同电子设备上，诸如移动设备、平板计算机、个人计算机等。

在非限制性示例中，医疗专业人员可以使用最终用户设备140访问电子平台，以输入患者的治疗特性和属性。例如，治疗医生可以访问电子平台以输入患者的身体属性(例如，身高、体重或BMI)和诊断属性(例如，肿瘤位置、医学图像、PTV和/或OAR信息、或剂量分布阈值)、和/或执行所需要的辐射疗法所需要的任何其他信息。

分析服务器110a可以执行计算机模型112，以生成处理计划，并且为患者推荐用于质子辐射、光子辐射和/或电子辐射的放疗处理属性。处理计划可以包括如下信息，诸如剂量分布、诸如波束角度等辐射参数、副作用预测、器官和/或肿瘤分割、诸如床角度、床旋转属性、机架位置等机器治疗属性、波束阻断装置、治疗频率、治疗时间和/或治疗模式等。为了允许计算机模型112更高效地和/或以更及时的方式(更快地)执行，分析服务器还可以执行计算机模型111以生成计算机模型112所使用的一个或多个参数。在结合计算机模型112执行计算机模型111之前，分析服务器可以使用从电子数据源120收集的训练数据集(诸如先前处理计划和患者数据)来训练计算机模型111。

即使计算机模型112被示出为由分析服务器110a执行，在其他配置中，计算机模型112也可以存储在第三方数据存储库中和/或由不同服务器执行，该不同服务器可以与分析服务器110a相关联或不相关联。例如，分析服务器110a可以将由计算机模型111生成的预测传输到第二服务器(图1中未示出的第三方服务器)，使得第二服务器可以执行计划优化器模型并且生成患者的处理计划。

分析服务器110a可以是包括能够执行本文中描述的各种任务和过程的处理器和非暂态机器可读存储装置的任何计算设备。分析服务器110a可以使用各种处理器，诸如中央处理单元(CPU)和图形处理单元(GPU)等。这种计算设备的非限制性示例可以包括工作站计算机、膝上型计算机、服务器计算机等。虽然系统100包括单个分析服务器110a，但是分析服务器110a可以包括在分布式计算环境(诸如云环境)中操作的任何数目的计算设备。

分析服务器110a可以执行被配置为显示电子平台(例如，托管网站)的软件应用，该软件应用可以生成各种网页并且将其提供给每个电子数据源120和/或最终用户设备140。不同用户可以使用网站来查看推荐的(优化的)结果和/或与其交互，以选择用于治疗的场几何属性。分析服务器110a可以被配置为要求基于一组用户授权凭证(例如，用户名、密码、生物特征、密码凭证等)的用户认证。分析服务器110a可以访问被配置为存储用户凭证的系统数据库110b，分析服务器110a可以被配置为参考该用户凭证以便确定一组输入凭证(据称对用户进行认证)是否与标识和认证用户的适当的一组凭证相匹配。

分析服务器110a可以基于系统100内的特定用户角色生成并且托管网页。在这样的实现中，用户的角色可以由存储在诊所服务器110b的系统数据库中的用户记录中的数据字段和输入字段来限定。分析服务器110a可以认证用户并且可以通过执行访问目录协议(例如，LDAP)来标识用户的角色。分析服务器110a可以生成网页内容，该网页内容是根据系统数据库110b中的用户记录所限定的用户角色来定制的。

分析服务器110a可以使用本文中描述的方法来训练和/或执行模型111，将结果传输到计算机模型112，和/或执行计算机模型112以生成处理计划。分析服务器110a可以从用户接收患者数据(例如，医学图像、身高、体重、诊断、年龄、设备等)、或者从数据存储库中检索这样的数据、分析该数据、和/或在电子平台上显示结果。分析服务器110a可以对患者数据进行预处理(例如，自动分割医学图像)。例如，在非限制性示例中，分析服务器110a可以从数据库120d查询和检索医学图像，并且将医学图像与从操作医学专业设备120b和/或医学设备160的医疗专业人员接收的片段数据相结合，以对医学图像执行预处理(例如，对医学图像进行分割)。

分析服务器110a可以执行本文中讨论的方法，以经由管理员计算设备150、医疗专业设备120b、医疗设备计算机162和/或最终用户设备140上的电子平台来显示计算机模型111和/或112的执行的结果。

电子数据源120可以表示包含、检索和/或输入与患者的处理计划相关联的数据(包括患者数据和/或处理数据)的各种电子数据源。例如，分析服务器110a可以使用诊所计算机120a、医疗专业设备120b、服务器120c(与医生和/或诊所相关联)和/或数据库120d(与医生和/或诊所相关联)来检索或接收与患者的处理计划相关联的数据。分析服务器可以使用从数据源120检索或接收的数据来训练计算机模型111。

最终用户设备140可以是包括处理器和能够执行本文中描述的各种任务和过程的非暂态机器可读存储介质的任何计算设备。终端用户设备140的非限制性示例可以是工作站计算机、膝上型计算机、平板计算机和服务器计算机。在操作中，各种用户可以使用最终用户设备140来访问由分析服务器110a在操作上管理的GUI。具体地，最终用户设备140可以包括诊所计算机140a、诊所服务器140b和医疗设备专业人员140c。尽管在本文中称为“最终用户”设备，但这些设备可能并不总是由最终用户操作。例如，诊所服务器140b可以不是由最终用户直接使用。然而，存储到诊所服务器140b上的结果可以用于填充最终用户经由医疗专业设备140c所访问的各种GUI。

管理员计算设备150可以表示由系统管理员操作的计算设备。管理员计算设备150以及医疗专业设备140c、医疗专业设备120b、医疗设备计算机162等可以被配置为显示来自机器学习模型111和/或计算机模型112的执行的结果。管理员计算设备150还可以根据需要监测机器学习模型111的训练和/或输入各种阈值和/或训练参数。例如，管理员计算设备150可以审查由分析服务器110a维护的机器学习模型111的反馈和/或促进对其的训练或再训练(校准)。

医疗设备160可以是被配置为实现患者的放疗处理的放射治疗机(例如，线性加速器、粒子加速器(包括圆形加速器)或钴机)。医疗设备160还可以包括成像设备，该成像设备能够发射辐射，使得医疗设备160可以根据各种方法来执行成像以对患者的内部结构准确地成像。例如，医疗设备160可以包括旋转系统(例如，静态或旋转多视图系统)。多视图系统的非限制性示例可以包括立体声系统(例如，两个系统可以正交布置)。医疗设备160还可以与医疗设备计算机162通信，该医疗设备计算机被配置为显示本文中讨论的各种GUI。例如，分析服务器110a可以将由机器学习模型111预测的结果显示到医疗设备计算机162上。

在操作中，医疗专业人员可以访问在医疗专业设备120b上执行的应用，并且输入患者数据(例如，患者信息、患者诊断、辐射疗法辐射要求和阈值)。分析服务器110a然后使用患者标识符来查询来自电子数据源120的患者数据(例如，患者解剖结构和/或医学图像)。分析服务器110a然后可以利用本文中描述的系统和方法来生成要显示给一个或多个医疗专业人员(并且与之交互)的推荐处理计划。

分析服务器110a可以与医疗设备计算机162、最终用户设备140和/或电子数据源120进行通信(实时或近实时)，使得托管医疗设备160的服务器/计算机可以基于处理计划内的推荐的(或选择的)治疗属性来调节医疗设备160。例如，放射治疗机可以基于场几何属性来调节机架、光束阻挡装置(例如，多叶准直器MLC)和/或治疗床。分析服务器110a可以向放射治疗机传输指示任何数目或类型的辐射参数、波束角度和/或治疗属性的指令，以促进这样的调节。

在各种实施例中，机器学习模型111使用一个或多个深度学习引擎来模拟强化学习模型中的代理。尽管使用深度卷积神经网络进行例示，但应当理解，任何备选和/或附加的(多个)深度学习模型都可以用于实现深度学习引擎。深度学习引擎包括连续训练和/或在训练阶段训练的处理路径。

图2示出了根据一个实施例的放疗处理属性推荐系统的流程图。尽管本文中描述的系统和方法涉及在执行放疗处理之前执行的初始化过程(并且具体地涉及推荐由计划优化器模型摄取的参数)，但是应当理解，本文中描述的系统和方法涉及其中要根据一组预限定选项来做出决策的放射肿瘤学和辐射疗法处理规划的其他领域。例如，方法200可以被执行以训练机器学习模型，使得经训练的模型随后可以被执行以监测由计划优化器模型摄取的各种参数。

方法200可以包括步骤202-208。然而，其他实施例可以包括附加或备选步骤，或者可以完全省略一个或多个步骤。方法200被描述为由诸如图1中描述的分析服务器等服务器执行。然而，方法200的一个或多个步骤可以由在图1中描述的分布式计算系统中操作的任何数目的计算设备来执行。例如，一个或多个计算设备可以在本地执行图2中描述的步骤中的部分或全部步骤。

高效的计划优化可以是辐射疗法处理的重要组成部分。在一些配置中，计划优化器模型可以用作交互式辐射疗法处理规划的一部分或用于治疗床上适应。计划优化器模型使用各种启发式参数来控制优化流程并且提高其性能。这些启发式参数的非限制性示例可以包括IMRT共轭梯度(CG)混合比、行搜索中的初始步长、引导前进到VMAT中的下一多分辨率水平的规则、或者在一个VMAT迭代中进行的叶尖突变试验的数目。

当前，这些启发式参数是由工程师对计划优化器模型进行编程来调谐和限定的，因此它们大多在优化算法中被硬编码。例如，计划优化器模型使用一组(例如，预限定的)启发式参数或算法来标识用于执行产生优化计划的各种计算的启发式参数。启发式参数的手动调谐是一个乏味的过程。因此，一些计划优化器模型使用单组启发式参数，而与所执行的规划类型无关。

例如，常规方法通常将新的梯度通量与先前的梯度通量混合，以用作用于IMRT计划优化的CG参数。然后，这些方法按照Fletcher-Reeves(FR)方法和/或其他启发式协议将混合比分配为新的梯度通量和旧的梯度通量的L2范数的比率。然而，由于这些值的非凸性，所标识的启发式参数在数学上可以不接近于计划优化器模型以高效(例如，快速)方式收敛于优化的计划所需要的值。相反，方法200提供了一种更系统性的方法来标识与优化器模型相关的启发式参数。

由于在不放射附近OAR的情况下很难向PTV提供足够的辐射剂量，因此患者的治疗可以包括剂量体积限制(DVC)，该DVC规定了对于每个关键器官(如有必要，可以被牺牲)的给定体积百分比。计划优化器可以迭代地改变治疗的各种属性(例如，通过用多叶准直器(MLC)改变光束的速度和/或形状)，并且可以迭代地预测该改变将如何导致辐射被施加到患者的器官、待治疗的临床目标和/或身体(或正常组织)。如本文中使用的，通量是指被施加到一个区域的粒子数(诸如光子或中子数)除以该区域本身的横截面。通量图是通量的表示，并且直观地描绘(例如，使用视觉模式或颜色映射技术)器官(或器官内的区域)、待治疗的临床目标和身体(或正常组织)被照射的每单位面积的粒子数。

由于被施加到OAR的不可避免的危险辐射，PTV的辐射疗法将对一个或多个OAR产生固有成本，这可以在数学上计算。也就是说，当辐射被施加到肿瘤时，患者的其他部位将接受一些辐射(成本)。当优化辐射疗法的治疗属性(例如，IMRT)时，目标是通过使用各种启发式参数调节治疗属性(例如，基于梯度通量来调节通量图)来使成本函数最小化。成本函数本身可以基于规划的临床目标以各种方式在数学上限定。参考图6，曲线图600表示作为优化器的迭代步长的函数的成本函数的值。如图所示，计划优化器模型迭代地调节(例如，使用非线性方法)患者的处理计划的一个或多个属性，以逐渐降低成本值。

在IMRT优化中使用的CG方法中，梯度通量通常是当前和先前梯度通量的加权和(在步长t和步长t-1)，具有一定的混合比。混合比可以是必须逐渐调节的启发式参数中的一个。混合比(也称为Fletcher-Reeves比)可以根据梯度通量的范数来计算，例如使用以下等式：

Fletcher-Rives混合比＝(在步长t处的通量梯度的L₂范数)²/

(在步长t-1处的通量梯度的L₂范数)²

计划优化器模型的目标可以是标识混合比例，当用于为患者生成处理计划时，该混合比例将产生良好的结果(例如，降低成本)。在一些实施例中，比率阈值可以由计划优化器(或由医疗专业人员或系统管理员)施加。例如，如图602所示，混合比随着计划优化器迭代并且最终趋于平稳而被调节。然而，不一定允许该值上升到某个阈值(例如，0.6)以上。使用方法200，可以经由独立训练的模型独立地计算混合比，如图7所示。然后，计划优化器模型可以摄取预测的启发式参数，以生成患者的处理计划。

再次参考图2，在步骤202中，分析服务器可以迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，机器学习模型的代理执行步骤204-208(至少部分地)。

使用方法200，分析服务器可以使用强化学习技术迭代地训练机器学习模型。具体地，使用强化学习技术，机器学习模型的代理学习用于为由第二模型(例如，计划优化器模型)所摄取的控制/启发式参数值选择最优设置的策略。训练可以在迭代步骤中发生，其中对于每个步骤，代理可以探索或开发知识来学习如何选择产生更高(或最多)奖励(例如，最大奖励)的参数。

在用于IMRT的CG方法的非限制性示例中，代理可以迭代地训练自己，其中(当被训练时)代理可以标识针对用于更新梯度通量的共轭梯度方法的最佳混合比。如本文中使用的，最优可以是指将产生最大奖励的动作。尽管本公开的某些方面是根据标识IMRT的CG来描述的，但是应当理解，本文中描述的方法和系统适用于由计算机模型(无论是机器学习还是使用其他算法)(诸如计划优化器模型)用于生成和/或优化处理计划的所有参数。

使用强化学习技术训练机器学习模型可以比使用有监督学习进行优化提供更好的结果，因为强化学习技术可以避免在监督学习方法中可能出现的复合误差。此外，在任何给定时间使用基于深度神经网络的强化学习策略来确定启发式参数(例如，混合比)也可以比使用静态(启发式)等式更好，因为前者可以适应特定属性和值。

使用方法200，与在优化结束时相比，策略在优化开始时可以响应不同特征(或属性和/或值)。例如，在优化开始时，策略可以已经了解到，只有观察的粗略(或粗粒度)总体特征(诸如通量梯度的总变化)对于确定启发式参数是重要的。相反，在优化结束时，策略可以了解到观察的细粒度特征(诸如通量梯度的附近像素的变化)对于确定启发式参数是重要的。

在步骤204中，分析服务器可以标识测试启发式参数。对于每次迭代，分析服务器可以使用各种强化学习技术来生成测试启发式参数。例如，分析服务器可以从一组可能的启发式参数中选择启发式参数。该选择可以取决于分析服务器处于探索阶段还是开发阶段。

分析服务器可以为计划优化器模型限定与单个患者数据或一组患者相关联的数据。计划优化器模型然后被初始化。在一些配置中，分析服务器可以使用限定的数据集执行一些(例如，限定数目的)初始迭代。例如，分析服务器或与计划优化器模型相关联的另一处理器(例如，第三方处理器)可以使用优化器的默认设置来初始化计划优化器模型。使用该协议，分析服务器确保计划优化器模型被同化以用于强化学习。

在步骤206中，分析服务器可以向计划优化器机器学习模型传输测试启发式参数，该模型被配置为接收一个或多个放疗处理属性并且预测至少包括放射治疗机属性的处理计划。在步骤208，分析服务器可以基于第二机器学习模型的执行性能值来标识(例如，计算或收集)针对测试启发式参数的奖励，其中处理器基于使奖励最大化而迭代地训练第一机器学习模型的策略，直到该策略满足准确度阈值。

代理可以使用各种技术与计划优化器模型接口连接(例如，向优化器传输数据)。代理可以向计划优化器模型传输在步骤204中生成的测试启发式参数。分析服务器然后可以使用在步骤204中生成的测试启发式参数来执行计划优化器模型和/或监测其性能。然后，分析服务器可以使用各种强化学习技术(诸如近端策略优化技术、深度Q学习技术、异步学习技术、信任域策略优化技术和/或C51技术)来调谐和/或校准代理(例如，代理的超参数的选择)。

对于每次迭代，都会向代理传输一组可观察数据(代理从环境进行的观察)。如本文中使用的，可观察数据可以包括与计划优化器模型的性能相关联的数据。可观察数据的非限制性示例可以包括与通量、梯度通量、成本函数值等相关联的数据。例如，观察还可以包括来自当前迭代和先前迭代的可观察数据(例如，后续迭代是否正朝向收敛移动)。在一些配置中，因为可观察数据可以以图像的形式接收(例如，图8所示的通量图800或梯度通量图802)，所以代理可以利用特征提取器来分析所接收的数据(例如，代理的特征提取器可以是卷积神经网络本身)。

分析服务器可以以各种方式限定监测的结束状态。结束状态可以标识计划优化器模型已经达到阈值并且代理现在可以基于其观察来标识(例如，计算或收集)奖励。在一个示例中，结束状态可以被限定为计划优化器模型返回特定状态的指示，诸如“收敛”预限定收敛标准、或另一诊断值、或预设试验数目。例如，分析服务器可以监测计划优化器模型收敛于预测所花费的时间，监测计划优化器模型在收敛于预测之前执行的迭代次数，或者监测与计划优化器模型相关联的任何其他诊断值。

分析服务器可以将用于代理的动作空间限定为连续或准连续变量，该变量获取相关范围内的值。例如，当训练以预测IMRT的CG时，分析服务器可以限定范围[0-1]，其中该值对应于混合比。如本文所述，在训练阶段期间，代理生成不同测试参数，并且将它们传输到计划优化器模型，并且相应地为每个测试参数生成奖励。该范围可以由系统管理员限定，或者基于先前分析的数据被自动限定。例如，如果类似的情况产生的参数通常在[0-1]之间，则代理可以不将[0-1]范围之外的测试启发式参数传输到计划优化器模型。结果，当处于生产或预测阶段时，代理也可以预测相同范围(或甚至更小范围)内的参数。

分析服务器可以使用各种方法来标识与每个启发式参数相关联的奖励。例如，分析服务器可以以最佳地促进代理的学习的方式来限定奖励。在非限制性示例中，奖励可以是由计划优化器模型执行以收敛于预测(例如，计划)的迭代次数的函数。使用该奖励系统，分析服务器可以选择强化学习算法(例如，作为深度Q学习或接近策略)来训练代理。

在根据准确度阈值或任何其他限定阈值完成训练之后，对机器学习模型的策略进行训练，并且使其为预测阶段做好准备。例如，经训练的策略可以表示为具有权重和偏差的神经网络架构。在训练之后，分析服务器可以将策略(例如，表示权重和偏差的架构和/或代码)存储为数据存储库(例如，计算机存储器或共享数据存储库)内的数据对象。当被提示时，分析服务器可以访问数据对象并且执行策略，以允许机器学习模型预测新患者的结果。

当被训练时，机器学习模型可以预测可以由计划优化器模型摄取的启发式值。例如，图7中的图表700描绘了机器学习模型(具有经训练的策略)收敛于混合比率的示例。经训练的策略可以被实现为与计划优化器模型相结合使用，或者作为计划优化器模型的一部分来实现(在用于计划优化器模型的代码中实现)。例如，策略(例如，偏差和权重)可以作为嵌入式函数被包括在计划优化器模型的编译代码中。

图3示出了根据一个实施例的强化学习模型300。强化学习模型300是服务器如何训练机器学习模型的策略的示例。强化学习模型300描绘了多个特定特征。然而，在一些实现中，强化学习模型可以仅利用单个特征。例如，即使在图3中描绘了多个代理，但是一些实施例也可以仅包括一个代理。

模型300被实现为基于最大化(或增加)累积奖励总和来推荐各种放疗处理类别的放疗处理属性。该框架的上下文可以基于先前处理计划。解决方案空间中的可用动作可以是不同参数。奖励可以基于推荐的参数是否产生高效的或可接受的结果。例如，由计划优化器模型摄取并且允许计划优化器模型更快地生成结果的参数被分配更高的奖励。

在强化学习模型300中，代理302a-302m(本文中统称为代理302)与环境304(例如，分别为环境304a-304m)交互。环境304可以是指与使用测试启发式参数的计划优化器模型的执行相关联的数据。代理302是指学习者或训练者(例如，训练AI模型的分析服务器或AI模型本身)。对于每个推荐任务t，代理302基于上下文来观察状态s_t，并且使用策略344从一组动作中选择动作。分析服务器可以使用强化学习来训练神经网络，因为每个状态s_t可以独立于下一状态s_t+1。

代理302可以摄取由模型300接收的数据。在一些实现中，分析服务器变换和/或预处理数据。例如，数据的维度可以在代理302接收数据之前被降低。代理302的目标可以是连续学习和细化策略344并且推荐可以由计划优化器模型摄取的可接受参数。学习发生在代理302使其累积奖励最大化时。例如，当计划优化器生成医疗专业人员接受的计划或以及时的方式或更少的迭代生成计划时，代理302可以接收正奖励。

策略344可以将状态(和/或观察)映射到动作。策略344可以提供当代理302处于特定状态时采取特定动作的概率。可能的一组动作可以包括不同启发式参数。可能的一组动作(例如，动作空间)可以任意限定，并且取决于解决方案空间的考虑因素。例如，解决方案空间可以根据不同患者属性和/或不同治疗属性而不同。

代理302可以基于采取每个动作的值来选择动作，其中选择动作的值被限定为当从可能的一组动作中采取该动作时所接收到的预期奖励。代理302可以基于探索动作和开发动作来选择动作。代理可以连续或周期性地优化其当前和未来性能，因为它平衡了开发和探索，并且旨在推广到新上下文。

探索动作通过在产生奖励标识/收集的序列中使用被探索动作来提高代理对动作的了解。探索动作是不受先验知识限制的动作。开发动作是开发代理302的当前动作值估计的“贪婪”动作。例如，当ε指示探索动作时，策略344可以指导代理302选择随机动作。相反，当ε指示开发动作时，策略344可以指导代理302选择在给定一个或多个类似患者数据特征的情况下先前已经接收到奖励的动作。

在一些实施例中，分析服务器可以将参数噪声注入到模型300中。通过将噪声添加到策略选择的参数，参数噪声可能导致更大的探索和更成功的模型300。例如，使用ε贪婪动作选择，代理302平衡探索动作和开发动作。代理302可以选择ε值，并且基于ε值和一个或多个开发和/或探索阈值来执行开发动作或探索动作。代理302可以随机选择ε值，从ε值的预定分布中选择ε值、响应于环境304而选择ε值、响应于一个或多个标准而选择ε值、响应于训练时期的数目而选择ε值、和/或响应于一个或多个梯度而选择ε值，等等。

在一些实施例中，随着训练的进行，可以利用开发动作来改进对专家的训练。例如，分析服务器可以修改ε值(或ε选择方法)，使得探索动作的可能性高于或低于开发动作的可能性。附加地或备选地，分析服务器可以修改开发动作阈值和/或探索动作阈值。

代理302还可以使用策略344来选择动作。策略344可以是全局策略，使得代理302共享公共策略。策略344可以基于采取每个动作的值来调谐，其中选择动作的值被限定为当从可能的一组动作中采取该动作时所接收到的预期奖励。在一些配置中，分析服务器可以使用在其他服务器中操作的代理来更新策略344(例如，经由联合学习。

策略344可以被存储在全局模型432中。使用全局模型432允许每个代理302具有更加多样化的训练数据集，并且消除了对与每个代理302相关联的模型的同步的需要。具有代理302a至302m的全局模型432可以产生m维输出。在其他配置中，可以存在与每个代理相关联的模型(例如，m个模型)，并且每个代理可以使用指定的机器学习模型来标识/收集奖励。每个代理可以调谐自己的策略。代理的策略类可以由通用线性分类器、支持向量机、随机森林或另一机器学习模型(例如，深度神经网络)来表示。

响应于选择一个动作(或多个动作)，代理302可以接收指示该动作如何影响环境304的反馈。在一些配置中，代理302评估反馈。反馈可以从计划优化器模型来接收。在另一实施例中，分析服务器(或任何其他处理器)可以监测计划优化器的性能，并且可以相应地生成奖励。

对于每次迭代(或在多次迭代和/或步骤之后)，代理302基于当前状态s_t、ε值来选择策略344(和动作)，并且代理302(或机器学习模型)标识/收集奖励。每次迭代，代理302(或机器学习模型)都会学习执行得更好，这可以从奖励的增加中看出(例如，迭代奖励求和)。

图4-图5示出了根据一个实施例的利用本文中描述的方法和系统的工作流程400的非限制性视觉示例。在该示例中，分析服务器接收并且分析患者数据和/或治疗属性，以预测由计划优化器模型(例如，计划优化器引擎406)使用的优化的启发式参数。分析服务器可以首先接收特定患者的患者数据和处理数据402。除了处理数据(例如，由治疗医生输入的标识的肿瘤或其他推荐)之外，数据402还可以包括医学图像和/或患者信息。数据402可以由强化学习(RL)引擎404摄取。图5示出了根据一个实施例的在工作流400中采用的RL引擎404。

输入层502可以用于摄取可以是异构的也可以不是异构的数据。在一些实现中，输入层502可以降低所接收的数据的维度。例如，输入层502可以使用卷积层和/或池化层来实现。卷积层可以接收数据(或患者数据和/或处理数据的预处理版本)。例如，预处理数据可以包括分析服务器执行特征提取协议、标准化数据、缩放数据、使数据平坦化、和/或将数据变换为不同维度等等。

输入层502中的卷积层可以通过将滤波器和/或核与患者数据卷积并且生成提取特征的特征图来检测和提取数据(例如，图4中的数据402)的特征。利用滤波器对患者数据进行卷积具有减小患者数据的维度的效果。卷积层的输出可以是特征图。在一些实施例中，在卷积层之后可以有一个或多个卷积层。增加卷积层的数目增加了在特征图中检测到的特征的复杂性。如果采用附加卷积层，则后续卷积层中的滤波器可以与第一卷积层中采用的滤波器相同。附加地或备选地，在后续卷积层中使用的滤波器可以不同于在第一卷积层中采用的滤波器。

特征图可以被馈送到池化层中。池化层可以是检测突出特征的最大池化层(或稍后的任何其他类型的池化)。在其他配置中，池化层可以是平均池化层。池化层降低了特征图的维度，以对特征图进行下采样，从而实现更高效的操作。在一个示例中，如果池化层是最大池化层，则分析服务器在池化窗口中检测到具有较高相对值的突出特征。

推荐引擎504可以是基于从输入层502确定的输入特征的机器学习模型(例如，神经网络)或广义线性模型。推荐引擎504可以是全局引擎(例如，图3中的全局模型432)，或者包括用于每个放疗属性(和/或放疗处理的类别)的单独的子引擎。因此，可以存在指示n个场几何属性选项的n个模型。

输出层508可以将来自推荐引擎504的输出转换为推荐得分(或与医疗专业人员的预测场几何或其他属性偏好相关联的其他概率)。在推荐引擎504是神经网络的情况下，例如，输出层508可以是softmax层。softmax层可以使用softmax函数或归一化指数函数来将实数的输入(例如，推荐引擎504的输出)变换为预测输出类(例如，放疗处理属性和/或放疗处理类别)上的归一化概率分布。在推荐引擎504是线性模型的情况下，输出层508可以是具有指定概率的推荐列表。

推荐引擎504可以使用本文中讨论的方法和系统来训练。例如，奖励确定408计算对于不同可能动作的奖励，并且分析服务器可以相应地训练推荐引擎504。具体地，由推荐引擎504预测的参数可以由计划优化器引擎406摄取。分析服务器然后可以观察由计划优化器引擎406生成的处理。例如，当基于预测的参数来生成处理计划时，分析服务器可以确定与计划优化器引擎406的执行相关联的时间。例如，基于计划优化器引擎406生成计划所花费的时间，分析服务器可以为由推荐引擎504所推荐的参数生成得分(奖励)。使用本文中描述的强化学习方法和系统，分析服务器可以训练推荐引擎504。

输出层508可以将结果输出到计算设备(例如，为医疗专业人员和/或系统管理员显示结果)。例如，输出层508可以选择前n个推荐进行显示。在不同示例中，输出层508可以将推荐从最推荐到最不推荐进行排序。

在训练阶段(例如，阈值训练迭代次数或阈值推荐准确度)完成之后，推荐引擎504准备好预测参数(预测阶段)。因此，训练阶段与使用虚线的预测阶段被清楚地区分开来。在预测阶段期间，RL引擎404可以经由推荐引擎504生成启发式参数，并且将该启发式参数传输到计划优化器引擎406，在该计划优化器引擎中，计划优化引擎为患者生成处理计划。

结合本文中公开的实施例而描述的各种说明性逻辑块、模块、电路和算法步骤可以实现为电子硬件、计算机软件或这两者的组合。为了清楚地说明硬件和软件的这种可互换性，上面已经大体上根据其功能描述了各种说明性组件、块、模块、电路和步骤。这种功能是实现为硬件还是实现为软件取决于特定应用和施加在整个系统上的设计约束。所属领域的技术人员可以针对每个特定应用以不同方式实现所描述的功能，但这样的实现决策不应当被解释为导致偏离本公开或权利要求的范围。

在计算机软件中实现的实施例可以用软件、固件、中间件、微码、硬件描述语言或其任何组合来实现。代码段或机器可执行指令可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类、或者指令、数据结构或程序语句的任何组合。代码段可以通过传递和/或接收信息、数据、自变量、参数或存储器内容而耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可以经由任何合适的方式传递、转发或传输，包括存储器共享、消息传递、令牌传递、网络传输等。

用于实现这些系统和方法的实际软件代码或专用控制硬件不限制所要求保护的特征或本公开。因此，在没有参考特定软件代码的情况下描述了系统和方法的操作和行为，应当理解，软件和控制硬件可以被设计为基于本文中的描述来实现系统和方法。

当以软件来实现时，功能可以作为一个或多个指令或代码存储在非暂态计算机可读或处理器可读存储介质上。本文中公开的方法或算法的步骤可以体现在处理器可执行软件模块中，该软件模块可以驻留在计算机可读或处理器可读存储介质上。非暂态计算机可读或处理器可读介质包括促进计算机程序从一个地方到另一地方的转移的计算机存储介质和有形存储介质。非暂态处理器可读存储介质可以是计算机可以访问的任何可用介质。作为示例而非限制，这样的非暂态处理器可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或者可以用于以指令或数据结构的形式存储期望程序代码并且可以由计算机或处理器访问的任何其他有形存储介质。如本文中使用的磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘和蓝光盘，其中磁盘通常磁性地再现数据，而光盘用激光光学地再现数据。以上各项的组合也应当被包括在计算机可读介质的范围内。此外，方法或算法的操作可以作为代码和/或指令的一个或任何组合或集合存在于非暂态处理器可读介质和/或计算机可读介质上，该介质可以被并入计算机程序产品中。

提供所公开的实施例的前述描述是为了使得本领域任何技术人员能够制作或使用本文中描述的实施例及其变体。对这些实施例的各种修改对于本领域技术人员来说将是很清楚的，并且在不脱离本文中公开的主题的精神或范围的情况下，本文中定义的原理可以应用于其他实施例。因此，本公开不旨在局限于本文所示的实施例，而是应当符合与以下权利要求以及本文中公开的原理和新颖特征相一致的最宽范围。

虽然已经公开了各种方面和实施例，但也可以考虑其他方面和实施例。所公开的各个方面和实施例是为了说明的目的，而不旨在限制，真正的范围和精神由以下权利要求指示。

Claims

1.一种配置用于放疗处理的计划优化器模型的方法，所述方法包括：

由处理器迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，所述机器学习模型的代理：

标识测试启发式参数；

向所述计划优化器模型传输所述测试启发式参数，所述计划优化器模型被配置为接收一个或多个放疗处理属性并且预测处理计划；以及

基于所述计划优化器模型的执行性能值来标识针对所述测试启发式参数的奖励，

其中所述处理器基于使所述奖励最大化而迭代地训练所述机器学习模型的策略，直到所述策略满足准确度阈值。

2.根据权利要求1所述的方法，其中所述测试启发式参数的类别对应于以下至少一项：共轭梯度混合比、行搜索中的初始步长、或叶尖突变试验的数目。

3.根据权利要求1或权利要求2所述的方法，其中所述奖励基于所述计划优化器模型是否收敛于预测的处理计划。

4.根据任一前述权利要求所述的方法，其中所述奖励基于所述计划优化器模型的执行时间。

5.根据任一前述权利要求所述的方法，其中所述启发式参数对应于具有最大奖励的所述测试启发式参数。

6.根据任一前述权利要求所述的方法，其中所述处理计划包括至少一个放射治疗机属性。

7.根据任一前述权利要求所述的方法，其中所述奖励基于对于所述计划优化器模型的迭代次数。

8.根据任一前述权利要求所述的方法，其中所述计划优化器模型是机器学习模型。

9.根据任一前述权利要求所述的方法，其中所述测试启发式参数在限定的值范围内。

10.一种包括处理器和非暂态计算机可读介质的服务器，所述非暂态计算机可读介质包含用于配置用于放疗处理的计划优化器模型的指令，所述指令在由所述处理器执行时使所述处理器执行操作，所述操作包括：

迭代地训练被配置为预测启发式参数的机器学习模型，其中对于每次迭代，所述机器学习模型的代理：

标识测试启发式参数；

11.根据权利要求10所述的服务器，其中所述测试启发式参数的类别对应于以下至少一项：共轭梯度混合比、行搜索中的初始步长、或叶尖突变试验的数目。

12.根据权利要求10或权利要求11所述的服务器，其中所述奖励基于所述计划优化器模型是否收敛于预测的处理计划。

13.根据权利要求10至12中任一项所述的服务器，其中所述奖励基于所述计划优化器模型的执行时间。

14.根据权利要求10至13中任一项所述的服务器，其中所述启发式参数对应于具有最大奖励的所述测试启发式参数。

15.根据权利要求10至14中任一项所述的服务器，其中所述处理计划包括至少一个放射治疗机属性。

16.根据权利要求10至15中任一项所述的服务器，其中所述奖励基于对于所述计划优化器模型的迭代次数。

17.根据权利要求10至16中任一项所述的服务器，其中所述计划优化器模型是机器学习模型。

18.根据权利要求10至17中任一项所述的服务器，其中所述测试启发式参数在限定的值范围内。

19.一种用于配置用于放疗处理的计划优化器模型的系统，所述系统包括：

所述计划优化器模型，被配置为接收一个或多个放疗处理属性并且预测处理计划；以及

服务器，与所述计划优化器进行通信，所述服务器被配置为：

标识测试启发式参数；

向所述计划优化器模型传输所述测试启发式参数；以及基于所述计划优化器模型的执行性能值来标识针对所述测试启发式参数的奖励，

其中所述服务器基于使所述奖励最大化而迭代地训练所述机器学习模型的策略，直到所述策略满足准确度阈值。

20.根据权利要求19所述的系统，其中所述测试启发式参数的类别对应于以下至少一项：共轭梯度混合比、行搜索中的初始步长、或叶尖突变试验的数目。