CN108700307B

CN108700307B - 具有红外评估性控制的电子烤箱

Info

Publication number: CN108700307B
Application number: CN201780011391.9A
Authority: CN
Inventors: A.A.D.M.佩雷拉; L.R.斯佩瑟尔; N.C.莱因德克尔
Original assignee: Makov Co Ltd
Current assignee: Makov Co., Ltd
Priority date: 2016-03-30
Filing date: 2017-03-24
Publication date: 2020-06-16
Anticipated expiration: 2037-03-24
Also published as: US10681776B2; CA3007593A1; US20180098381A1; EP3380790B1; AU2018260976B2; BR112017024420A2; AU2017241445A1; AU2018260976A1; CN108700307A; JP6535824B1; KR101983304B1; EP3380790A1; US11632826B2; JP2019519744A; WO2017172539A1; AU2017241445B2; US20200260529A1; US20170290095A1; US10009957B2; KR20180091935A

Abstract

所公开的用于将电子烤箱的腔室中的物品朝向目标状态加热的计算机实施方法包括在电子烤箱处于相应的一组配置中时利用至腔室的一组能量的应用加热该物品。一组能量的应用和相应的一组配置定义腔室中相应的一组能量的可变分布。该方法还包括感测传感器数据，该传感器数据定义该物品对一组能量的应用的相应的一组响应。该方法还包括生成加热腔室中物品的计划。该计划由电子烤箱的控制系统生成并使用传感器数据。

Description

具有红外评估性控制的电子烤箱

相关申请的交叉引用

本申请要求2017年3月23日提交的美国申请No.15/467,975的优先权，其要求2016年3月30日提交的美国临时申请No.62/315,175的权益、2017年1月12日提交的美国临时申请No.62/445,628的权益、2016年6月13日提交的美国临时申请No.62/349,367的权益和2016年12月14日提交的美国临时申请No.62/434,179的权益，出于所有的目的，这些申请的全部内容通过引用整体并入本文。

背景技术

电子烤箱通过利用电磁辐射轰击腔室内的物品来加热该些物品。就微波炉而言，辐射大部分经常采用频率为2.45GHz或915MHz的微波形式。这些辐射形式的波长分别为12厘米和32.8厘米。微波炉内的波在腔室内反射并引起驻波。驻波由两个相位相反且沿相反方向行进的波引起。这两个波的综合作用是产生波腹和节点。这些波在节点处完美相干以产生没有能量传递的光点。这些波在波腹处完美相干以产生传递两倍单波能量的光点。与正在加热的物品内的热扩散速度相比，辐射的波长是可观的。因此，与传统方法相比，电子烤箱倾向于不均匀地加热食物。

因为电子烤箱将热量引入到正被加热的物品的特定体积中的原理，所以电子烤箱也易于不均匀地加热食物。微波炉中的电磁波导致极化分子(例如水)来回旋转，从而以动能的形式向物品传递能量。因此，纯水在微波中被十分有效地加热，但不包括极化分子的物品不会那么有效地加热。由于单个物品的不同部分可以被加热到高温而其他部分不会被加热到高温，因此这样加重了不均匀加热的问题。例如，具有高蔗糖含量的果冻甜甜圈的内部将变得极其热而外部面团不会。

用于处理电子烤箱中不均匀烹饪的传统方法包括将正在被加热的物品移动到旋转托盘上并用旋转搅拌器中断电磁能量束。这两种方法均防止将电磁波的波腹施加到物品上的特定光点，从而防止不均匀加热。然而，两种方法在处理波腹和物品本身的相对位置时是基本随机的。它们也没有解决微波炉中正在被不均匀加热的特定物品的问题。在这些方法中，施加到腔室的热量不基于正在被加热物品的位置或特定内部特征而调整。

发明内容

本文所公开的方法使用评估性反馈或确定性计划将能量施加到置于腔室中用于加热的任意物品，从而解决电子烤箱中不均匀加热的问题。在一些方法中，评估性反馈涉及通过使用提供至控制系统的红外传感器感测物品的表面温度分布的物品评估。在一些方法中，评估性反馈涉及通过感测施加至物品的能量相关联的RF参数(例如阻抗匹配或回波损耗)的物品评估。在一些方法中，使用本文讨论的用于评估性反馈的任何参数的评估进行确定性计划。例如，确定性计划可以通过对物品表面温度分布的评估来指导。可以在发现阶段期间进行表面温度分布的评估，这是为了获得可用于生成该计划的信息而在实际执行由此种确定性计划器形成的计划之前进行。表面温度分布的评估也可以在计划执行期间进行，以确定物品的实际加热是否没有按照计划产生时预期的那样进行。

在一些方法中，控制系统在由确定性计划开发的计划的执行期间或在评估反馈循环的执行期间采取的动作涉及向物品施加能量并且改变用于腔室的至少一个能量源的强度并改变物品相对于由该能量源形成的可变分布的相对位置。例如，微波源可以在腔室中形成电磁能量的可变分布，并且可以调整该可变分布与正在被加热物品的相对位置。可变分布可以包括节点和波腹。可变分布可以包括能量以比任何另一相邻位置更大程度施加的局部最大值或“热点”。局部最大值相对于该物品将具有相对位置。由控制系统采取的动作可以包括将相对位置从第一位置值改变到第二位置值。如本文所使用的，术语“可变分布”指跨越空间的能量水平的变化而不指暂时变化的能量分布。

在一些方法中，评估性反馈用于训练控制系统以便以最佳方式将能量施加到置于腔室内的任何物品。评估性反馈特别适用于任意物品的不均匀加热的问题，因为由控制系统采取的每个动作都向控制系统提供了训练信息。这在训练控制系统加热物品的情况下是特别有益，因为不像纯粹的数据处理任务，每个训练场景涉及可观的时间量。使用纯粹存在于数字领域的训练环境训练控制系统，例如训练控制系统与另一数字系统下棋，可能涉及历时少于1毫秒的训练场景。然而，使用包括在发生在现实世界中的物理反应的训练环境训练控制系统涉及由这些物理反应的实际速度设定的约束。因此，响应于由控制系统采取的每个动作提供训练信息的评估性反馈对于该特定应用是有益的，因为可以在设定的时间段内获得更多的训练信息。

本文公开的一些方法还通过使用强化学习训练系统利用从评估性反馈中收集的信息训练控制系统。强化学习涉及使用动作值函数和分配给不同状态的奖励值。动作值函数将系统的状态和根据该状态采取的潜在动作作为输入并输出采取该动作而将获得的潜在未来奖励。在某些方法中，状态至少可以部分由物品的表面温度分布限定。例如，状态可以是对应于跨越二维平面或三维体积的物理位置的温度值的矩阵。二维平面可以通过红外摄像机上的像素位置设置，或者它可以是从物品的视觉图像外推的物品的实际表面积。奖励值可以使用多个输入计算并且可以从表面温度分布中导出。奖励可以是正的或负的。例如，对保持低的表面温度分布的变化可以提供较高的奖励。对物品在腔室内烧焦或溢出可以提供负的奖励。

在一些方法中，使用确定性计划器和关于电子烤箱的操作或物品的某些参数的评估生成计划。例如，电子烤箱可以评估成本函数以确定以最小成本加热物品的计划。评估成本函数可以涉及利用关于腔室中物品的表面温度分布的信息。该信息可以用于外推该物品的所计划的表面温度分布。例如，响应于预定义的能量施加的物品的表面温度分布可以用于外推响应于所计划的对尚未发生的物品所计划的能量施加物品的温度分布将如何改变。所外推的分布然后可用于评估与所计划的能量施加相关的成本函数。该信息还可用于确定实际的表面温度是否偏离所计划的表面温度分布，以便根据预期监视计划的性能并确定是否应确定新计划。该信息也可以用于生成使用启发法的估计的计划成本。例如，响应于在电子烤箱的一组配置下的一组预定义的能量施加的物品的表面温度分布可用于提供物品将需要加热多久以达到目标温度的估计。

参见图1中的流程图100和电子烤箱110可描述利用红外评估性控制的一组示例性计算机实施的方法。流程图100图示说明了用于使用红外评估性控制加热电子烤箱110的腔室(诸如腔室112)中的物品(诸如物品111)的一组计算机实施的方法。红外评估性控制可以涉及评估性反馈或获取用于确定性计划器的信息。该方法可以由电子烤箱110中的控制系统执行或管理。电子烤箱可以包括微波能量源113和在腔室壁中的不连续部分114。微波能量源113可以在腔室中产生能量的分布115。不连续部分114可以允许红外传感器116感测物品的表面温度分布。传感器116可以经由波导或将红外能量耦合到传感器的某一其他装置耦合到不连续部分114。

在步骤101中，电子烤箱110的控制系统采取第一动作。该动作被图示说明为在时间t下进行。第一动作改变腔室112中来自微波能量源113的能量的分布115的强度和相对位置中的至少一个。能量的分布115的相对位置相对于物品111被限定。分布115可以由在将微波能量源113施加至腔室时的微波能量源113的驻波图案引起。分布115也可以由对物品有针对性的能量施加引起。示例可变分布115被图示说明为施加至物品111。可变分布115包括在点117处与物品111对齐的局部最大值。

在步骤102中，使用红外传感器来感测物品的表面温度分布。红外传感器可以是捕获来自物品111的红外辐射的红外传感器116。步骤102可以替代地或附加地涉及感测与向物品111传递能量相关联的RF参数。在这种情况下，步骤102的某些方面可以与步骤101同时进行。然而，步骤102也可以在电子烤箱完成步骤101中动作的执行之后进行。例如，在整个加热过程的发现阶段期间测量表面温度分布的特定情况下，步骤101中的动作可以是向物品供应能量，并且可以进行步骤102中的感测以测量该物品在能量传递的直接后果中的响应。

在步骤103中，电子烤箱的控制系统将评估函数以生成函数输出。可以使用从步骤102中感测到的表面温度分布导出的信息和针对电子烤箱将采取的至少一个潜在动作评估函数。潜在动作被标记为t+Δt以指示这将是在临近时间步骤中采取的动作。从步骤103返回到步骤101的循环指示时间步长，其中时间增加了Δt且执行下一动作。在步骤101的第二次迭代期间，电子烤箱的控制系统将采取第二动作。第二动作将改变来自微波能量源的腔室中能量的分布的强度和相对位置中的至少一个。第二动作是基于函数输出的一组潜在动作中选择的。如下面将描述，第二动作可以是控制系统根据评估性反馈循环采取的下一动作，或者它可以是在稍后时间根据计划作为一系列动作的一部分所采取的动作。该计划可以由确定性计划器或通过在步骤103中进行的优化分析确定。

该函数可以是动作值函数F(s，a)，其中奖励值作为函数输出。奖励值可以是与从状态“s”采取动作“a”相关的奖励。从表面温度分布导出的信息可以是函数的状态值“s”。电子烤箱的下一动作然后将可能是动作值函数的第二输入“a”。这种方法可以与评估性反馈或如下描述的强化学习方法结合使用。

该函数可以替代地由成本函数F(n)以成本值作为函数输出。成本值可以是与基于在节点“n”处进行的评估而执行加热物品的计划相关联的计划成本。节点可以由电子烤箱能够执行的一系列动作来定义。这一系列动作中的一个动作是用于评估函数的潜在动作。计划成本可以与执行该一系列动作所造成的遍历计划成本相关联。该节点还可以与由外推引擎提供的物品的外推状态相关联。该节点还可以与由启发法提供的估计的未来计划成本相关联。从表面温度分布导出的信息可以由外推引擎用来外推外推状态。从表面温度分布导出的信息也可以用来确定计划的外推效果是否已经发生了偏差。例如，可以将一系列动作预期造成的外推的表面温度分布与在实际执行那些动作之后感测到的实际表面温度分布进行比较。评估可以通过偏差检测器进行。在检测到偏差时，控制系统可以放弃原始计划并生成新的计划。这些方法可以与结合如下所述的确定性计划器使用。

该函数也可以替代地由优化分析求解器执行。优化分析可以确定是否可能产生在可接受的误差值(即，容差)内将物品加热到目标状态的计划。该分析可以使用在执行先前动作期间从传感器获得的数据进行。例如，数据可以在感测步骤102中收集并且定义物品对在步骤101中进行的动作的响应。优化分析然后可以确定先前进行的动作(针对该动作，通过所获得的传感器数据已知响应)是否可以以特定顺序重复以使物品从当前状态变为目标状态。优化分析可以使用凸优化求解器。优化分析的输出可以用来直接导出加热物品的计划。在那种情况下，在步骤101的下次迭代中进行的动作可以涉及由该计划指定的动作的执行。这样的优化分析也可以或者替代地用作如上所述的外推引擎或启发法，并且因此作为确定性计划器的计划生成过程的一部分。

本文公开的一些方法涉及基于置于腔室中的物品的身份或由用户选择的具体加热类型来改变控制或训练系统。具体地，可以基于物品的身份或来自用户的命令改变本文提到的动作值函数、成本函数、启发法、外推引擎、偏差检测器、状态特性、奖励导出程序、优化分析或者用于强化学习方法的训练系统。例如，如果已知物品从较大温度差缓慢恢复，则可以改变成本函数和奖励导出程序两者，以使得保持均匀的温度与更高的奖励和更低的成本相关联。作为另一示例，如果物品被识别为快速干燥或烧焦的物品，或者如果短时间段内超过目标温度，则可以减小优化分析的容差。

在这些方法中，可以通过各种途径提供有关物品身份的信息，以协助控制和训练系统的操作。途径可以包含位于物品包装上的QR码或UPC条形码。另一个途径可以是物品对给定校准步骤的响应，例如由红外传感器监视的物品对能量施加的监视响应。另一个途径可以是单独的机器学习算法，例如被训练用作分类系统以将腔室中的物品识别为特定食物物品的传统神经网络。另一个途径可以是物品反射的可见光并由可见光传感器检测到。另一个途径可以是来自电子烤箱的用户通过用户界面的输入。通过这些途径提供的信息可以简单地识别物品并允许控制系统确定如何改变自身，或者信息实际上可以直接用于改变控制系统。例如，QR码可以将物品识别为冷冻晚餐，并且控制系统可以基于识别信息加载新的奖励导出程序，或者QR中的信息本身可以是新的奖励导出程序。例如，奖励导出程序可以奖励物品从冷冻到融化的渐进相变。

本文公开的一些方法需要目标状态的定义以便相关联的计划器或强化学习系统起作用。可以在不同程度的特异性下从电子烤箱的用户接收目标状态。例如，用户可以指定物品的特定温度或子物品的一组不同温度。替代地，用户可以指定诸如“温暖”或“沸腾”的通用命令，并且可以根据该命令导出目标状态。目标状态可以通过跨越物品表面或整个物品体积的温度分布来定义。在一些方法中，电子烤箱根据背景(例如物品的身份、从用户接收的先前输入、以及诸如电子烤箱的位置和时刻的其他外部因素)凭直觉知道目标状态。

所公开的方法通过提供更可靠的加热来改善电子烤箱的领域和微波加热。以受控且可靠的方式控制施加至物品的电磁能量是一个技术问题。所公开的方法包括有助于解决该技术问题的一系列方面。具体地，如本文所述的评估性反馈、优化分析、确定性计划器和强化学习的使用每个都以创新方式增强了用于加热电子烤箱中物品的控制系统的精度和效率，以解决上述技术问题并总体改善了电子烤箱的操作。

附图说明

图1包括使用评估性控制系统用于加热腔室中物品的一组计算机实施的方法的流程图和根据本文公开的方法的电子烤箱的图示说明。

图2包括根据本文公开的方法用于改变电子烤箱的腔室中的能量分布的反射元件的平面图和侧视图。

图3包括根据本文公开的方法用于使用优化分析加热腔室中物品的一组计算机实施的方法的流程图。

图4包括反映状态向量和响应向量的一组彩色编码网格，这些向量便于描述图3中的一些优化分析。

图5包括便于描述图3中的一些优化分析的数据流图。

图6包括根据本文公开的方法绘制从单个持续时间向量导出的两个计划的两组轴，其中两组轴的x轴是以秒为单位的时间而两组轴的y轴是以摄氏度为单位的温度。

图7包括绘制优化分析的模拟误差的一组轴，其中x轴是可用于优化分析的配置数而y轴是以摄氏度为单位的误差。

图8包括用于根据本文公开的方法使用具有强化学习的评估性反馈控制系统来加热腔室中物品的一组计算机实施的方法的流程图。

图9包括图示说明根据本文公开的方法具有用作动作值函数的函数逼近器的控制系统的操作的框图。

图10包括用于根据本文公开的方法使用确定性计划器加热腔室中物品的一组计算机实施的方法的流程图。

图11包括根据本文公开的方法响应于一组动作利用表面温度分布外推物品的状态的外推引擎的概念图。

图12包括根据本文公开的方法在执行所导出的计划时监视该计划性能的概念图。

图13包括图示说明根据本文公开的强化学习方法用于电子烤箱的控制系统的数据流图。

图14包括图示说明根据本文公开的确定性计划器方法用于电子烤箱的控制系统的数据流图。

图15包括根据本文公开的方法的状态导出系统的一个方面的概念图。

图16包括图示说明使用来自外部途径的数据初始化图13中的控制系统的数据流图。

具体实施方式

公开了使用评估性控制加热电子烤箱的腔室中物品的控制系统。在一些方法中，控制系统使用评估性反馈。控制系统的输出可以包括相对于腔室中的物品施加到烤箱的腔室的电磁能量的可变分布的功率电平和相对位置。控制系统的反馈可以包括可见光数据、物品的表面温度分布或者与腔室或物品对电磁能量的吸收相关联的RF参数。在一些方法中，评估性反馈使用强化学习训练系统用于训练控制系统。在一些方法中，控制系统使用确定性计划器产生计划来加热物品。在一些方法中，评估性反馈用于学习物品对给定动作的响应。成对的响应和动作然后可以用于导出将物品加热到目标状态的计划。该计划可以包括改变用于相对于腔室中的物品施加到腔室的电磁能量的图案的功率电平和可变分布的一系列动作。该计划可以基于在整个加热过程的发现阶段期间对物品的表面温度分布的评估而生成，并且响应于由电子烤箱所采取的附加动作外推表面温度分布将如何改变。在计划执行期间，可以基于对物品的表面温度分布或其他反馈参数的评估监视计划的性能。

电子烤箱部件

图1中的电子烤箱110根据本文公开的方法图示说明了可以使用的电子烤箱的各种特征。未图示说明出烤箱开口以便露出腔室112，有待被加热的物品111置于该腔室112中。物品111经由来自能量源113的能量115的可变分布由电磁波轰击。该物品可以置于托盘118上。电子烤箱110包括控制面板119。控制面板119连接到位于烤箱110内而腔室112外部的控制系统。控制系统可以包括处理器、ASIC或其他嵌入式系统核心，并且可以位于印刷电路板或其他基板上。控制系统也可以访问固件或诸如闪存或ROM的非易失性存储器以存储用于执行本文描述的方法的指令。

能量源113可以是电磁能量的来源。源可以包括单个波导或天线。源可能包括天线阵列。电磁波可以是微波。电子烤箱110可以包括从直流电源产生微波的空腔磁控管。微波可以具有2.45GHz或915MHz的频率。空腔磁控管可以通过现代逆变微波技术供电，以使得可以在不同功率电平下产生微波。然而，传统的功率调节技术可以用于为磁控管产生一定电平的直流功率。电磁波通常可以是射频波。波的频率也可以由能量源113改变。能量源113也可以被配置为同时产生具有不同频率的多个波形。

微波110可以在腔室112中形成可变分布115，其中可变分布具有在由腔室112限定的体积内的不同三维点处形成的波腹和节点。腔室112内针对可变分布的具体物理配置可以被称为电子烤箱的模式。腔室中的能量的相对分布可以在保持物品111静止时通过改变电子烤箱的模式改变或通过移动腔室内的物品111改变。能量源113可以包括模式搅拌器以防止在腔室112内的固定位置形成驻波。模式搅拌器可以是以一定方式放置的一组突出部分，以便部分地阻挡正被施加到腔室112的电磁能量，并且改变能量被阻挡以引起不同程度的反射的方式并且改变在腔室112中形成的波腹和节点的图案。在能量源113是天线阵列的情况下，能量源可以瞬时地向阵列中的天线传递可变电平的能量以改变腔室112内的可变分布。

控制面板119可以用来与用户通信。控制面板119用于向用户提供信息、接收来自用户的命令或两者。控制面板119被示出具有可选的显示器、小键盘、扬声器和照相机。控制面板可以在显示屏上显示信息。显示屏可以是触摸使能的并且经由触摸控制器从用户接收命令。控制面板可以经由扬声器提供音频提示，并经由集成麦克风从用户接收语音命令。取决于语音系统的复杂性，扬声器还可用于与用户进行基本对话，以指导他们将语音命令输入至电子烤箱。控制面板可以经由小键盘接收来自用户的命令。尽管在图1中呈现了一组基本的键，但电子烤箱可以具有任何数量的专用键，用于输入专用于本文公开的电子烤箱的某些功能的命令。控制面板可以经由照相机或通过预备的超声波或紫外线传感器接收来自用户的手势命令。控制面板可以在物品被置于腔室112之前经由照相机接收来自物品的包装的UPC或条形码的信息。照相机还可以被配置为使用传统分类器和图像识别技术识别置于照相机的视野内的物品。

电子烤箱110还可以包括至有线或无线通信系统的一个或多个连接件。例如，烤箱可以包括用于卫星或Wi-Fi连接的无线电收发装置。用于电子烤箱110的控制系统可以包括经由该无线电收发装置通过互联网进行通信的网页浏览器或简单的HTTP客户端。无线通信系统和控制系统也可以被配置为通过LAN或PAN进行通信，例如通过使用蓝牙、Zigbee、Z波或类似的标准。无线电收发装置还可以被配置为与放置在待加热物品的包装上的RFID标签进行感应通信。感应通信可以是NFC通信。

电子烤箱可以通过任何上述方式与由电子烤箱110的制造商管理或代表电子烤箱110的制造商的中央服务器通信以接收更新并提供关于机器操作的信息。由控制面板119提供的所有功能可以经由任何上述方式由单独的消费者设备(诸如移动电话或工作站上的网络门户)提供。通信可以包括从烤箱提供至设备的状态信息或从设备到烤箱的命令。鉴于设备和烤箱可能位于不同位置(例如更频繁的状态更新或腔室内物品的可见光图像)，可以提供附加功能。

电子烤箱110还可以包括腔室112的壁中的不连续部分，其被配置成允许电磁辐射引导出腔室。不连续部分可以是开口114。虽然电子烤箱中的开口114显示在腔室112的壁上，但开口可位于腔室112的表面上的提供腔室112内部的充分视图的任何位置。该开口可以包括具有物理参数的过去截止波导，以阻挡来自能量源113的电磁能量，同时允许其他频谱中的电磁能量通过开口114逸出。例如，可以防止微波能量离开开口，同时允许可见光和红外能量穿过开口114。

开口114可以将来自腔室112的能量直接或通过波导引导至传感器。传感器可以被配置为检测红外能量或可见光或两者的组合。传感器或传感器组可以包括IR照相机、可见光照相机、热电堆或能够获得可见光传感器数据和/或红外光传感器数据的任何其他传感器。在一个特定的示例中，可以将开口连接到具有可移除IR滤光器的标准的可见光照相机，以便照相机可以用作可见光传感器和红外传感器两者，并且接收红外传感器数据和可见光传感器数据两者。单个传感器方法将提供某些益处，因为两个不同视场的对准误差将不需要被消除，像具有两个传感器系统的情况那样。

可以使用同一开口将可见光和红外光引导出腔室。在一种方法中，可以替代地或可选地用于过去截止波导的时分多路复用滤波系统可以允许单个传感器或多个传感器检测来自同一电磁能量流的可见光和红外能量。滤波器可以包括轮或用于不同电磁能量频谱过滤的另一选择器。轮将与电磁能量流呈直线布置并替代地仅传输可见光或红外能量。放置在轮的另一侧的一个传感器或多个传感器然后将能够检测来自输入流的所期望的光。传感器也可以被配置为获得关于两个光谱的信息并使用数字滤波将信号分解成其红外光分量部分和可见光分量部分。在另一种方法中，传感器可以被配置为通过例如以相对于腔室中的开口稍微不同的角度定位而连续地获得相同电磁能量流的不同段。

示例电子烤箱还可以包括附加开口以获得物品111的不同视图。然后可以将来自各视图的数据组合以形成物品的三维图像。然而，应用于通过开口114感测可见光的照相机可以替代地是三维照相机以实现类似的结果。具体地，两个照相机可以利用两个开口获得关于物品111的立体信息。作为另一个具体示例，两个开口可以用于获得不同的数据流(例如，开口114可以获得可见光传感器数据流而另一个开口获得红外光传感器数据流)。

根据本公开的示例电子烤箱可以包括未在图1中示出的其他特征。烤箱可以增加许多附加传感器。传感器可以包括温度传感器、听觉传感器、RF参数传感器、湿度传感器、颗粒物浓度传感器、高度传感器、超声波传感器、紫外线或IR传感器、重量传感器(例如标尺)以及可用于获得关于物品、腔室或烤箱状态的信息的任何其他传感器。例如，烤箱可以包括用于检测经由源113施加到腔室112的功率的传感器、来自腔室112的回波损耗的传感器、能量源与物品或腔室之间的阻抗匹配的传感器和能量源的其他物理方面的传感器。具体地，可以测量回波损耗以确定物品111中的相变，因为某些物品与在被冷冻时相比其在融化时吸收更大程度的能量。阻抗匹配或回波损耗测量也可以应用于检测正在被加热物品的物理特性的更微妙变化。附加传感器可以经由通风系统检测离开腔室112的空气或腔室内的空气的湿度。附加传感器可以检测这些体积内的颗粒物浓度，以确定物品是否正冒烟。附加传感器可以检测物品111的重量。

电子烤箱110可以包括放置在物品111上方以防止在物品111被加热时在腔室112内溅射的透明盖。盖对于可见光和红外光两者是透明的，以便不干扰经由开口114感测那些频带中的电磁辐射。例如，盖可以是红外透射有机玻璃。也可以通过在疏水层中涂覆材料或通过在盖上设计允许湿气逸出外壳的穿孔而对盖进行处理，以防止形成冷凝。

用于修改腔室中能量的可变分布的特定类别的方法涉及将来自能量源的能量施加至一组可变反射率元件。可以改变元件的反射率以将不同的相移引入到来自能量源的入射电磁波。此类方法的示例被描述在2016年12月14日提交的主题为“Electronic Ovenwith Reflective Energy Steering(具有反射能量转向的电子烤箱)”的美国专利申请号62/434,179和2016年6月13日提交的主题为“Electronic Oven with Reflective BeamSteering Array(具有反射光束转向阵列的电子烤箱)”，出于所有目的，两篇申请的全部内容通过引用并入本文。可变反射率元件的状态以及能量源的状态可以定义电子烤箱的不同的配置。这些配置中每个可以与腔室中能量的不同的模式可变分布相关联。因此，不同的配置将导致施加到腔室中物品的能量的不同分布。从不同配置中选择将因此导致物品的不同加热模式，并且可以允许烤箱不同地加热物品的不同部分或者根据需要更均匀地加热物品。

不同的配置由腔室内正产生的不同的相关联的能量的可变分布来定义。然而，该些配置不一定需要电子烤箱本身采取不同的物理配置。在一些方法中，可变反射率元件和能量源的状态可以在电子烤箱没有利用任何移动零件时改变。例如，可变反射率元件和能量源中每个可以单独包括固态器件，并且可以通过向这些固态器件提供不同的信号来设置烤箱的配置。然而，在其他方法中，该些配置将涉及电子烤箱的不同物理配置。例如，腔室内能量的可变分布可以通过独立改变如参照图2所描述的一组可变反射率元件中的可变反射率元件的物理位置而改变。

施加到腔室的(例如来自微波源113的)电磁波可以是极化的或部分极化的电磁波。因此，通过改变电磁波入射至其上的可变反射率元件的取向，可以改变腔室中的能量分布。具体地，可以改变反射元件的位置以调整反射元件相对于腔室中电磁波的主导极化的取向。例如，由每个可变反射率元件引入的相移可以以二进制方式从0°到90°交替地改变并返回，或者可以在0°到180°并且在频谱上的每个灰度之间具有平滑过渡的任何地方以模拟方式改变。作为更特定的示例，每个可变反射率元件相对于入射电磁波的主导极化的取向可以从0°到90°改变并返回，或者可以是从0°到180°并且在每个取向之间具有平滑过渡的任何地方。值得注意的，即使在二进制情况中，可变反射率元件可以仅是一大堆中的单个元件，以使得尽管每个单独元件仅具有两个状态，但是仍然可以向控制系统提供很大程度的灵活性。

图2图示说明来自侧视图(图2的俯视图像)和平面图(图2的仰视图像)两者的可变反射率元件200。元件200通过改变其物理位置从第一位置到第二位置来改变腔室中能量的可变分布。元件200包括反射元件201，在这种情况下反射元件201是可以由诸如铝、钢或铜等金属片形成的相对平坦的导电材料片。反射元件201通过延伸穿过腔室壁中的不连续部分204的介电轴203保持在由腔室壁202限定的腔室的表面上方。轴是电介质，穿过小穿孔，并且通常被配置为避免产生微波能量泄漏出腔室的天线。

腔室外部的马达能够经由介电轴203通过向轴施加力使反射元件201旋转，如箭头205所图示说明的。该力可以通过附接到轴203的转子被施加。图2图示说明的整个结构可以密封在腔室的伪壁后面，以保护结构免受污渍或机械损伤。马达能够在从一组固定的位置中选择一组位置之间旋转轴。例如，马达可以调整轴，以使得反射元件201通过90°弧度来回旋转。然而，马达也可以通过沿整个360°弧度的任意数量的固定步幅旋转反射元件。

如上所述的许多方法呈现了电子烤箱能够被置于多种配置中的特征，同时控制系统精确地记录电子烤箱处于哪种配置。与传统模式搅拌器和在其中控制系统不清楚电子烤箱的当前状态的类似设备的操作范式相比，所公开的方法允许控制系统独立地改变多个元件的状态并且特殊设置烤箱的状态。这允许控制系统有效地执行如下所述的许多控制方法，因为电子烤箱具有许多可用的状态，并且可以在这些具体状态下专门观察物品对具体能量的应用程序的响应。

评估性反馈-启发法优化控制

腔室中物品对给定动作的响应可以被感测、评估并存储为物品如何响应该动作的描述。可以重复这些步骤以形成物品如何响应各种动作的描述库。然后描述库可以被用来形成将物品从当前状态加热到目标状态的计划。控制系统可以使用优化分析自动形成计划，该优化分析从库中选择驱动物品从当前状态朝向受制于各种约束条件的目标状态的动作。控制系统还可以确定在目前已知的信息水平下，是否没有能够达到在给定的一组约束条件内的目标状态计划。在这一点上，优化系统可以指出需要获得物品如何响应附加动作的另一个描述。

前一段中概述的方法并不总是准确描述物品的状态如何通过施加各种动作而改变。这是因为系统通常不是时间不变的。在加热任务期间对物品执行的动作倾向于改变物品，有时显著地改变物品，并且倾向于在重复这种动作时改变物品将会经历的响应。在一个基本的示例中，一立方冰块对一阵热量如何响应的观察数据将不同于该物品在已经融化时对相同一阵热量如何响应的观察数据，因为物品的不同相导致物品呈现不同的热特异性。因此，使用库中的描述生成的计划在近期内将是更加准确的，因为该物品的特征还没有从感测和记录响应时改变明显程度。

鉴于本节所述的分析的时变性质，该分析可以被考虑用于形成物品将如何响应供热计划的启发法描述的方法。然而，与其他机器智能技术相比，可以利用相对较少的时间和资源执行该分析。因此，与电子烤箱的实际执行的动作相比，可以相对高频率的运行该分析，并且可以连续校正原始估计所期望的状态的变化。实际上，控制系统：(i)可以使用由分析生成的计划操作，这些计划在近期可能至少有些准确；(ii)可以通过分析的附加迭代持续生成更新的计划，这些更新的计划取代了之前的计划，因为这些先前的计划的准确度开始下降。这些附加迭代将确保每个计划的预期性能和实际性能不会偏离到不可接受的程度。控制系统也可以被更新以通过舍弃先前存储在库中的响应来反映物品如何响应给定动作的差异，以使得优化分析对有关物品的响应的更新信息进行操作。

应该控制分析的附加迭代进行的频率，以确保保持当前正在执行的计划的准确度的同时允许有待由控制器感测并记录的给定计划的效果。给定一个包括与配置之间的转变相关联的开销的系统，在该系统中，每个动作的执行时间大约为几秒，并且假设启发法的预测的准确度趋于在大约几十秒下降，则分析的附加迭代之间的周期应该大于3秒且小于15秒。

参考图3中的流程图300可以描述用于将电子烤箱的腔室中的物品朝向目标状态加热的一组计算机实施的方法。流程图300包括步骤301：当电子烤箱处于相应的一组配置时利用施加的一组能量加热物品。能量的施加和相应的一组配置相对于腔室中的物品限定了腔室中相应的一组能量的可变分布。能量的可变分布被认为是可变的，因为通过腔室的物理空间的能量水平是可变的，而不是因为分布暂时变化。给定的相对于物品的能量的可变分布对于系统必须维持足够的时间以检测直接归因于该可变分布的响应。该配置可以涉及改变能量从能量源被引导到物品的方式、物品相对于腔室的相对位置以及电子烤箱本身的物理配置。与图2一致，可以通过旋转一组可变反射率元件中的一个或多个可变反射率元件来区分不同的配置(即，可变反射率元件200可以旋转90°以从一个配置过渡到另一个配置)。

步骤302涉及感测传感器数据，该传感器数据定义物品对施加的该组能量的相应的一组响应。施加的一组能量是如由电子烤箱的不同配置和施加至腔室的能量所引起的，在腔室中相对于物品的不同的能量的可变分布。传感器可以是红外传感器，或者本文所述的任何传感器。响应是相应的，因为每个响应都定义了物品对电子烤箱特定相应的能量的施加和配置的响应。相应的响应、能量的施加和配置被组合以在如上所述的响应库中形成一组条目。这些配置可以是电子烤箱的不同物理配置。例如，第一响应可以是“温度增加2华氏度”并且对应于相应施加的“50％”能量和相应的“标称”物理配置，而第二响应可以是“温度增加5华氏度”并且对应于相应施加的“100％”能量和“托盘旋转30度”的相应物理配置。基于电子烤箱的复杂性，配置可以大大不同。例如，可能需要具有不同旋转值的大向量描述具有类似于图2中的反射元件200的大批元件的电子烤箱的配置。

必须控制每次能量施加的持续时间和电子烤箱处于给定配置的同量时间，以确保控制系统能够准确地将给定的一组传感器数据归因于腔室中相对于物品的能量的具体可变分布。如果配置变化太快，则无法确保所记录的传感器数据准确表示物品如何对该配置响应。具体地，在步骤302中获得的传感器数据应该对应于已知的能量施加和已知的配置，以使得在执行计划时在稍后时间重复腔室中相对于物品的能量的相关联的可变分布将产生已知的结果。然而，传感器数据可能会或可能不会与能量施加同时收集。事实上，在某些施加中，传感器数据将在施加能量后立即收集。无论如何，应该选择施加的持续时间以允许库将传感器数据与表示腔室中相对于物品的能量的可变分布的数据相关联地存储。

能量的每次施加的持续时间和相关联的配置部分取决于电子烤箱能在配置之间转换的多快。这个因素对于利用不同物理配置的实现是重要的。在某些方法中，通过确保在每次施加能量期间腔室保持完全静止来满足该需要。例如，如果腔室包括经过物理调整以改变腔室中相对于物品的能量的可变分布的一组可变反射率元件，则元件在施加能量期间保持静止。此处，腔室被定义为在其中电磁能量反射以限定电子烤箱的模式的材料区(例如，对电磁能量透明的伪壁不限定必须保持静止的腔室区域)。此外，在配置为物理配置并且能量持续被供应到腔室的情况中，每次对应的能量施加应当持续至少0.5秒，以允许电子烤箱从先前配置转变，并且呈现对该物品的独立可测量响应。该估算假定电子烤箱能够在0.1秒或更短的时间内在配置之间转换，并且如果在配置之间转换需要长于0.1秒，则每次能量施加的持续时间应该在锁定步骤中增加配置之间进行切换而花费的时间。不同能量施加可以是均匀量能量的连续施加的一部分，只要每次各个能量的施加独立地归因于电子烤箱的相应配置和对应的响应。

步骤301和302可以在意图实际执行计划之前发现信息的发现阶段期间进行。然而，步骤301和302也可以作为执行先前生成的计划的一部分进行。另外，步骤301和302可以涉及在部分执行计划之后进行的附加发现阶段。发现过程的好处是，可以更容易地分析物品对特定能量施加和配置的响应，因为它可以独立进行分析，而不与计划中的其他步骤顺序进行。例如，可以将电子烤箱置于给定的配置中，并在施加能量之前允许其固定。因此，在步骤302中感测到的响应将是该物品如何响应该具体的能量施加而没有由后续或近似的能量施加引起的二阶效应的准确描述。

在发现阶段期间进行感测的另一个好处是，它将获得电子烤箱先前可能需要的信息以提供某些功能。例如，如果在发现阶段期间进行步骤302的感测，则可以使用相同的传感器数据来识别物品并且可以可选地用于分割该物品。具体地，可以使用分类器确定物品的身份，该分类器对反映物品对给定热量施加的响应的数据进行操作。由于不同的物品对施加的热量有不同的响应，并且不同类别的物品有类似的响应，因此可以对该数据对分类器进行训练以识别物品。因此，可以使用识别物品的相同过程来收集数据以形成将物品加热到目标状态的计划。

分割步骤303包括将该物品分成一组区段。这些区段可以用于在步骤304中引导计划的生成并且测量在步骤302中获得的响应。为此，电子烤箱可以利用图像处理系统来增强，该图像处理系统允许控制系统跟踪区段的实际物理位置，而不管物品是否在腔室内移动。这种功能可以通过本文公开的感测可见光的任何手段来辅助。根据大量区段将增加执行步骤302和304所需的计算复杂性和资源消耗的事实，可以定制区段的数量，而少数区段可能不能提供用于确保物品根据需要均匀加热的足够的信息。区段中每个可以由中心点和面积来定义。中心点可以被称为该物品的兴趣点。

区段的数量、中心点的位置和区段的面积都可以是控制系统的设置属性，或者可以根据腔室内物品的特性进行调整。例如，可以识别具有高耐热性的物品，并且可以使用物品的身份设置兴趣点的数量多一些而区段的面积小一些。这种方法同样受益于这样的事实：可以使用相同的数据来分割物品以识别物品，因为就由电子烤箱必须进行以获得该信息的物理动作而言没有开销。

可以以多种方式将不同的区段绘制到物品上的兴趣点。这些区段可以由电子烤箱中的物理位置来设定，其中在电子烤箱中，根据整个腔室的均匀图案来识别区段的不同位置。例如，区段1可以是腔室底部的后左角的一平方英寸等等。然而，区段的位置也可以被引导为仅追踪添加到腔室的物品的部分。例如，腔室中的在发现阶段期间不响应能量施加的部分可以被忽略，而确实响应的区域可以被识别为腔室中物品的部分并且被选择为区段。

区段可以被设定为覆盖给定兴趣点周围的设定区域，或者他们可以封装具有不同大小的区域。例如，区段可以被配置为覆盖物品对热呈现类似响应的区域。在步骤302中收集的传感器数据可以指示该物品实际包括以三种不同的方式响应温度的三个不同的子物品。在这个示例中，电子烤箱可能发现该物品有对应于一顿蛋白质、蔬菜和淀粉的三个子物品。这些子物品然后可以用作分割的基础，其中每个子物品被视为一个区段或区段的集合。

步骤303在从步骤302的反馈回路中利用虚线绘制出，因为该分割步骤不一定必须使用在执行计划期间进行的传感器数据的评估来进行。相反，分割步骤可以在步骤301之前使用分类器和可见光数据、用户输入或用于从外部源到别处所述的电子烤箱的信息的任何其他通道进行。例如，用户可以直接向电子烤箱的控制系统提供输入以手动分割物品。

在步骤304中，生成加热腔室中物品的计划。该生成由电子烤箱的控制系统进行并利用在步骤302中获得的传感器数据。来自库的如从传感器数据获得的响应被分析并整合在一起以创建从当前状态变化到目标状态的计划，从这个角度来讲，可以使用传感器数据。将从当前状态引导到目标状态的所拼凑在一起的响应最终形成计划，因为该些响应连同产生这些响应的能量施加和电子烤箱的配置一起存储在库中。因此，该计划将是将烤箱置于这些配置中并施加这些能量施加的命令序列。可以使用优化分析从库中选择响应。可以选择每个响应的多个副本来制定单个计划。

从库中选择的响应可以使用优化分析排序，或者可以使用单独的过程排序。这样，步骤304中计划的生成可以涉及两个步骤：进行优化分析以生成优化输出305，以及使用优化输出编译命令序列306。优化输出可以包括误差值和向量。误差值可以是以摄氏度为单位的标量温度值，其指示预期的结束状态与目标状态之间的预期温度偏差。该向量可以描述响应以及腔室中相对于物品的能量的相关联的可变分布，其将用于生成加热物品的计划。在步骤306中编译的命令序列可以定义用于将相对于物品的能量的不同可变分布施加到腔室的顺序。为此，这些命令可以控制对物品的能量施加并改变电子烤箱的配置。该电子烤箱然后可以执行将物品朝向目标状态加热的命令序列。

可以利用步骤305中生成的误差值的评估来确定是否需要获得库的附加条目，或者系统是否应该继续执行计划。例如，如果误差值超过可接受的误差值，则该过程可以返回到步骤301以获得更多的响应数据并执行步骤304的附加迭代。另外，该过程可以在检测到误差值超过可接受的误差值之后跳过步骤306。即使误差值没有超过可接受的误差值，图3中图示说明的过程也足够通用以包括返回到步骤301的回路，因为当电子烤箱正在执行与可接受的误差相关联的计划(即，预期在可接受的容差内执行的计划)时可以进行步骤301和/或302的附加迭代。

步骤305可以涉及使用求解器、表示目标状态的数据以及表示在步骤302中获得的一组响应的数据。表示目标状态的数据可以从用户获得、由控制系统自动生成、或经由外部通道接收。表示该组响应的数据可以从库中获取，如与表示腔室中相对于导致这些响应的物品的能量的可变分布的数据组合存储。表示该组响应的数据和表示目标状态的数据可以是一组温度值或一组温度导数。数据可以包括表示物品的多个区段的多个数据点。数据可以对应于物品的表面温度。求解器可以是凸优化求解器。凸优化求解器可以求解将使物品从当前状态到目标状态的一组响应。求解器可能受制于许多约束条件，例如最小化整体加热时间、最小化整个物品或整个物品的区段组的温度变化、或最小化物品上任一区段的最高温度。求解器可以求解向量，并生成受制于优化分析的约束条件的最小误差值。

步骤305的特定类别的实施可以参照图4和图5描述。在这些方法中，利用优化分析产生持续时间向量，并且还可以产生误差值。持续时间向量可以包括一组元素，这些元素表示将使物品从当前状态带到目标状态的热量施加以及电子烤箱的配置的相应设置的持续时间。误差值量化目标状态和所外推的结束状态之间的差异。所外推的结束状态可以使用如下所述的持续时间向量和一组响应向量来计算。优化分析可以利用诸如凸优化求解器等的求解器来选择持续时间向量，以最小化误差值。持续时间向量可以包括关于应该如何应用各种能量施加和电子烤箱的配置的顺序的信息。然而，也可以使用持续时间向量在单独的步骤中选择该顺序。

图4包括多个网格，每个网格具有八个单元。这些单元是已置于电子烤箱中的物品的区段的图示说明。出于解释的目的，提供区段的规则性质，并且在实际应用中区段可以具有不同的尺寸并且可以具有不规则的形状。与二维表面相比，区段也可以是三维体积。图5是图示说明各种优化分析的数据流程图，该些优化分析可以结合图4中物品的状态和响应进行。

网格400提供该物品的目标状态的图示说明。如所图示说明的，此特定加热任务的目标是加热所有八个网格，但将左侧四个网格平面加热至比右侧四个网格平面更高的温度。网格401、402和403提供了该物品对相应的热量施加和电子烤箱的配置的响应：响应1、响应2和响应3的图示说明。网格404和405是在执行使用前述的热量施加和电子烤箱的配置生成的不同计划之后预期将达到的物品的所外推的结束状态的图示说明。外推状态404是预期由计划1的执行产生的外推状态。计划1包括导致响应1的条件的应用和随后导致响应2的条件的应用。网格406是外推状态404和目标状态400之间的误差的图示说明。图4的每个状态中的区段被阴影化以表示区段的平均表面温度或区段的表面温度的平均变化，其中深阴影表示高温/大温度变化，而浅阴影表示低温度/轻微的温度变化。

通常，表示目标状态、响应向量、外推状态和给定计划的误差的数据可以是组织成向量的数值，其中向量的每个元素对应于物品的区段。物品的目标状态可以包括具有表示物品的每个区段的目标条件的数值的目标向量。例如，表示目标状态400的数据可以包括具有表示每个区段的平均表面温度的八个数值的目标状态向量。表示物品对相应的热量施加和电子烤箱的配置的响应的数据可以采用类似的格式。物品对热量施加的响应可以是具有数值的响应向量，该数值表示在电子烤箱处于给定配置时响应于给定热量施加每个区段的平均表面温度的变化。通常，响应向量的值可以包括指示物品对所选择的能量施加的响应的任一温度导数。例如，表示响应401、402和403的数据可以包括三个响应向量，每个响应向量对应于电子烤箱的相应配置和能量施加，并且每个响应向量具有用于该区段的温度导数的八个数值(例如，10℃/单位时间)。单位时间可以被设定为腔室中相对于物品的具体的能量的可变分布被保持的时间段。同样，外推状态和误差可以包括表示用于物品的每个区段的所外推的温度和温度差的数值。然而，该误差也可以是从这些数值导出的均方根(RMS)值。

响应向量和目标状态向量可由求解器用作优化分析的一部分，以形成将物品从当前状态加热到目标状态的计划。优化分析可以选择从当前状态引导到目标状态的响应，并且可能多次重复这些响应。如图4所图示说明的，并且假设所有白色单元的初始状态(标称低温)，外推状态404将是根据条件的应用预期的外推状态，该条件的应用导致响应401，然后该条件的应用导致响应402。这由状态404是响应401和402中的阴影的组合的事实来表示。

优化分析求解器可以选择最小化由网格406表示的误差向量的响应。最小化误差可以涉及最小化在逐区段的基础上的目标状态与外推状态之间的差异。然而，误差项可以是更复杂的，因为温度过冲相对于温度下冲可以被惩罚。此外，对该物品的一部分的误差可能比其他部分的误差更严重地被惩罚。具体地，如果物品的身份已被确定，则误差项会严重惩罚对容易燃烧、冒烟或脱水的食物过热。在所图示说明的对应于计划1的外推状态404的情况下，与计划1相关联的误差向量406包括被加热到比期望的温度更高的温度的两个单元407和408的值。这种误差水平可以被认为是可接受的，在这种情况下，计划1将由控制系统接受并执行，或者它可以被认为是不可接受的并导致执行产生更准确的计划的附加过程。

数据流程图500可以用于根据图3的步骤305的执行描述将导致生成图4的计划1的具体优化分析。数据流程图500包括对应于来自图4的响应401和402的两个响应向量501和502。响应向量描述物品如何响应热量的施加。如所图示说明的，响应向量包括八个温度导数值，每个温度导数值对应于一个区段、相应的能量施加和相应的电子烤箱配置(即，dT_xy/dt，其中x是区段号，并且y是相应的条件)。同样，在电子烤箱处于相应的配置时通过传递的相应的能量施加来定义相应的条件。响应向量可以被组合以产生响应矩阵A。响应矩阵、目标状态向量b_target和当前状态向量b_current可以由求解器505用在方程504中以选择持续时间向量

持续时间向量

包括与用于由凸优化求解器生成的计划中的每个条件的持续时间相对应的一组数值。例如，持续时间向量可以是诸如持续时间向量506等的向量，并且包括表示每个条件应该被保持的时间的数字。数字可以是整数，以指示给定的条件应该被保持规范化时间段的某个倍数，诸如3至5秒。持续时间向量可以是电子烤箱处于来自响应矩阵中可用数据的一组配置的每个配置中的一组持续时间(即，time_y,，其中y是该持续时间应用的相应的配置)。求解器可以选择持续时间向量以最小化方程504中的误差。在图4和图5的基本示例中，求解器505将产生

的值，以指示该计划应该包括导致响应401的条件的单个应用和导致响应402的条件的单个应用。

在一些应用中，求解器(诸如求解器505)将是凸优化求解器。除了最小化目标状态与外推状态之间的误差外，求解器可以受制于约束条件。例如，求解器可以受限于执行给定加热任务所允许的最大时间；整个物品或区段组的最大温度变化；在物品、区段组或一个区段上的特定点的最高温度；和其他约束条件。求解器可以是非负最小二乘(NNLS)求解器。NNLS求解器提供某些优点在于，解只有正值，并且不可能针对负值量的时间应用条件。换句话说，并且参考数据流程图500的特定示例，持续时间向量x的数值将全部为正。结果，根据持续时间向量x生成执行计划的命令序列将是直截了当的，并且仅需要在由持续时间向量中的相应元素设定的时间段内应用对应于每个响应向量的条件。然而，也可以使用其他求解器。例如，可以使用标准最小二乘求解器，并且在这种电子烤箱上提供的功能可以允许物品的某些区域冷却并基本上逆转给定能量施加的影响。此外，还可以使用其他求解器，诸如混合整数线性规划、KKT最优条件求解器、Fritz-John条件求解器以及最优准则(诸如分支和边界)的组合搜索器。

由参照图4和图5描述的某些实施例呈现的一个益处在于，优化分析不仅以持续时间向量的形式获得关于计划的信息，而且以误差值的形式获得关于是否需要附加发现步骤来产生满足一定准确度的计划的信息。电子烤箱的控制系统可以被配置为确定来自优化分析的误差值超过可接受的值，并且可以触发获取用于计划过程的附加信息。可以通过循环返回到图3中的步骤301并且在电子烤箱处于附加配置时利用能量施加来加热物品来获得该附加信息，其中在确定误差值超过可接受的误差值后选择附加配置。附加配置可以是物理配置。

附加配置，并且实际上通常是多个配置，可以仅受限于约束条件随机选择，约束条件与已经完成测量的响应的物理配置不同。然而，也可以使用某种形式的智能来选择配置，诸如通过将配置设定到配置空间上尽可能远离已经分析的配置的位置，或者通过评估物品的响应来确定哪个配置将可能产生最新颖的信息。

为了继续描述优化分析如何还可以确定是否需要更多信息，在电子烤箱处于附加配置时使用获得定义相应响应的传感器数据的传感器来感测物品对能量施加的响应。新的响应信息然后可以基于附加信息用于生成更新计划。如果新的分析产生了处于目标状态的可接受范围内的外推状态，则可以使用持续时间向量执行该计划，并且控制系统将知道已经进行了足够的发现。附加信息可能将不会改善误差性能，以使得将需要进行甚至进一步的发现。而且，发现步骤可以与执行从先前计划导出的步骤间歇地进行，或者可以完全独立地进行，直到已经收集到用于将执行的准确计划的足够数据。

可以再次参照图4和图5来描述进行附加发现的方式。返回参考图4，与网格406相关联的误差可以大于可接受的值。控制系统然后可以确定这个事实并且通过在附加配置下再次加热物品并感测定义第三响应403的传感器数据来获得第三响应403。控制系统然后可以进行第二优化分析以产生导致外推状态405的第二计划。第二优化分析可以与第一优化分析相同，除了分析使用与响应401和402相关联的数据之外还将使用与响应403相关联的数据。如所图示说明的，附加信息导致更优秀的计划。如外推状态405所表示的，计划2将执行产生第二响应402的条件以及产生第三响应403的条件。如所图示说明的，外推状态405匹配目标状态400，以使得优化分析将生成零误差值。在那时，控制系统将知道已经获得了足够的信息，并将继续实际执行第二计划。这些方法的好处在于，计划是在计划性能被量化的同时获得的，这允许控制系统立即执行计划，或者快速确定需要更多信息。

再次参考图5，可以描述前一段中描述的方法的具体实施方式。包括物品的每个区段的温度值(T₁...T₈)的误差向量507可以通过将响应矩阵A与从求解器505获得的持续时间向量

相乘加上当前状态向量的值并减去目标状态向量来计算。误差向量507因此表示目标状态与外推状态之间的差异。结果值可以与由控制系统设定的可接受的错误值Error₀进行比较。可接受的误差值可以基于电子烤箱的预期性能来控制。在优化分析的第一次迭代中，响应矩阵A仅包含对应于来自图4的响应401和402的响应向量501和502。结果，比较器508将确定优化输出产生的误差在与可接受的误差值相比时太高。

数据流程图500图示说明如何可以获得在优化分析的第二次迭代中添加至响应矩阵A的附加响应向量503。尽管附加响应向量可能对误差向量没有影响，但为求解器提供的附加灵活性将通常降低由误差向量表示的误差值。如果此更新的误差值足够低，则计划可以在不获取附加响应数据的情况下执行。然而，如果更新的误差仍然太高，则可以执行所图示说明循环的附加迭代以获得更多响应数据并运行附加优化分析。理想地，响应向量503将对应于诸如响应403的响应。响应403是理想的，因为应用与响应402和403相关联的条件的计划将导致与目标向量完全匹配的外推状态。

误差值和持续时间向量也可以用于确定期望的目标状态是否对具有指定的可接受误差水平的电子烤箱提出难以解决的问题。关于这一决定的情报可以嵌入到触发另一轮发现的控制循环中(例如，图5中的从比较器508返回的循环)。难以解决的问题与需要更多数据的问题之间的差异至少可以部分通过将计划的外推状态下的各区段的温度与目标状态下的区段的温度比较来确定。如果某些区段的温度超过目标状态，但误差值尚未降至可接受的误差值以下，则控制系统指示该问题可能难以解决。一旦已经超过这个阈值，对于三至五次附加轮发现的限制是可以容忍的。在那时，优化分析可以指示误差已经发生并停止发现。替代地，控制系统可以被配置为放宽求解器的容差，以允许来自目标状态的更大的温度变化。

由如上所述的优化分析生成的持续时间向量可以包括关于每个配置应该被应用的绝对持续时间的信息，但是可能不指定配置应该被应用的顺序。这样，计划的生成可以包括进行步骤306的附加处理，其中命令在步骤306中被编译成由电子烤箱执行实际计划的特定序列。命令序列可以在一组配置之间转换电子烤箱、应用能量施加、以及确保电子烤箱处于每种物理配置达一段持续时间，该持续时间正比于持续时间向量中的相应元素。然而，可以以各种方式编译命令序列以达到不同的结果。参考图6可以描述不同排序并且通过加热任务的进程对腔室中的物品产生效果的示例。

图6包括两组轴600和601。这两组轴具有以时间秒为单位的x轴和以温度摄氏度为单位的y轴。每个轴还包括两条接近两个目标温度的曲线。两个目标温度602和603是针对物品的目标状态中的不同区段的目标温度。在两组轴上，这两段接近其目标温度并且然后趋平。

轴600和601上的曲线图示说明了根据相同的持续时间向量生成但编译成不同序列的两个独立计划的执行。在轴600上，第一段和第二段被连续地一直加热到其目标温度。在轴601上，计划在编译步骤期间被排序以最小化物品表面上的最大温度变化。可以将不同的约束条件应用于序列的编译，并且约束条件可以基于腔室中物品或子物品的身份而变化。然而，最小化最大温度变化在大多数情况下是有利的方法，因为如上公开的一些优化分析没有考虑到区段温度的衰减以及可能不准确地捕获加热一个区段对另一个区段的影响。这两个缺点可能导致物品的区域比预期更冷或更热。尽管外推状态经由在逐段的基础上包含基本衰减函数来跟踪温度下降，可以最小化这些缺点中一个，但是通过确保物品经由在整个加热过程中促进通过物品的热量的均匀分布的命令序列而被加热来最小化这两个缺点。

如前所述，优化分析可以在物品朝向目标状态正加热时周期性重复。重复的周期可以设定为固定时间，或可以依赖于检测到的事件。例如，如果偏差检测器确定物品的状态已经背离外推状态太远，则可以再次进行优化分析。作为另一个示例，重复的周期可以基于所观察到的外推状态的准确度的下降来设定，并且可以在电子烤箱的使用寿命期间通过追踪到外推状态的准确度下降的机器学习系统进行调整。

应该控制进行分析的附加迭代的频率，以确保维持当前正在执行的计划的准确性，同时允许给定计划的效果将由控制系统感测并登记。假设每个动作的执行时间大约几秒钟，而启发法预测的准确度趋向于在大约几十秒下降，那么分析的附加迭代之间的时间应该大于3秒且小于15秒。基于物品的身份，可以在很大程度上延长或缩短该周期。例如，倾向于呈现不可预测且广泛时变的响应的物品可能受制于近乎连续的再计划。在光谱的另一端，可以以用于优化分析的较低的重复频率加热类似一杯茶的同类物品。

响应数据可以在整个加热过程中更新。这样，在加热任务期间进行的优化分析的附加执行可以利用在执行先前生成的计划期间获得的响应数据。换句话说，当烤箱置于该状态时，可以收集定义物品对给定条件的响应的传感器数据作为执行先前生成的计划的一部分。替代地，优化分析的附加迭代可以与加热任务的中断相关联以便运行附加发现。无论怎样获得附加的响应数据，然后都可以使用该数据来检查之前收集的响应向量是否不再准确。如果新获得的附加传感器数据指示响应向量与针对相同条件的先前存储的响应向量不匹配，则响应向量可以在库中更新并且在稍后的优化分析迭代期间使用。

通常，如果电子烤箱能够呈现更多具有不同特性的大量配置，则优化分析将能够以更严格的容差执行，并且对大量这些配置的响应进行分析。换句话说，发现迭代的次数和电子烤箱可以呈现的配置的实际数量都与优化分析的适当容差成反比。例如，在利用一组反射元件的方法中，当该组反射元件包括至少三个反射元件并且控制系统可以产生独立地改变该组中的所有三个反射元件的命令时，益处累积。另外，如果物品被分割的区段数量增加，并且其他还保持相等，则通常需要增加配置数量以达到所需的容差水平。作为基准，如果该组区段包括至少10个元素，则该组物理配置通常应该包括至少10个不同的物理配置。

具体参照其中配置是像由图2图示说明的反射元件设定的物理配置的电子烤箱，其中反射元件放置在腔室的天花板上，置于腔室中的大致同类物品在一组至少5个不同配置和5个区段的情况下可以被均匀地加热到5摄氏度的目标可接受误差水平内。如果感兴趣的区域增加到12个区域，一组至少10个配置将在类似的约束条件下达到可接受的结果。非均匀加热和非同类物品对所需配置的数量有明显的影响。例如，在参照以下图7描述的涉及要求高度非均匀的热量的分布的加热任务的示例中，至少25个配置在12个区段上提供了在2摄氏度RMS误差内命中目标的可能性。

图7包括一组轴700，其中x轴是控制系统可用的配置的数量而y轴是在所有区段上以摄氏度为单位的RMS误差。绘制的曲线是从具有12个感兴趣区域的模拟实验中获得，其中一个感兴趣区域具有比所有其他区域高20度的要求。在这种情况下的物品是储存在微波透明容器中的液体池阵列。每个液体池都被视为优化分析的一个区段。在这个样品中，所需的配置的数量大约为25个配置。然而，这是一个苛刻的要求，因为要求腔室内的物品的一部分比其余部分温度高20度在一定程度上是不常见的。在基本情况下，配置的数量可以是一个。在偶然初始发现状态和同类物品的情况下，优化分析可以确定可以在单轮发现之后获得的目标状态并且可以在加热任务的持续时间内将电子烤箱保持在单个配置中。然而，如果物品是不均匀的，则初始条件变化很大，或者就热量如何分布而言配置是高度不均匀的，则所需配置的数量可以大幅度增加。

使用本部分中的技术形成的计划可以与其他部分中描述的更复杂的方法结合使用。该部分中描述的优化分析可用作如下描述的用于确定性计划器控制系统的启发法或外推式引擎。例如，图3中的方法可以扩展为包括生成加热物品的第二计划，其中第二计划由更加计算密集和准确的计划过程形成。第二计划可以使用如下所述的确定性计划器生成，并且确定性计划器可以使用在步骤304中生成的计划作为用于在生成第二计划时估计未来计划成本的启发法。本部分中描述的优化分析也可以是用于如下所述的强化学习方法的策略。例如，控制系统可以使用强化学习系统将腔室中的物品自动加热到目标状态，其中在步骤304中生成的计划被用作用于强化学习系统的策略。该策略可用于做出在强化学习系统根据给定节点采取哪种动作的粗略确定，同时系统试图采取贪婪的步骤而不是探索特征空间。

评估性反馈-强化学习控制

参照图8中的流程图800可以描述一组示例性计算机实施的方法，该方法利用评估性反馈和强化学习训练系统两者加热腔室中的物品。在步骤801中，能量以可变分布被施加到物品。可变分布可以由施加到腔室的微波能量源的驻波图案引起。可变分布也可以由对物品的有针对性的能量的应用引起。示例可变分布802被图示说明为施加至物品803。可变分布802包括具有相对于物品803的相对位置805的局部最大值804。在这个示例中，在步骤801中相对位置具有零值。

在步骤810中，使用红外传感器感测物品的表面温度分布。红外传感器可以是捕获来自物品803的红外辐射的红外照相机811。表面温度分布812可以在相对位置值保持在零时被感测。表面温度分布可以至少部分地定义状态S₁。步骤810还可以涉及感测与向物品输送能量相关联的RF参数。在这种情况中，步骤810的某些方面可以与步骤801同时进行。状态S₁可以通过关于该物品的一系列信息和该系统的某些受控方面的瞬时条件来更全面地定义。状态S₁可以是强化学习训练系统的动作-值函数的输入的数据单元。来自表面温度分布的数据部分地定义了该状态在于，数据可以单独使用或与将状态S₁与至少一个其他状态区分的其他信息组合使用。

在步骤820中，控制系统将使用第一状态作为输入来评估动作值函数F(s，a)，以确定一组潜在第二状态(S₂'，S₂”)中的第二状态S₂”，其提供最大潜在奖励值。该步骤820可以涉及提供第一状态和可以采取第一状态作为输入至动作值函数并选择使动作值函数的幅值最大化的动作的一组潜在的动作。例如，至动作值函数的输入可以是当前状态S₁和相对于施加到物品的能量的可变分布改变正被加热物品的相对位置达10厘米的动作。在图8中由动作a₂和如标号821指示的相对位置805从零值到10cm的实际改变来图示说明该移动。

在步骤830和840中，控制系统将对使用发现S2₂”是要移动到的最佳状态的步骤820中的动作值函数做出的确定起作用。这可以通过动作a₂来实现，其中动作a₂可以涉及移动物品、在保持物品静止时可变分布相对于腔室的局部最大值的位置，或者移动物品和局部最大值两者的组合。按照上述示例，在步骤830中，控制系统将相对位置805从零改变到10厘米。在步骤840中，能量将经由可变分布施加到物品。步骤840和801可以是对物品的能量的连续施加的分量部分，但出于理解这些方法的操作的目的，仍然可以将步骤840和801概念化为单独的步骤。物品803和可变分布802的相对移动被图示说明为沿着物品803的表面，但是它可以涉及物品803的体积内的移动。

在步骤850中，使用诸如来自步骤810的红外传感器811的红外传感器来感测物品的第二表面温度分布。红外传感器可以以比控制系统所需的更快的速率获得物品的表面温度分布，并将分布存储在缓冲器或盘中，直到控制系统需要特定样本。在可替代的方案中，红外传感器可以根据控制系统的需要获得周期性分布。步骤850还可以涉及感测与物品803的状态相关联的其他参数，诸如像回波损耗和阻抗匹配的RF参数。

如关于步骤850所图示说明的，局部最大值的移动将导致热量在整个物品上更均匀的分布851。然而，不将总是这种情况。该移动可能不会导致更均匀的热量分布，或者可能不会像步骤820中评估动作值函数所期望的同等程度地降低热量分布的变化。无论如何，在步骤860中，将使用第二表面温度分布导出奖励值。如前所提到的，奖励值可以与物品的表面温度分布的变化成正比。步骤860中的奖励值的推导可以涉及结合表面温度分布使用多个其他因素。推导可以替代地包括评估与物品803的加热相关联的RF参数，例如回波损耗和阻抗匹配。

在步骤870中，基于在步骤860中导出的奖励值来更新动作值函数。在任何训练已经进行之前，动作值函数可以随机地或者就函数的适当值利用工程猜测进行初始化。如此，在步骤820中进行的针对来自S₁的特定动作确定最大潜在奖励值的评估是利用不完整信息进行的。然而，步骤850中进行的测量和步骤860中的奖励值的导出可以用于更新动作值函数，以使得如果未来遇到相同的状态S₁，则控制系统将具有关于应该采取什么动作的更好的信息。

控制系统可以被配置为随机地将步骤820中所采取的评估替换为探索性选择，该探索性选择从动作值函数将指示什么动作为优化动作的动作中选择不同的动作。以这种方式，控制系统能够探索到潜在状态的空间并确定一组不同的动作是否将导致更好的结果。在采取探索步骤的状况中可以跳过步骤860和870。控制系统可以在探索性选择和由动作值函数功能的最大化引导的选择(即贪婪选择)之间随机变化。进行探索性选择的可能性可以在整个训练情节的过程中和设备操作的整个使用寿命改变。

利用从评估性反馈搜集到的信息来训练使用强化学习训练系统的控制系统在当该信息应用至用于加热置于腔室内的任意物品的控制系统时提供一定益处。具体地，不需要像监督学习方法那样提供预定的训练数据。只要奖励系统被配置为适当地指导训练系统，就可以评估某些动作的行为的优点，不管它们是否已经由人类设计师事先考虑过。由于在加热腔室内物品时，具体加热微波炉中食物，可以通过在大量食物上推广的一组原理来指导，所以可以容易地形成这样的奖励系统，用于广泛适用于控制系统可以放置在其中而不需要深入考虑可以由未来用户置于腔室内物品的所有五花八门的特征的潜在训练场景。另一个好处是归因于这个事实：强化学习有益地适用于奖励信号是嘈杂且延迟的场景。在电子烤箱的情况下，由电子烤箱采取的具体动作的优点可能会从采取动作时延迟许多时间步骤。这也是热量通过正在被加热的物品扩散所需时间的人为因素。然而，由于强化学习是一种基于时间的系统，在未来奖励提供的许多时间步骤可以反馈回过去影响决策的若干时间步骤以解决此问题。

本文公开的一些方法包括使用神经网络来近似动作值函数的训练系统。动作值函数将有利地包括系统可以合理地发现本身的每个潜在状态的一组值。如果参考图8描述的控制系统的状态由是具有对应于二维平面上的坐标的温度值的简单矩阵的状态来指导，则潜在状态的数量将是相当多的，因为它们将涉及在二维平面中的每个位置处的每个潜在温度。考虑到状态可以包括关于该系统的条件的多得多的信息，容易看出大量状态怎么变得难处理。函数逼近器可以用来减少函数所需的状态数量。简而言之，从传感器和控制系统导出的许多状态将被映射到具有类似特征的单一状态。函数逼近器可以是神经网络或任何反向传播回归模型。

可以参照具有由物品的表面温度分布设定的状态的控制系统来描述用于由控制系统使用的状态的函数逼近器的使用。图9图示说明了三个表面温度分布900、901和902以及控制系统903。控制系统903包括神经网络904和对一组存储的动作905的访问。这组存储的动作包括控制系统可以从任一给定状态中采取的所有潜在动作。神经网络904用作动作值函数F(s，a)的函数逼近器。表面温度分布900可以对应于由系统正在加热的物品的所检测到的当前状态。表面温度分布901和902可以对应于所存储的状态，这些状态是由动作值函数使用的输入至该函数的有效输入。如果分布901和902施加至控制系统903而不必存储用于状态900的一组具体值时，神经网络904或任何基于反向传播回归模型的系统可以经由表面温度分布900和来自该组存储的动作905的潜在动作接受表示检测到的状态的数据，并且提供类似的潜在奖励值给由控制系统903将提供的。因此，函数逼近器大大减少了强化学习训练系统需要被训练的特定状态的数量。控制系统903可以利用神经网络904来执行类似于步骤820的步骤，并以比其中必须独立存储每个状态的值中的一个值的资源更少资源密集的方式输出选择的动作906。

用于辅助作为整个训练系统的函数逼近器的逻辑可能需要自身训练。例如，如果训练系统是神经网络，则将需要训练网络的特定权重，以使神得经网络变成动作值函数的合理近似。神经网络的训练系统可以是反向传播回归训练模型。用于训练网络的数据可以是用于更新动作值函数本身的相同数据，如上在步骤870中所述的。

本文公开的一些方法包括利用过去经验的随机样本作为训练数据的神经网络训练系统。伴随使用经由神经网络近似的动作值函数的强化学习训练系统的特定示例，训练系统可以在实际观察正在发生时存储一组经验数据点。例如，经验数据点可以包括表示在步骤860中导出的奖励值的数据、在步骤820中使用的第一状态、在步骤850中确定的第二状态以及用于在步骤830中从第一状态转移到第二状态的动作。这些经验数据点然后可以被随机采样以提供用于神经网络的一组训练数据。训练数据根据其中损失函数根据随机梯度异议评估被迭代最小化的方法可用于训练神经网络。这种方法是有益的在于，神经网络的训练可以从同一组物理测量中收获多组训练数据以增加提供函数逼近器的速度。

评估性反馈-确定性计划器控制

电子烤箱的控制系统还可以包括确定性计划器以生成加热放置在电子烤箱的腔室中的物品的计划。该计划可以基于物品的特性和由用户提供的关于物品应该怎样被加热的指令来生成。确定性计划器可以根据由用户提供的指令选择加热特定物品的动作序列。序列中的动作中每个可以从电子烤箱的一组动作中选择并且控制系统能够执行。这一组动作将取决于电子烤箱的特性。例如，具有旋转托盘的电子烤箱可以包括其一组动作中的“顺时针旋转托盘5度”和“逆时针旋转托盘5度”，而具有可以二维横向平移的托盘的电子烤箱可以包括“向左移动托盘5厘米”、“向右移动托盘5厘米”、“向后移动托盘5厘米”和“向前移动托盘5厘米”作为潜在动作。通常，动作可以包括改变腔室中能量分布相对于腔室中物品的相对位置和改变施加到腔室的能量的强度。在生成计划之后，控制系统可以通过执行动作序列中的每个动作来执行计划，从而加热腔室中物品。

在图10中图示说明了在电子烤箱利用确定性计划器时用于加热腔室中物品的一组方法的流程图1000。流程图1000从能量源向物品施加能量的步骤1001开始。步骤1001通常可以根据与图8中的步骤801相同的原理来执行。能量1002的施加不会均匀地加热物品1003，而在物品上产生不均匀的表面温度分布。该表面温度分布可以在可选步骤1010中被感测，该步骤1010通常可以根据与图8中的步骤810相同的原理来执行。表面温度分布1012可以由红外传感器1011感测。从该表面温度分布收集的信息然后可以以如下所述的各种方式由控制系统使用。

流程图1000继续步骤1020，在步骤1020中函数被评估以生成第一函数输出。第一潜在动作用于评估该函数。该函数可以是成本函数F(n)，并且函数输出可以是相对于节点n计算的计划成本。节点“n”可以是在遍历所有可执行的潜在计划的图时访问的节点。该图可以是超维图，其中从一个节点到另一个节点的移动由在生成计划来遍历图时可以选择的所有潜在动作来设定。例如，在具有4个潜在动作(升温1度、降温1度、左转托盘、和右转托盘)的电子烤箱中，每个节点将与正向的四个直接邻点以及反向的单个直接邻点相关联。每个节点可以由初始化状态和根据初始化状态执行的动作序列完全定义。计划成本可以是执行达到节点“n”的计划的成本。然而，计划成本也可以是估计的总计划成本(即，从开始到结束执行包括节点“n”的计划的预期总成本)。对于只关心完成任务所需时间的计划过程，计划成本可以与达到结束状态所必需的步骤的数量基本一样，或者成本可能会更复杂，如下所述。

步骤1020通过对函数进行两次评估(一次针对节点n₂'，且一次针对节点n₂)来图示说明。如所图示说明的，首先用第一潜在动作a₁来评估函数，以生成用于节点n₂的成本，并且然后用第二潜在动作a₂来评估该函数以生成用于节点n₂'的成本。动作a₁和a₂中每个可以是互斥计划的成员。在所图示说明的情况下，节点n₂与较低的计划成本相关联。因此，至少根据该评估，用于最小化整个计划执行的成本的最佳选择将是执行下一步动作a₁而非a₂。

该动作可用于以各种方式评估该函数。例如，可以使用具有动作a₁的知识、物品如何响应某些动作的知识、和关于与状态n₁相关联的物品的状态的信息的外推引擎来外推物品的状态。如下讨论外推引擎的不同方法。然而，出于初始解释的目的的外推引擎的基本示例是物理模拟器。物理模拟器可以模拟物品对由电子烤箱可以采取的特定动作的响应。物理模拟器可以是一个热力学建模工具，它采取电子烤箱的尺寸、能量源的特性以及物品的尺寸和特性模拟对给定动作的响应，并且从而外推物品响应于该动作的状态。

评估各种节点的成本函数允许确定性计划器生成以期望的方式加热物品的计划。这样，流程图1000继续步骤1030，在步骤1030中生成加热物品的计划。该计划可以使用在步骤1020中评估的函数的输出来生成。与如上提供的基本示例一致，F(n₂)的输出被用于生成计划，因为选择动作a₁而非动作a₂用于构成计划的动作序列。在这个例子中，成本函数的两个输出被用来选择计划。对于更复杂的场景，可以使用大量的函数评估来生成计划。成本函数也可以以迭代或递归方式进行评估，以使得为任何给定节点计算的计划成本可用于为计划选择动作或选择应该通过附加函数评估进一步调查的节点。

在步骤1040中，通过逐步执行构成该计划的动作序列中的动作来执行该计划。在所图示说明的情况下，动作a₁已经被选择并且导致腔室1002中的能量分布的相对位置调整了距离1041，以使得物品1003上的表面温度分布更均匀。该计划可以包括任何数量的动作，并且可以在物品1003看上去好像被加热期望的量时终止。可替代地，该计划可以以某些周期性间隔终止，以允许在整个加热过程中进行过程修正。具体地，由于外推引擎的性能不完善，导致物品在被加热时的实际温度将倾向于随时间背离外推状态。因此，确定性计划器可以被设计为生成具有有限持续时间的、在附加计划之后的计划，附加计划在先前计划正被执行时形成。可以从计划中选择且在计划执行期间利用的动作将在如下单独部分详细描述。

成本函数可以包括遍历计划成本和未来计划成本。换句话说，成本函数可以包括表示到达特定节点所发生的成本和从该节点继续到期望的结束状态所发生的成本的分量。遍历计划成本可以使用本说明书中其他地方描述的外推引擎计算。未来计划成本可以使用本说明书中其他地方描述的启发法计算。外推引擎可以基于递归函数评估和对应于评估下的节点的物品的状态的相对准确估计来提供用于到达给定节点的相对准确的成本值。

与由启发法导出的未来计划成本的准确度相比，所遍历的计划成本的值被称为“相对”准确。启发法可以提供从给定节点继续到期望的结束状态的成本的估计。启发法通常将不像外推引擎那样计算密集，并且它将不需要知道将允许控制系统从给定节点行进到结束状态的每个单一动作。这与外推引擎相反，外推引擎应该知道需要遍历到达当前节点以提供遍历计划成本的每个节点。为了使用无人驾驶汽车在不熟悉的城市中导航以达到某个点的类推，外推引擎将确定驾驶员在通过城市街道(动作)的若干个转弯之后已经移动(遍历计划成本)多远的精确描述(行程)，而启发法将对从所期望的最终位置到当前位置(如由启发法所估计的未来计划成本)进行直线距离测量。在当前的应用中，外推引擎可以是如上所述的物理模拟器，而启发法对未来成本做粗略近似。启发法可以采用将要加热的物品的表面温度分布上的点的样本的增量抵抗物品的期望的终止表面温度分布。启发法然后可以对所有的增量进行求和，并将其乘以缩放因子，作为完成该计划需要花费多少成本的粗略估计。在不同的方法中，启发法或外推引擎可以根据如上参考图3至图5所述的优化分析来操作。

根据前面的讨论，评估函数以获得与给定节点相关联的总计划成本可以包括多个子步骤。评估可以包括使用启发法估计未来计划成本以及使用由外推引擎导出的一个状态或一组状态计算遍历计划成本。对于给定节点的总计划成本然后将通过未来计划成本和遍历计划成本相加来计算。

利用确定性计划器的方法可以与在其中由电子烤箱确定的物品身份的方法相结合。这些方法允许电子烤箱专门制定物品的计划生成和执行过程的各个方面。例如，外推引擎、成本函数和启发法都可以基于物品的身份进行修改。

确定性计划器-状态和成本导出

在其中电子烤箱的控制系统利用确定性计划器的方法中，控制系统可能需要为特定动作和整体计划生成成本值，以便生成用于加热物品的计划。成本值可以基于与物品应该如何被加热有关的众多因素来计算。成本值可以与物品将被加热所需的时间相关，其中较长的加热时间与较高的成本相关联。根据这一目标的一种简单方法将由经设计为消耗一定时间单位(例如2秒)并评估计划的成本的电子烤箱采取的每个动作简单求和所采取的步骤数量，以遍历从原节点到评估下的当前节点的图空间。然而，成本也可能很复杂且取决于不止一个因素。在某些场景中，给定节点处的物品状态可能需要被外推以确定给定计划的成本。例如，通过将物品的特定点加热到将导致该物品在该点处燃烧或烧焦的不可接受的高温的动作序列，物品可以非常迅速地被加热达到平均温度。如果物品的状态被外推为成本函数的评估的一部分，则成本函数可以适用于避免这种场景，并且通常提供加热物品的更加微妙的方法。

利用使用成本函数的确定性计划器的方法中，该过程可以作为评估成本函数的一部分来进行。物品的状态可以使用外推引擎导出。外推引擎可以是热力学物理模拟器，它能够模拟某些动作对物品的影响并且自动产生用于物品的下一个状态。因为电子烤箱趋于高度受控环境，因此模拟器可以响应于一组动作提供物品的最近准确的状态估计。由于模拟器需要知道物品的特性以准确地模拟和外推其状态，所以可以依靠物品的身份来获得该信息。外推引擎可以使用物品的身份和具有该身份的物品如何响应热量的模型外推物品的状态。该模型可以专门针对具有该身份的物品形成，而非依赖于通用的热力学物理模拟器。外推引擎也可以按照如下紧接着描述的图11操作，响应于一个动作所观察到的第一表面温度分布可以用于响应于附加动作序列外推物品的状态。

图11是外推引擎如何能够利用物品的表面温度分布外推物品的状态的概念图1100。物品的状态可以包括物品的计划表面温度分布(即，确定性计划器在执行动作序列之后期望看到的表面温度分布)。物品1101被图示说明具有四个区段1102、1103、1104和1105。响应于第一动作a₁(诸如向腔室的能量的施加)，物品1101呈现第一表面温度分布，在第一表面温度分布中区段1102已经被加热而区段1103、1104和1105还没有被加热。动作a₁可以在加热过程的发现阶段执行，并且可以涉及用来探索物品1101如何响应于热量的专门定制的能量施加的应用。发现阶段可以事前进行到实际加热物品的任何尝试，并且可以涉及获得关于物品的身份的信息和将由确定性计划器利用的信息。因此，发现阶段可以在由控制系统生成任何计划之前进行。然而，动作a₁也可以仅是在电子烤箱操作的正常过程期间由电子烤箱执行的任何能量或命令的应用。无论如何，从表面温度分布收集的信息1106可被传递到外推引擎1107，用于响应于各种动作序列外推物品1101的未来状态的目的。

外推引擎可以利用信息1106和电子烤箱可以从中选择的一组潜在动作的知识以多种方式外推物品1101的未来状态。例如，外推引擎可以假定，与由动作a₁传递的能量的强度相比，物品的热响应将与施加到腔室的能量的强度成比例地变化。可以基于如本公开中其他地方所提及的单独确定的物品的身份来修改用于该比例的缩放因子。作为另一个示例，外推引擎可以假定物品的热响应以在腔室中的电磁能量的模式的相对分布的相等变化对称地平移穿过物品。该特定示例由图11图示说明，并在下面的段落中进行描述。作为另一个示例，外推引擎可以具有来自通用物品的随时间变化的辐射和对流热损失的基本模型，并且包括在随时间外推动作序列的影响时的热损失。这个模型可以基于物品的身份进行修改。

在图1100中，外推引擎1107接收关于由动作a₁引起的物品1101的表面温度分布的信息1106。该外推引擎然后使用该信息来外推分别由动作a₂和动作a₃产生的状态1108和1109。在所图示说明的情况下，动作a₂对应于腔室内能量分布向左移动物品的一个区段，并且动作a₃对应于腔室内能量分布向右移动物品的一个区段。外推引擎假定表面温度分布将随着能量分布的移动而对称地平移，以使得区段1103将由动作a₂加热到区段1102由动作a₁被加热到的相同程度，并且区段1104将由动作a₃加热到区段1102由动作a₁被加热到的相同程度。

图11中使用的示例是用于图示说明外推引擎1107会如何工作的通用原理的简化示例。实际上，由a₁产生的表面温度分布通常将比图11的示例中的更复杂且更不均匀。然而，通过增加烤箱可用的动作数量(例如，通过使强度或位置变化更细化)并增加外推引擎1107的计算复杂性，能够达到充分的性能，即使当高度复杂的表面温度分布由外推引擎利用时。如下将更详细地讨论由烤箱可以进行的动作类型。

如前面所提到的，如由外推引擎外推的物品的状态然后可以用于评估例如在步骤1020中的函数。具体地，物品的计划表面温度分布可用于评估成本函数并为控制系统生成遍历计划成本。返回到图11的示例，如由外推引擎1107外推的状态1108和1109可以用于确定与动作a₂和a₃相关联的成本以及包括那些动作的整个计划的成本。在状态1108和1109的情况下，外推状态在每个步骤之后显示物品的相同百分比被加热。考虑到每个步骤执行的时间量相同，基本的成本函数可能发现每个动作的成本是相等的。然而，成本函数可以考虑许多其他因素，例如如下事实：与状态1108相比，在状态1109中尚未被加热的面积更加分散，这可以被纳入到成本中，以使得动作a₂是优选的。此外，如果成本函数包括未来计划成本，则它会确定完成来自节点“n₂”的加热模式将是更加昂贵的，因为与从状态n₂'的仅再3个动作相比，将需要再4个动作加热整个物品。

在某些方法中，可以计算与给定节点相关联的成本，而无需导出物品的状态，但更细微的方法可以利用物品的外推状态向确定性计划器提供更佳控制。在一种场景中，成本简单地是完成计划所需的步骤数量。成本函数从而将至少由随着计划持续时间而增加的第一项部分定义。然而，即使这种方法可以从物品的外推状态中受益，因为确定性计划器将能够以某种准确度确定执行给定计划实际需要多少个步骤。

任何特定计划或动作的成本可以包括无数的其他因素。例如，如果物品上的温度分布增加到不期望的程度，则成本可能会增加，并且状态外推可以用来检测这种发生。作为另一个示例，如果外推状态下的物品的某个部分超过设定温度，则成本可能会激增。该函数然后将至少由当计划表面温度分布中的表面温度值超过阈值温度时而增加的项来部分定义。作为另一个示例，如果物品上的温度分布的熵增加到不期望的程度，则成本可能会增加，并且可能与温度分布的熵成比例地增加。这些方法可能是有益的，因为将热量的应用回扫已经加热到期望程度的区域通常是无效的并且可能是有害的。由成本函数所使用的各种因素中每个可以具有对成本的线性或非线性关系。例如，在用于特定物品的天花板温度的情况中，该关系可以是基于跨越阈值的相关联的因素的成本非线性增加。

如其他地方所述的，成本函数可以取决于在这些情况中的物品的身份。例如，如果特定物品在某些热量水平下倾向于燃烧或烧焦，那么如果在物品的外推状态或观察状态下检测到这些热量水平，则成本函数可能会激增。作为另一个示例，特定物品可以需要根据一系列阶段(即，物品在烹饪之前需要解冻)而被加热。成本函数可以足够复杂以解决这些不同的需求，诸如通过在解冻阶段期间而不在烹饪阶段期间惩罚高温的应用。

外推引擎可以诸如经由专用处理器和硬编码ROM被实施为控制系统上的硬件。然而，外推引擎也可以被实施为存储在固件中的软件例程，或者作为软件加载到控制系统中。启发法还可以涉及这些方法的组合，并且可以经由作为软件加载的附加软件例程或经由固件接收更新。最后，外推引擎可以部分地在实际物理呈现在电子烤箱上的控制系统上被实施，并且部分地在与电子烤箱通信的服务器上被实施。例如，关于物品的表面温度分布和身份的数据可以由电子烤箱获得并在本地进行预处理，而实际的状态外推在服务器上执行。

确定性计划器-启发法

在利用具有未来计划成本的成本函数的某些方法中，未来计划成本可以由启发法提供。启发法可以基本上提供达到所期望状态而无需实际考虑达到该状态所需的每个单独的动作的成本的估计值。启发法可以比外推引擎是更少的计算密集性。启发法也不需要知道将从当前节点获取的以达到期望的最终目标的每个动作。相反，考虑到将当前节点作为起始点，启发法可以提供用于完成计划的成本的估计值。启发法可以使用来自电子烤箱的传感器的数据提供该估计值。例如，启发法可以利用由红外传感器获得的物品的表面温度分布导出的信息。然而，启发法也可以利用从由外推引擎产生的表面温度分布导出的信息。基于启发法的输入启发法计算输出未来计划成本的方式可基于腔室中物品的身份来修改。

如果物品的最终表面温度分布是给定计划的最终目标，则可以通过将最终表面温度分布与当前表面温度分布进行比较来估计从任何给定节点完成计划的附加成本的粗略近似。为此，启发法可以从物品的表面温度分布获得一组温度值。表面温度分布可以使用外推引擎被外推或使用传感器被感测。启发法然后可以获得一组增量值，其中每个增量值对应于该组温度值中的温度值和来自期望的最终表面温度分布的期望温度值。增量值然后可以求和以获得估计的未来计划成本。例如，估计的未来计划成本可以通过将增量值求和并将它们乘以比例常数来获得，以使得温差适当地与成本函数成比例。在确定未来计划成本时，启发法还可以将表面温度分布的各个方面和来自其他传感器的信息考虑进去。

启发法可以诸如经由专用处理器被实施为控制系统上的硬件和被实施为硬编码到ROM中的指令。然而，外推引擎也可以实施为存储在控制系统上的固件中的软件例程，或者作为软件加载到控制系统中。启发法还可以涉及这些方法的组合，并且可以经由作为软件加载的附加软件例程或经由固件接收更新。

确定性计划器-计划发现

在足够小的一组潜在动作和基本加热任务的情况下，外推引擎模拟电子烤箱将采取的每个可能的动作序列是可能的，从而虑及用于遍历图空间的每个潜在计划的成本函数评估。然而，对于涉及置于电子烤箱中的任意物品和大量潜在动作的应用，可以做一定程度的修剪以限制图中被调查的节点数量。例如，外推引擎可以从初始状态开始并随机扩展动作序列，直到检测到至结束状态的多条路径，并且可以从这些多条路径中选择成本最低的路径。作为另一个示例，使用启发法的未来计划值的估计值、遍历计划成本在当前节点处的计算值、或这些值得某种组合，该扩展可能偏离初始状态。如本文所使用的，扩展节点指外推用于通过采取在该节点处开始的一个或多个动作将导致的状态的信息。

返回图5中示例，可以使用成本函数的评估来选择经由进一步计算扩展的动作序列。如前所述，表面温度分布和动作用于评估函数以确定与节点n₂'相关联的计划成本，然后相同的表面温度分布和第二动作用于评估函数以确定与节点n₂”相关联的计划成本。计划调查过程然后可以继续进行仅从节点n₂'外推出其他节点，因为针对节点n₂'计算的计划成本低于针对节点n₂”计算的计划成本。如果可用的多个节点尚未探索且只有一个动作从已探索的节点中移除，则选择哪些节点的实际方法可能会更加复杂。这组节点可以被称为确定性计划器的边界。例如，发现过程可以按照节点的计划成本对边界上的所有该节点进行排序、放弃底部的X％并扩展顶部的1-X％。可替代地，发现过程可以随机扩展节点，或者周期性地切换到节点随机扩展的方法。

在如上所述的许多情况下，第一计划成本与第二计划成本的比较将用于确定如何通过图空间扩展各种动作序列。因此，成本函数和指导发现过程的逻辑可以共享许多共同之处。例如，发现过程可能有利于降低整个物品上的温度变化的节点或最小化温度分布中的孤立最大值或最小值的节点。然而，益处积累至方法，在该方法中，成本函数和指导发现过程的逻辑包含某些差异。具体地，将随机性引入指导发现过程的逻辑将确保发现过程不会被诱骗移动通过看起来会产生全局最小成本而实际上只是局部最小值的图空间的路径。此外，如果某些物品更易于在图空间中局部最小化，那么发现过程的逻辑被鼓励分支的程度可以基于物品的身份而改变。例如，发现过程意在随机扩展边界的次数比例可以被设定为与物品(像电子烤箱中识别的一个物品)的已知程度热阻率成比例。

确定性计划器-偏差检测器

具有确定性计划器的电子烤箱还可以在计划执行时监测其性能，并且如果检测到与期望性能偏差太大，则试图产生新计划。偏差检测器也可以被用于使用参照图3至图5描述的优化分析的方法。在加热物品的计划被执行时，监测过程可以连续进行。比较可以使用可用于电子烤箱的控制系统的任何传感器数据，并且可以利用通过计划执行过程基于物品的任何外推特征的比较值。

物品的外推特征可以在计划发现过程期间或在实际计划生成过程期间获得。在一种方法中，当选择用于在所选计划中遍历的节点时，可以保存与图空间中每个节点对应的物品的外推状态。该比较值然后可以在计划执行的每个步骤处发生，以看看物品的实际结果状态是否与计划最初生成时外推的计划状态相匹配。

图12是如何监测计划的性能的概念图1200。物品1201表示置于腔室中的实际物理物品，并且被图示说明为具有指示还没有热量施加至该物品的空白表面温度分布。外推引擎1202然后可以在计划生成阶段期间外推物品的状态1203。状态1203是在用于电子烤箱的控制系统的存储器中表示的物品1201的状态。状态1203可以与图空间中的特定节点以及存储计划中的相应动作序列相关联。物品1204表示与物品1201相同的实际物理物品，除了已将热量施加到腔室中的该物品上以在该物品上产生表面温度分布。物品的表面温度分布可以由红外传感器1205感测到。由红外传感器测量的表面温度分布可以通过在控制系统中的独立存储空间1206中实现的比较器1207和与状态1203相关联的计划表面温度分布进行比较。

监测计划性能的方法可以继续在比较步骤期间检测变化。可以通过各种方式测量物品的计划状态与物品在实际执行计划期间的观察状态之间的变化。在一个基本示例中，可以采取来自两个表面温度分布(例如物品1204和状态1203)的采样值的简单增量，并将其与被认为是不可接受的变化的给定阈值进行比较。在其他情况下，各种因素可以被认为是不可接受的变化。例如，即使大部分表面温度分布符合计划的外推性能，局部且非计划的热点1208的外观也可以被认为是不可接受的变化。另外，在计划生成阶段可以用来显著地惩罚成本函数的任何因素都可以用来检测不可接受的变化。尽管这些因素可以作为确定何时需要调整计划的良好指标，但是不管发生任何风险条件，来自计划的严格变化本身是重要的，因为偏离计划可能表明存在更加紧迫的潜在缺陷，例如腔室中物品或者是经历了更严重的不可检测的条件(诸如没有按照预期响应的不可观察的内部)的物品的误识别。

如果在计划状态和实际观察状态的比较期间检测到变化，则控制系统可以采取若干响应动作。首先，确定性计划器可以响应检测到的变化生成加热物品的第二计划。控制系统可以替代地关闭电源或切换到默认加热模式，如基于腔室的热量具有自动关闭的定时加热。第二计划可以以与生成第一计划的相同方式生成。替代地，可以通过向外外推引擎提供关于来自预期性能的变化的信息来生成第二计划。实际观察到的性能、或者该性能与预期性能相比的增量然后可以进而用于改进外推引擎在未来加热任务中的性能。控制系统还可以向用户发出在预期条件下偏差的警报，并要求用户对加热过程施加手动控制。

控制系统还可以周期性地执行另一个计划阶段，而不涉及来自计划的性能的任何变化。例如，控制系统可以每五分钟重新运行计划过程。该计划然后可以立即从原计划切换到新计划。可替代地，如果由控制系统检测到不可接受的变化，则新计划可以留作预备，并准备就绪。这种预留计划的使用可以对存储状态进行预测，该存储状态与对于该计划的实际当前性能是可接受的匹配的该预留计划相关联。

控制和训练系统

根据本公开的电子烤箱可以包括用于执行本文公开的方法的控制系统。控制系统可用于实例化如上所述的评估性反馈和强化学习系统。例如，控制系统可以呈现如上所述的控制系统903的特征。控制系统也可用于实例化如上所述的优化分析。控制系统也可以用来实例化如上所讨论的确定性计划器，包括任何相关联的外推引擎或启发法。控制系统可以由处理器、ASIC或嵌入式系统核心实例化。控制系统还可以访问诸如闪存的非易失性存储器以存储用于执行本文所述的方法的指令。控制系统也可以访问工作存储器，用于结合处理器执行这些指令。实例化控制系统的硬件可以位于容纳在诸如电子烤箱110的电子烤箱内的印刷电路板或另一基板上。控制系统也可以部分地实施在经由网络与电子烤箱110通信的服务器上。控制系统的各个块不需要在同一物理设备上实例化。各个块可以通过单独的数据存储器或物理处理设备实例化。

图13是根据本文公开的一些方法提供控制系统1301的操作的图示说明的数据流程图1300。具体地，控制系统1301适用于利用本文公开的评估性反馈和强化学习方法。控制系统1301可以使用评估性反馈控制电子烤箱110。控制系统1301可以生成控制信息、接收关于电子烤箱110状态或电烤箱110内物品状态的状态信息、并且基于对该状态信息的评估调整控制信息。如所图示说明的，控制系统1301可以向电子烤箱110的其他部件提供控制信息1302以便实现特定的动作。控制系统1301可以接收来自电子烤箱110的其它部件(诸如传感器)的状态数据1303，以便确定电子烤箱110或电子烤箱110内物品的操作状态。

控制系统1301可以利用强化学习训练系统。训练系统可以包括存储的动作值函数1304，该存储的动作值函数1304利用感测的状态和一组潜在动作作为输入来评估以确定作为输出的最优动作1305。控制系统1301然后将生成实现优化动作1305所需的控制信息1302。动作值函数本身和评估该函数的系统可以由电子烤箱110上的处理器和存储器实例化，或者可以在网络可访问服务器上完全或部分地实例化。动作值函数的值及其与特定状态和动作的相关性可以存储在存储器1306中。该组潜在动作可以存储在存储器1307中。存储器1307和1306可以是电子烤箱110上的本地存储器或网络可访问服务器上的网络可访问存储器。感测到的状态可以由状态导出系统1308使用状态数据1303导出。感测到的状态也可以使用控制信息1302导出。

在已经执行了由控制信息1302定义的动作之后，控制系统1301可以接收一组新的状态数据1303并且使用奖励导出系统1309从该状态导出奖励值。然后可以使用该奖励来更新存储的动作值函数1304。奖励导出系统可以由电子烤箱110上的处理器和存储器实例化，或者可以完全或部分地在网络可访问服务器上实例化。如下更详细地描述奖励导出系统1309的操作。

在某些方法中，动作值函数1304将是函数逼近器，诸如神经网络或将用作动作值函数的其他反向传播回归模型。控制系统还可以包括用于函数逼近器的训练系统。例如，如果训练系统是神经网络，则将需要训练网络的特定权重，以使得神经网络变成动作值函数的合理近似。这些权重然后可以被存储在存储器1306中。神经网络的训练系统可以是反向传播回归训练模型。用于训练网络的数据可以是由电子烤箱感测到的并由控制系统用来更新动作值函数的相同数据。

本文公开的一些方法包括利用过去经验的随机样本作为训练数据的神经网络训练系统。在这些方法中，用于更新动作值函数1304的数据需要被存储更长的时间段。数据可以存储在电子烤箱110上的存储器或盘中。然而，数据也可以存储在经由网络1311可访问的网络可访问服务器1310上。

用于训练神经网络的数据可以比用于更新动作值函数的数据更可扩展。具体地，数据可以包括一组经验数据点。经验数据点可以包括表示由奖励导出系统1309导出的奖励值的数据、用于选择最优动作1305的第一状态、由状态导出系统1308导出的第二状态、以及用于从第一状态转移到第二状态的动作1305。这些经验数据点然后可以被随机采样以提供用于神经网络的一组训练数据。训练数据根据方法可用于训练神经网络，在该方法中，损失函数根据随机梯度异议评估被迭代地最小化。这种方法是有益的在于，神经网络的训练可以从同一组物理测量中收集多组训练数据以增加提供函数逼近器的速度。

网络可访问服务器1310可以包括从多个电子烤箱收集的经验数据点，该经验数据点可以进而用于训练多个电子烤箱的函数逼近器。经验数据点可以从每个联网的电子烤箱向上推送到服务器，以在服务器侧运行训练程序。然而，训练数据也可以从服务器向下推送到各个烤箱，以在本地运行训练程序。来自由电子烤箱的网络进行的每次训练情节的训练数据的合并可以大大提高电子烤箱的网络被训练用于最佳性能的训练速度。

图14是根据本文公开的一些方法提供控制系统1401的操作的图示说明的数据流程图1400。具体地，控制系统1401适用于利用本文公开的确定性计划器方法。控制系统1401可以通过生成计划并根据该计划向电子烤箱传递命令来控制电子烤箱110。计划的性能也可以被监测。控制系统1401可以生成控制信息、接收关于电子烤箱110的状态或电子烤箱110内物品的状态信息、以及基于该状态信息调整和确定计划的性能。如图示说明的，控制系统1401可以向电子烤箱110的其他部件提供控制信息1402，以便根据生成的计划1405实施特定的动作。控制系统1401可以接收来自电子烤箱110的其他部件(诸如传感器)的状态数据1403，以便确定电子烤箱110或电子烤箱110内物品的操作状态。

控制系统1401可以利用确定性计划系统来产生用于加热腔室中物品的计划。确定性计划系统可以包括使用状态数据1403评估的存储成本函数1404。该系统还可以使用外推引擎1407和启发法1406来评估成本函数1404。可以选择成本函数中的特定节点用于评估，并且随后使用外推引擎1407或启发法1406进行评估。控制系统将基于这些评估生成计划1405，并生成实施计划1405所需的控制信息1402。成本函数本身和评估该函数的系统可以由电子烤箱110上的处理器和存储器实例化，或者可以全部或部分地被实例化在网络可访问服务器上。用于成本函数、启发法、外推引擎以及电子烤箱可以执行的潜在动作的值可以存储在存储器1409中。存储器1409可以是电子烤箱110上的本地存储器或网络可访问服务器上的网络可访问存储器。感测到的状态可以使用状态数据1403由状态导出系统1408导出。感测到的状态也可以使用控制信息1402导出。

在已经执行由控制信息1402定义的动作之后，控制系统1401可以接收一组新的状态数据1403，并且使用偏差检测器1410将该计划的实际性能与该计划的预期性能进行比较。偏差检测器可以从外推引擎1407接收外推状态并且将其与计划中的点处由物品所达到的对应于外推状态的实际状态进行比较。外推引擎可以实施为专用处理器，或者可以是在用于实例化评估成本函数1404的系统的同一处理器上执行的固件或软件。考虑到控制系统可用的、与已经部分执行的计划相关联的附加信息，偏差检测器可以被配置为触发成本函数的另一评估。

对于控制系统操作所需的数据可以存储在电子烤箱110上的存储器或磁上。然而，数据也可以存储在经由网络1411可访问的网络可访问服务器1410上。例如，用于初始化成本函数、外推引擎或基于置于电子烤箱中物品的身份的启发试的值可以被远程存储并且在系统获得更多数据时被更新。类似地，由电子烤箱收集的数据可以被上传到服务器1410以供其他电子烤箱使用。具体地，在其中偏差检测器确定计划确实未导致预期的外推状态的实例可用于改进所存储的值，该所存储的值在网络可访问服务器1410处初始化外推引擎以供其他电子烤箱使用。

状态和奖励导出

利用状态导出系统在任一个如上所述的评估性反馈方法中从系统获得反馈。例如，状态导出系统可以是状态导出系统508或1408。利用奖励导出系统(例如奖励导出系统509)来更新强化学习方法中的动作值函数。如本文所使用的，术语状态可以指物品、电子烤箱或整个系统的实际物理状态。然而，该术语也可以指如存储在存储器中的这些状态的表示。在一些方法中，实际物理状态的数量远远大于存储在存储器中的状态的数量。

在存储器中定义状态的过程将通常涉及来自传感器、控制系统或来自网络连接的数据。物品的实际物理状态由如上参照图1描述的由获得状态感测信息(诸如1303和1403)的传感器感测到。存储在存储器中的状态可以由从传感器获得的数据来定义。例如，可以由关于物品上的温度分布的数据、二维可见光数据、三维可见光数据、激光监测温度测量值、权重数据、湿度数据、温度数据、颗粒浓度数据、回波损失数据、阻抗匹配数据、施加的能量数据以及通常关于物品、腔室、能量源或电子烤箱的物理状态的其他参数。存储在存储器中的状态也可以由控制信息来定义。

由控制系统使用的状态可以由通过使用传感器测量(例如状态感测信息1303)以及控制信息(例如控制信息1302)的两个因素来定义。具体地，可以使用以关于具体动作的动量的信息形式的控制信息来定义状态。通常，由控制系统强制执行的、包括方向项或者其行为相对于时间具有正偏导和负偏导的任一行动可以由系统有利地用于定义状态。

在某些方法中，传感器将不需要获得控制信息，因为该信息可以从由控制系统本身产生的命令中导出。例如，该状态可以包括腔室中模式搅拌器的角动量的值，但是角动量将不需要从腔室感测到，并且反而可以直接从控制系统的负责调整该角动量的部分传递至控制系统的负责评估并更新动作值函数的部分。这由图13中的1308和1302之间的连接图示说明。由于响应施加的功率的模式搅拌器的行为可以由制造商评估并且很好地建模，所以该模型可以构建到控制系统中，以使得动量可以从用于控制模式搅拌器的命令中导出。

联网接口还可以提供可用于确定物品状态的信息。例如，电子烤箱的位置数据可以通过烤箱的连接性来导出，并用于导出烤箱的可用于定义物品的状态的高度。还有，基于位置的信息还可以用作初始化控制系统的外部通道，以便更好地识别在某些区域中以更高频率消耗的某些物品或根据某些本地偏好烹饪物品。可以获得本地偏好和地理消费模式作为电子烤箱本身的初始项。

在具体示例中，物品111的表面温度分布可以使用红外传感器通过开口114查看物品来感测到。表面温度分布然后可以被用于识别存储器中的状态。来自多个传感器的数据或来自传感器和控制信息组合的数据可以组合使用以识别状态。例如，物品的表面温度分布和三维图像两者可以使用红外传感器和可见光传感器查看物品被捕捉，并且分布和图像两者都可用于识别该状态。在另一个示例中，表面温度分布和使用用于控制托盘的马达的控制信息计算的保持物品的可移动托盘的动量可以用于识别状态。作为另一示例，所施加的能量的当前位置和所施加的功率的阻抗匹配特性两者都可用于识别状态。

这些状态可以经由导出过程来定义，该导出过程从传感器接收原始数据并将处理后的数据传送给控制系统。这一步是可选的，因为在某些情况下，数据可以直接传送到控制系统。例如，红外传感器可以将由传感器中每个像素感测到的IR强度的值的矩阵直接传送给控制系统。然而，原始像素值也可以策略地降采样以减轻置于控制系统上的计算约束条件。原始数据也可以被处理，以使得控制系统将接收直接对应于物品的表面积的IR强度值的矩阵，犹如该表面积从三维形状平坦化为二维平面。更复杂的导出过程可以被应用于向控制系统提供最优程度的信息，利用该信息可以定义状态。

图15提供了可用于处理关于物品的原始传感器数据以便定义存储器中状态的更复杂导出过程的图示说明。图15包括对应于在两个不同时刻下同一系统的两组图像1500和1501，其中图像1500对应于t＝0而图像1501对应于t＝1。在两个图像中，红外传感器1502获得表面温度分布。在t＝0时获得表面温度分布1503。在t＝1时获得表面温度分布1504。两个表面温度分布对应于腔室中的同一物品。在这种情况下，该物品是可移动托盘1507上的一组物品1505和1506。如所图示说明的，托盘1507从t＝0到t＝1旋转90°。

强化学习系统可将表面温度分布1503和1504处理成系统的状态，而不考虑腔室中物品1505和1506的相对移动。然而，在某些方法中，通过使用关于物品位置的信息和表面温度分布定义状态，缓和控制系统的这种复杂程度可能是有益的。这可以通过多种方式完成，并且出于解释更复杂的导出如何可以缓和对控制系统的压力而不作为对所有情况下如何向控制系统提供信息的限制的目的，提供以下示例。

在一个示例中，红外传感器1502还可以获得物品1505和1506的可见光图像。该数据将用作状态感测数据(诸如状态感测数据1303)的一部分。该信息然后可以由状态导出系统(诸如状态导出系统1308)使用，以将表面温度分布从它们的原始值映射到物品1505和1506本身的分布。

作为另一个示例，控制系统可以提供控制信息，根据控制信息可以导出托盘1507的位置。该信息可以用作控制信息，诸如控制信息1302。该信息然后可以用于转置表面温度分布，以在表面温度分布被用于定义如由动作值函数1304或成本函数1404所利用的控制系统的状态之前抵消托盘在状态导出系统(诸如状态导出系统1308)处移动的影响。

通过组合多个数据流，其他更复杂的导出是可能的。例如，该状态可以包括分类器，与通常放置在微波炉中的存储物品库相比，该分类器实际上标识烤箱中的具体物品。该状态可以包括可置于微波炉中的多个物品的占位符，并且可以独立追踪每个物品的各个特性。

置于微波炉中的物品的实际物理状态可以不同于由控制系统定义的状态。这种发生可以被称为隐藏状态问题。在某些方法中，状态将根据针对物品表面的测量值被定义，并且物品内部的温度将只能间接知道。然而，物品的内部特性可能会改变，而外观保持不变，以使得同一表面测量值将表示不同的内部状态。在仅监测表面温度的方法中，这可能导致隐藏状态问题。

如上所述的强化学习方法相对于隐藏状态问题提供某些益处，因为它可以对是噪声且延迟的奖励信号操作。最终，物品的内部状态将被确定。在各种方法中，当内部状态通过热量的扩散最终表现在其表面上时，或者当从腔室中移出并评估该物品时，内部状态将被确定。无论如何，先前状态的动作值函数的更新提供了将该信息重新合并回控制系统的快速方式，并允许控制系统识别隐藏状态并探索用于缓和其影响的选项。

除了用于评估动作值函数之外，还可以使用获得的关于物品状态的信息来导出用于更新动作值函数的奖励。这个动作可以由奖励导出系统509(诸如奖励导出系统509)进行。事实上，由系统收集的关于物品状态的任何信息都可以用来导出奖励。奖励可以是正的或负的。在特定示例中，可以基于厨师确定的均匀性为每个状态导出正奖励。该确定可以涉及评估物品的表面温度分布并评估整个分布的温度值的变化。奖励可以根据与S形函数相比的分布中的多少点来导出，在S形函数中，正奖励被提供用于S形函数上的低幅值点。作为另一示例，当可见光检测器识别到已经发生溢出时，可以提供负奖励。在腔室内检测到烟雾时，可以导出较大的负奖励。

除了用于定义物品状态的数据之外，还可以从许多其他数据源中导出奖励。例如，奖励可以根据将物品加热到期望程度所耗费的时间导出，其中快速加热与正奖励相关联。物品已经被烹调后，还可以经由用户反馈提供奖励。例如，提示可以出现在显示器上或由设备上的扬声器发送以提示用户生成关于进行加热的程度如何的报告。作为另一示例，可以将提示发送给用户的移动电话以请求关于物品的加热程度如何的响应。根据用户的响应然后可以导出奖励。

动作

参考图1描述的示例电子烤箱可以进行各种动作，作为获得评估性反馈的过程的一部分或者作为产生加热物品的计划的一部分。在其中评估性反馈被用来训练强化学习训练系统的方法中，这些动作可以是训练系统的动作值函数的输入。在使用确定性计划器的方法中，这些动作可以是构成计划并遍历计划空间的图的动作。在使用如上所讨论的优化分析的方法中，这些动作可以是能量的应用并且在用于将物品置于在给定条件中并监测其响应的电子烤箱的配置的变化。

通常，如上所述，一组动作包括相对于由能量源传递给腔室的能量的可变分布所产生的局部最大值更改物品从第一位置值至第二位置值的相对位置的能力。为此，托盘118可以围绕一个或多个轴线旋转。托盘118也可以沿着腔室112的底部二维线性可移动。托盘118实际上可以比腔室112的边界更大并且在物品移动时通过腔室的壁的下方，以便移动物品111通过更大的区域。托盘118也可以相对于腔室112的基座在z方向上下移动。替代地或组合地，由源113提供的能量的可变分布可以是可移动的，如将在下面更详细描述的。

可以由示例控制系统执行的其他动作包括诸如通过循环开启和关闭施加到能量源113的功率来调整提供给腔室的能量的特性，或者调整在标准步骤中施加的在最大值水平和最小值水平之间的功率。在其他方法中，施加到腔室112的能量的频率可以被修改。在其他方法中，可结合或可选择由能量源113施加的能量而将附加热源施加到腔室。此外，水或其他材料可以间歇地引入腔室中以改变引入到腔室112的能量对物品111的影响。作为另一示例，可以将感受器周期性地引入腔室以产生更高温度的反应。感受器可以在腔室内移动，并且可以偶尔置于非常靠近某些物品以引起美拉德反应或仅在高温下可达到的其他影响。可以由示例控制系统执行的其他动作包括在腔室中移动搅拌器或另一搅动器，该搅拌器或搅动器被配置成在加热期间调整物品的位置和组成。搅动器可以置于物品内。在某些方法中，搅动器将包含针对微波能量透明的材料。在其他方法中，搅动器将是如上所述的感受器。

控制系统可以执行的另一动作是相对于腔室112本身移动由能量源113提供的可变分布。这一动作可以以多种方式实现。如何可以改变可变分布的位置的示例被提供在2016年3月30日提交的美国临时专利申请号62/315,175、2016年6月13日提交的62/349,367以及2016年12月14日提交的62/434,179的优先权，为了所有目的，所有这些申请通过引用整体并入本文。例如，通过调整一组可变反射率元件(诸如图2中的可变反射率元件200)的物理配置，可以相对于物品改变腔室内的可变分布。

控制系统可以如何执行相对于腔室移动可变分布的动作的另一示例是通过利用天线阵列或能量源。阵列中的各个元素可以瞬间提供可变水平的能量，以通过形成在不同点处相干和干涉的波来改变所传递的能量的特性。

控制系统可以进行的另一动作涉及相对于腔室本身改变能量分布的模式并改变所提供的能量的量的组合。通过对准物品上或物品内的特定位置并且监测RF参数(诸如回波损耗和阻抗匹配)，可以监测物品的那部分对所传递的能量的反应。这些特征组合关于物品如何响应热量的知识可以用来测量加热过程如何进展。

如上所提到的任何动作都可以由控制系统存储，用于在由确定性计划器生成加热物品的计划时进行选择。计划器可以从中选择的潜在物品可以被称为电子烤箱的动作组。确定性计划器的动作可以包括根据他们的各个持续时间或物理范围的各种设定程度。例如，可以定义动作组，以使得每个动作执行耗费相同的时间量(例如，可以选择用于动作组的与旋转托盘π/8弧度或增加10％的能量源的强相关联的动作，因为他们耗费相同的时间量)。这些方法将缓和对成本函数的一个约束条件，因为成本函数可以通过简单地增加所采取动作的数量来计算总计划时间。然而，成本函数也可以被定义为说明执行任一给定动作所耗费的时间。可替代地，可以定义这些动作，以使得它们具有固定的持续时间或强度，而不涉及在动作组中的各种动作之间存在任何形式的对称性。这些方法总体上将也缓和确定性计划器的计算复杂性，因为它们将限制将需要被探索和外推的一组潜在动作。在其中动作具有不同的持续时间或强度的替代性方法是可能的，并且该方法可以在为计划器提供灵活性的方面提供某些益处，但也会增加外推引擎的复杂性。

控制系统初始化

控制系统可以基于置于腔室中物品的身份初始化。通过分析使用红外数据以及从可见光传感器获得的可见光传感器数据物品对能量施加的影响，可以识别该物品。控制系统可以基于与特定类别匹配的物品的类别被初始化，或者可以基于特定物品被行初始化。例如，该物品可以被识别为非粘性均质液体，或者它可以被识别为一杯茶。控制系统然后可以基于该识别被初始化。如果物品未被识别，则控制系统可以包括默认配置。控制系统也可以基于就物品的特性而论的不同水平的特异性具有不同的配置。例如，控制系统可以具有一杯茶配置和非粘性均质液体配置两种，并且如果没有正确地进行茶的识别，则可以退到更一般的配置。

图16是使用来自外部通道的数据图示说明控制系统的初始化的数据流程图。来自外部通道的数据可用于初始化本文公开的控制系统中任一个，包括与如上讨论的确定性计划器、强化学习方法以及优化分析相关联的那些控制系统。然而，为了解释的目的，图16图示说明了参照图13公开的用于强化学习方法的控制系统的初始化。

来自外部通道的数据可以提供用于初始化控制系统1301以用于加热或训练情节的信息。这些通道还可以用来初始化控制系统的各个方面中任一个，该方面基于物品的身份在本文档的其他地方已经被描述为是可配置的。外部通道被图示说明为包装1601生物QR码、语音命令1602、触摸输入1603和网络数据1604。来自外部通道的数据可以包括通过用于读取待加热物品的包装上的UPC或QR码的扫描仪、在传统小键盘上输入的小键盘命令、在触摸屏的用户界面上输入的命令、在电子烤箱的麦克风上输入的语音命令、或与图像识别分类器组合的照相机传送的数据。通常，数据通道可以包括用于从外部源向电子烤箱110输入命令或信息的任何方法。网络数据1604可以包括从电子烤箱110的制造商提供的信息或来自电子烤箱110的用户的信息，该用户经由局域网或因特网间接提供控制信息。该信息可以通过网络经由具有参考控制面板119如上所述的各种输入通道的设备来提供，该设备诸如具有触摸屏、麦克风和照相机的移动电话。

一旦接收到数据，由电子烤箱110用来初始化控制系统1301的某些方面。例如，动作值函数本身可以通过改变存储在存储器1306中的一组值和相关性而被初始化。这可以涉及用于存储在存储器1306中的动作值函数的神经网络函数逼近器设定权重和整体特性。状态导出系统1308和奖励导出系统1309的行为也可以由所接收到的数据初始化或改变。由控制系统1301使用的状态本身可以诸如通过调整它们以独立跟踪腔室内物品的各个部件的状态而被改变。在特定的示例中，外部通道可以将物品识别为需要烹饪的鸡肉和需要再加热的米饭的组合。结果，由控制系统1301和状态导出系统1308使用的状态可以被初始化以跟踪两个单独部件。用于表示状态的数据可以被更改为包含每个部件的两个单独向量。奖励程序可以被改变，以奖励鸡肉缓慢逐渐加热和米饭的轻度加热。

通常，包括强化学习训练系统或用于训练函数逼近器的训练系统的特性的控制系统1301的任一方面可以经由来自外部通道的数据来初始化。例如，强化学习训练系统可基于来自外部通道的数据被初始化，诸如与探索动作相比调整采取动作值最大化动作的概率。

另一个用于信息的外部通道可以是用于分析腔室内物品的预编程校准程序。校准程序可以是用在本文其他地方描述的确定性计划器和优化分析的发现阶段中的同一过程。电子烤箱可被配置为快速加热物品或将水施加到腔室并研究物品对该刺激物的反应以获得可用于初始化控制系统的信息。例如，物品可以利用电磁辐射的施加而被加热，并且可以在一短时间段内分析表面温度分布的变化以确定物品的热阻率。响应于确定高热阻率，用于确定性计划器或强化学习方法的控制系统可以利用采取探索性步骤的高概率而被初始化，以解决这些物品的潜在隐藏状态问题。事实上，物品对上述刺激物的响应可以由任一分类系统使用，该分类系统访问关于不同材料对这些刺激物的响应以便为控制系统识别物品的信息语料库。作为特定示例，不同的食物响应于热量的施加可以呈现不同的冷却曲线，并且响应于给定的刺激物监测腔室中物品的温度随时间的变化可以提供足够的信息以使得训练后的分类器能够识别该物品。在类似示例中，可以分析在接收到能量施加后表面温度分布的变化，以向确定性计划器方法的外推引擎提供关于物品如何被加热和随后被冷却两者的信息，以便响应于各种潜在动作准确地为确定性计划器外推物品的状态。

尽管以上提供了利用来自外部通道的数据的特定示例，但是在大多数方法中，控制系统(诸如控制系统1301)可以利用来自外部通道的非常少的数据来操作。如上所述的大部分数据实际上可以由控制系统1301本身的操作发现并且并入其中。例如，虽然外部通道可以将物品识别为需要重新加热的熟鸡或需要解冻并完全煮熟的冷冻鸡，但控制系统1301还可以学习识别物品并执行适当的加热程序以使两个物品都达到期望状态而无需外部输入。相同的动作值函数和一组状态可用于解冻及烹饪任务和重新加热任务两者。虽然状态的数量和不提供外部数据的方法的计算复杂度会更大，但不必须提供外部数据。

虽然已经相对于本发明的特定实施例详细描述了本说明书，但是应该理解，本领域技术人员在获得对前述内容的理解之后可以容易地想到对这些实施例的改变、变型和等同物。如上所讨论的方法步骤中任一个可以由利用存储用于那些方法步骤的指令的计算机可读非暂时性介质操作的处理器来进行。计算机可读介质可以是电子烤箱内的存储器或网络可访问存储器。虽然本公开中的示例包括通过电磁能的应用来加热物品，但是可以组合或可选择地使用任一其他形式的加热。术语“物品”不应该局限于单一均质元件，并且应该被解释为包括有待被加热的物质的任一集合。在不脱离本发明范围的情况下，本领域技术人员可以实施本发明的这些和其他修改和变型，本发明的范围在所附权利要求中更具体地阐述。

已经详细参考所公开发明的实施例，附图中图示说明了本发明的一个或多个示例。每个示例通过解释本技术的方式而提供，而不作为对本技术的限制。实际上，对于本领域技术人员显而易见的是，在不脱离本发明的范围的情况下，可以在本技术中做出修改和变型。例如，图示说明或描述为一个实施例的一部分的特征可以与另一个实施例一起使用以产生又另一实施例。因此，意在本主题覆盖所附权利要求及其等同物的范围内的所有这种修改和变型。

Claims

1.一种用于将电子烤箱的腔室中物品朝向目标状态加热的计算机实施方法，其包括：

利用对所述腔室的一组能量的施加加热所述物品，同时所述电子烤箱处于相应的一组配置中；

使用红外传感器感测传感器数据，所述传感器数据定义所述物品对所述一组能量施加的相应的一组响应；并且

生成加热所述腔室中物品的计划，其中所述生成：(i)由所述电子烤箱的控制系统进行；(ii)使用传感器数据；(iii)包括进行优化分析以生成优化输出；和(iv)包括使用所述优化输出编译命令序列；

其中所述优化分析使用：(i)凸优化求解器；(ii)表示所述目标状态的数据；和(iii)表示所述相应的一组响应的数据；并且

其中所述电子烤箱执行将所述物品朝向所述目标状态加热的命令序列。

2.根据权利要求1所述的计算机实施方法，其中：

所述相应的一组配置包括至少5个不同的物理配置；

每次能量施加的持续时间为至少0.5秒；并且

所述一组能量施加和相应的一组配置定义所述腔室中能量的相应的一组可变分布。

3.根据权利要求1所述的计算机实施方法，还包括：

所述优化输出包括误差值和持续时间向量；

所述持续时间向量包括所述电子烤箱处于所述相应的一组配置的每个配置中的一组持续时间；

所述误差值量化所述目标状态与外推结束状态之间的差异；并且

所述凸优化求解器设定持续时间向量以最小化所述误差值，

其中，外推结束状态能够使用所述持续时间向量和一组响应向量来计算。

4.根据权利要求1所述的计算机实施方法，还包括：

将所述物品分割为一组区段；

其中所述凸优化求解器是非负最小二乘求解器；

其中表示所述目标状态的数据是目标状态向量；

其中所述目标状态向量包括对应于所述一组区段的一组目标温度值；

其中表示相应的一组响应的数据是一组响应向量；并且

其中所述一组响应向量中的每个响应向量是对应于所述一组区段的一组温度导数。

5.根据权利要求1所述的计算机实施方法，还包括：

在所述物品朝向所述目标状态加热时，周期性地进行所述优化分析；

其中用于所述优化分析的周期性进行的周期大于3秒且小于15秒。

6.根据权利要求4所述的计算机实施方法，还包括：

使用分类器和所述一组响应向量识别所述物品。

7.根据权利要求3所述的计算机实施方法，所述命令序列：

将所述电子烤箱在所述相应的一组物理配置之间转换；

应用所述能量施加；

确保所述电子烤箱处于所述相应的一组物理配置中每个中达一段持续时间，所述持续时间与所述持续时间向量中的相应元素成比例。

8.根据权利要求1所述的计算机实施方法，还包括：

执行所述命令序列中的命令，其中所述命令使所述电子烤箱返回到所述相应的一组物理配置中的物理配置；

执行所述命令序列中的第二命令，其中所述命令在所述电子烤箱处于所述物理配置时向所述腔室应用能量施加；以及

使用所述红外传感器感测定义所述物品对所述能量施加的响应的附加传感器数据；

进行第二优化分析以生成第二优化输出；以及

使用所述第二优化输出编译第二动作序列；

其中所述第二优化分析使用：(i)凸优化求解器；(ii)表示所述目标状态的数据；和(iii)所述附加传感器数据。

9.根据权利要求3所述的计算机实施方法，还包括：

确定所述误差值超过可接受的误差值；

在所述电子烤箱处于附加物理配置时利用能量施加加热所述物品，其中在确定所述误差值超过所述可接受的误差值之后选择所述附加物理配置；

使用所述红外传感器感测定义所述物品对所述能量施加的相应响应的传感器数据；

进行第二优化分析以生成第二优化输出；以及

使用所述第二优化输出编译第二动作序列；

其中第二优化分析使用：(i)凸优化求解器；(ii)表示所述目标状态的数据；(iii)表示所述相应的一组响应的数据；和(iv)表示所述相应响应的数据。

10.根据权利要求1所述的计算机实施方法，还包括：

生成加热所述腔室中所述物品的第二计划，其中所述第二计划的生成由所述电子烤箱的所述控制系统进行，并且其中所述第二计划的所述生成使用确定性计划器；

其中所述确定性计划器的成本函数使用所述计划作为启发法以估计用于所述第二计划的未来计划成本。

11.根据权利要求10所述的计算机实施方法，还包括：

使用强化学习系统将所述腔室中所述物品自动加热至所述目标状态；

其中所述第二计划被用作用于所述强化学习系统的策略。

12.根据权利要求1所述的计算机实施方法，还包括：

改变一组反射元件中的反射元件以在所述相应的一组物理配置中的第一物理配置和第二物理配置之间转换；

其中所述腔室在每次能量的施加期间均完全静止；

其中所述一组反射元件包括至少三个反射元件；并且

其中所述控制系统生成独立地改变所述一组反射元件中反射元件的命令。

13.根据权利要求12所述的计算机实施方法，其中：

至所述腔室的来自所述一组能量施加中的能量施加将极化电磁波引入所述腔室；

改变所述反射元件将所述反射元件的取向从第一取向改变为第二取向；

其中所述极化电磁波的主导极化垂直于所述第一取向；并且

其中所述极化电磁波的主导极化平行于所述第二取向。

14.根据权利要求1所述的计算机实施方法，还包括：

使用来自所述红外传感器的数据将所述物品分割为一组区段；

其中所述凸优化求解器是非负最小二乘求解器；

其中表示所述目标状态的数据是目标状态向量；

其中表示所述相应的一组响应的数据是一组响应向量；并且

其中所述一组响应向量中每个响应向量对应于所述一组区段。

15.根据权利要求14所述的计算机实施方法，其中：

所述一组区段包括至少10个元素；并且

所述相应的一组物理配置包括至少10个不同的物理配置。