CN113743442A

CN113743442A - 元学习演化策略黑盒优化分类器

Info

Publication number: CN113743442A
Application number: CN202110590519.XA
Authority: CN
Inventors: D·T·维尔莫特; C·丹尼尔; J·柯尔特
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-05-29
Filing date: 2021-05-28
Publication date: 2021-12-03
Also published as: US12020166B2; DE102021204943A1; US20210374549A1

Abstract

一种用于训练元学习演化策略黑盒优化分类器的计算方法。该方法包括：接收元学习演化策略黑盒优化分类器的一个或多个训练函数和一个或多个初始元学习参数。该方法进一步包括：对来自一个或多个训练函数的所采样的目标函数以及所采样的函数的初始均值进行采样。该方法还包括：针对t=1,…,T中的T数量的步骤，通过在使用初始均值的所采样的目标函数上运行元学习演化策略黑盒优化分类器来计算T数量的均值的集合。该方法还包括：从T数量的均值的集合中计算损失函数。该方法进一步包括：响应于损失函数的特性，更新元学习演化策略黑盒优化分类器的一个或多个初始元学习参数。

Description

元学习演化策略黑盒优化分类器

技术领域

本公开涉及用于训练和提供元学习演化策略黑盒优化分类器（例如，机器学习（ML）算法）的计算方法和计算机系统。

背景技术

黑盒（black box）函数是不知道针对其的分析形式的函数。黑盒函数可能未知或太复杂以至于无法直接建模。已经开发了优化模型来优化黑盒函数。一个现有的黑盒优化器族被称为演化策略（evolution strategy）。演化策略是一种基于演化概念的优化技术。演化策略在非线性或非凸连续优化问题下被使用。

一种已知的演化策略是指数自然演化策略（xNES）。xNES包括搜索分布的指数参数化，以保证不变性。xNES被配置成在不需要显式Fisher信息矩阵的情况下计算自然梯度。另一种演化策略被称为协方差矩阵自适应演化策略（CMA-ES）。CMA-ES使用最大似然原理，该原理增加了成功的候选解和搜索步骤的概率。CMA-ES还记录该策略的分布均值的时间演化的两个不同路径，这两个不同路径以其他方式被称为搜索或演化路径。与其他优化方法相比，CMA-ES对黑盒函数的性质需要更少假设。CMA-ES不需要导数或函数值本身，而是对候选解进行排序（rank）以找到最佳解。

发明内容

根据一个实施例，公开了一种用于训练元学习演化策略黑盒优化分类器的计算方法。该方法包括：接收元学习演化策略黑盒优化分类器的一个或多个训练函数和一个或多个初始元学习参数。该方法进一步包括：对来自一个或多个训练函数的所采样的目标函数以及所采样的函数的初始均值进行采样。该方法还包括：针对t=1,…,T中的T数量的步骤，通过在使用初始均值的所采样的目标函数上运行元学习演化策略黑盒优化分类器来计算T数量的均值的集合。该方法还包括：从T数量的均值的集合中计算损失函数。该方法进一步包括：响应于损失函数的特性，更新元学习演化策略黑盒优化分类器的一个或多个初始元学习参数。

在另一个实施例中，一种用于从具有一个或多个参数的元学习演化策略黑盒优化分类器学习致动器控制命令的计算方法。该计算方法包括：对样本λ的一代进行采样，并且将其变换成经变换的样本λ的一代。该计算方法进一步包括：响应于对经变换的样本λ的所述代的一个或多个函数求值（evaluation），对经变换的样本λ的所述代进行排序。该方法还包括：响应于经变换的样本λ的经排序的代以及一个或多个学习参数，来更新元学习演化策略黑盒优化分类器的一个或多个参数。可以在类似于经学习的演化策略黑盒优化分类器（例如，与经学习的演化策略黑盒优化分类器共享函数特性）的一组目标函数上训练所述一个或多个学习参数。该方法还包括：将从传感器获得的输入信号发送到经更新的元学习演化策略黑盒优化分类器中，以获得被配置成表征所述输入信号的分类的输出信号。该方法还包括：响应于所述输出信号，将致动器控制命令传输到计算机控制的机器的致动器。

在又另一个实施例中，公开了一种用于训练和使用元学习演化策略黑盒优化分类器的计算方法。该计算方法包括：接收一个或多个学习参数，该一个或多个学习参数是在类似于经学习的演化策略黑盒优化分类器（例如，与经学习的演化策略黑盒优化分类器共享函数特性）的一组目标函数上训练的。该计算方法还包括：响应于样本λ的一代，利用一个或多个学习参数来更新元学习演化策略黑盒优化分类器。

附图说明

图1描绘了根据一个实施例的计算机控制的机器与控制系统之间的交互的示意图。

图2描绘了图1的控制系统的示意图，该控制系统被配置成控制载具，该载具可以是部分自主的载具或部分自主的机器人。

图3描绘了图1的控制系统的示意图，该控制系统被配置成控制制造系统（诸如，生产线的一部分）的制造机器（诸如，冲压刀具、刀具或枪钻）。

图4描绘了图1的控制系统的示意图，该控制系统被配置成控制具有至少部分自主模式的电动工具（诸如，电钻或驱动器）。

图5描绘了图1的控制系统的示意图，该控制系统被配置成控制自动化个人助理。

图6描绘了图1的控制系统的示意图，该控制系统被配置成控制监测系统（诸如，控制访问系统或监控系统）。

图7描绘了图1的控制系统的示意图，该控制系统被配置成控制成像系统（诸如，MRI装置、x射线成像装置或超声装置）。

图8描绘了根据一个或多个实施例的用于训练分类器的训练系统的示意图。

图9描绘了根据一个或多个实施例的用于训练分类器（例如，黑盒算法）的计算方法的流程图。

图10描绘了根据一个实施例的用于通过使用元学习演化策略来使用分类器（例如，黑盒算法）的计算方法的流程图。

具体实施方式

本文中描述了本公开的实施例。然而，要理解的是，所公开的实施例仅仅是示例，并且其他实施例可以采取各种替代形式。附图不一定是按比例绘制的；一些特征可以被夸大或最小化以示出特定组件的细节。因此，本文中公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员将理解的，参考附图中的任一个所图示和描述的各种特征可以与一个或多个其他附图中所图示的特征相组合，以产生未明确图示或描述的实施例。所图示的特征的组合提供了典型应用的代表性实施例。然而，对于特定的应用或实现方式，可能期望与本公开的教导一致的特征的各种组合和修改。

图1描绘了计算机控制的机器10与控制系统12之间的交互的示意图。计算机控制的机器10包括致动器14和传感器16。致动器14可以包括一个或多个致动器，并且传感器16可以包括一个或多个传感器。传感器16被配置成感测计算机控制的机器10的状况。传感器16可以被配置成将感测到的状况编码成传感器信号18，并且将传感器信号18传输到控制系统12。传感器16的非限制性示例包括视频、雷达、激光雷达、超声和运动传感器。在一个实施例中，传感器16是光学传感器，其被配置成感测计算机控制的机器10附近的环境的光学图像。

控制系统12被配置成从计算机控制的机器10接收传感器信号18。如下面所阐述的，控制系统12可以进一步被配置成取决于传感器信号来学习致动器控制命令20，并且将致动器控制命令20传输到计算机控制的机器10的致动器14。

如图1中所示，控制系统12包括接收单元22。接收单元22可以被配置成从传感器30接收传感器信号18，并且将传感器信号18变换成输入信号x。在替代实施例中，传感器信号18作为输入信号x被直接接收，而不需要接收单元22。每个输入信号x可以是每个传感器信号18的一部分。接收单元22可以被配置成处理每个传感器信号18以产生每个输入信号x。输入信号x可以包括对应于由传感器16记录的图像的数据。

控制系统12包括分类器24。分类器24可以被配置成使用机器学习（ML）算法（诸如，神经网络或递归神经网络（RNN））来从输入信号x中学习致动器控制命令20。控制系统12可以被配置成训练ML算法。如本文中的一个或多个实施例中所公开的，ML算法可以是用于黑盒优化的元学习演化策略。

分类器24被配置成通过一个或多个参数而被参数化。这些参数可以存储在非易失性存储装置26中并且由非易失性存储装置26提供。分类器24被配置成从输入信号x中确定输出信号y。每个输出信号y包括：向每个输入信号x分配一个或多个标签的信息。分类器24可以将输出信号y传输到转换单元28。转换单元28被配置成将输出信号y转换成致动器控制命令20。控制系统12被配置成将致动器控制命令20传输到致动器14，致动器14被配置成响应于致动器控制命令20而致动计算机控制的机器10。在另一个实施例中，致动器14被配置成直接基于输出信号y来致动计算机控制的机器10。

当致动器14接收到致动器控制命令20时，致动器14被配置成执行对应于相关致动器控制命令20的动作。致动器14可以包括控制逻辑，该控制逻辑被配置成将致动器控制命令20变换成用于控制致动器14的第二致动器控制命令。在一个或多个实施例中，代替于致动器或除了致动器之外，致动器控制命令20还可以用于控制显示器。

在另一个实施例中，代替于包括传感器16的计算机控制的机器10或除了包括传感器16的计算机控制的机器10之外，控制系统12也包括传感器16。代替于包括致动器14的计算机控制的机器10或除了包括致动器14的计算机控制的机器10之外，控制系统12也可以包括致动器14。

如图1中所示，控制系统12还包括处理器30和存储器32。处理器30可以包括一个或多个处理器。存储器32可以包括一个或多个存储器设备。一个或多个实施例的分类器24（例如，ML算法）可以由控制系统12实现，控制系统12包括非易失性存储装置26、处理器30和存储器32。

非易失性存储装置26可以包括一个或多个持久性数据存储设备，诸如硬盘驱动器、光学驱动器、磁带驱动器、非易失性固态设备、云存储装置、或能够持久存储信息的任何其他设备。处理器30可以包括从高性能计算（HPC）系统中选择的一个或多个设备，包括高性能核心、微处理器、微控制器、数字信号处理器、微计算机、中央处理单元、现场可编程门阵列、可编程逻辑设备、状态机、逻辑电路、模拟电路、数字电路、或基于驻留在存储器32中的计算机可执行指令来操纵信号（模拟或数字信号）的任何其他设备。存储器32可以包括单个存储器设备或多个存储器设备，包括但不限于随机存取存储器（RAM）、易失性存储器、非易失性存储器、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、闪速存储器、高速缓冲存储器、或能够存储信息的任何其他设备。

处理器30可以被配置成读入存储器32并且执行计算机可执行指令，该计算机可执行指令驻留在非易失性存储装置26中并且体现了一个或多个实施例的一个或多个ML算法和/或方法。非易失性存储装置26可以包括一个或多个操作系统和应用。非易失性存储装置26可以存储从使用各种编程语言和/或技术创建的计算机程序编译和/或解译的内容，该各种编程语言和/或技术包括但不限于、并且或单独或以组合的形式的Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/SQL。

在由处理器30执行时，非易失性存储装置26的计算机可执行指令可以使控制系统12实现本文中公开的一个或多个ML算法和/或方法。非易失性存储装置26还可以包括支持本文中描述的一个或多个实施例的功能、特征和过程的ML数据（包括数据参数）。

体现了本文中描述的算法和/或方法的程序代码能够以各种不同的形式作为程序产品而单独或共同地分发。程序代码可以使用其上具有计算机可读程序指令的计算机可读存储介质而分发，该计算机可读程序指令用于使处理器执行一个或多个实施例的方面。固有非暂时性的计算机可读存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性以及可移除和不可移除的有形介质，这些方法或技术诸如是计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括：RAM、ROM、可擦除可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM）、闪速存储器或其他固态存储技术、便携式紧凑盘只读存储器（CD-ROM）或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁性存储设备、或可以用于存储期望信息并可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一类型的可编程数据处理装置或另一设备，或者经由网络下载到外部计算机或外部存储设备。

存储在计算机可读介质中的计算机可读程序指令可以用于指导计算机、其他类型的可编程数据处理装置、或其他设备以特定方式运作，使得存储在计算机可读介质中的指令产生包括实现流程图或示图中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中，流程图和示图中指定的功能、动作和/或操作可以被重新排序、串行处理和/或与一个或多个实施例一致地同时处理。此外，流程图和/或示图中的任一个可以包括比与一个或多个实施例一致地图示的那些节点或块更多或更少的节点或块。

这些过程、方法或算法可以使用合适的硬件组件、诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、状态机、控制器或其他硬件组件或设备，或者硬件、软件和固件组件的组合来全部或部分地体现。

图2描绘了控制系统12的示意图，控制系统12被配置成控制载具50，载具50可以是至少部分自主的载具或至少部分自主的机器人。如图2中所示，载具50包括致动器14和传感器16。传感器16可以包括一个或多个视频传感器、雷达传感器、超声传感器、激光雷达传感器和/或位置传感器（例如GPS）。一个或多个特定传感器中的一个或多个可以集成到载具50中。替代于上面标识的一个或多个特定传感器或除了上面标识的一个或多个特定传感器之外，传感器16可以包括被配置成在执行时确定致动器14的状态的软件模块。软件模块的一个非限制性示例包括天气信息软件模块，该天气信息软件模块被配置成确定载具50或其他位置附近的当前或未来天气状态。

载具50的控制系统12的分类器24可以被配置成取决于输入信号x来检测载具50附近的对象。在这样的实施例中，输出信号y可以包括表征载具50的对象附近的信息。可以根据该信息来确定致动器控制命令20。致动器控制命令20可以用于避免与检测到的对象的碰撞。

在其中载具50是至少部分自主的载具的实施例中，致动器14可以体现在载具50的制动器、推进系统、引擎、传动系统或转向装置中。致动器控制命令20可以被确定为使得致动器14被控制成使得载具50避免与检测到的对象的碰撞。检测到的对象还可以根据分类器24认为它们最可能是什么（诸如，行人或树木）而被分类。可以取决于该分类来确定致动器控制命令20。

在其中载具50是至少部分自主的机器人的其他实施例中，载具50可以是移动机器人，其被配置成执行一个或多个功能，诸如飞行、游泳、潜水和步行。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中，致动器控制命令20可以被确定为使得移动机器人的推进单元、转向单元和/或制动单元可以被控制成使得移动机器人可以避免与所标识的对象的碰撞。

在另一个实施例中，载具50是采用园艺机器人形式的至少部分自主的机器人。在这样的实施例中，载具50可以使用光学传感器作为传感器16来确定载具50附近的环境中的植物状态。致动器14可以是被配置成喷洒化学品的喷嘴。取决于植物的所标识的种类和/或所标识的状态，可以确定致动器控制命令20以使致动器14向植物喷洒合适量的合适化学品。

载具50可以是采用家用电器形式的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的载具50中，传感器16可以是光学传感器，其被配置成检测将经历由家庭电器进行处理的对象的状态。例如，在家用电器是洗衣机的情况下，传感器16可以检测洗衣机内的衣物的状态。可以基于检测到的衣物的状态来确定致动器控制命令20。

图3描绘了控制系统12的示意图，控制系统12被配置成控制制造系统102（诸如，生产线的一部分）的制造机器100（诸如，冲压刀具、刀具或枪钻）。控制系统12可以被配置成控制致动器14，致动器14被配置成控制制造机器100。

制造机器100的传感器16可以是光学传感器，其被配置成捕获制造产品104的一个或多个属性。分类器24可以被配置成从一个或多个所捕获的属性中确定制造产品104的状态。致动器14可以被配置成取决于针对制造产品104的后续制造步骤而确定的制造产品104的状态来控制制造机器100。致动器14可以被配置成取决于制造产品104的所确定的状态来控制制造机器100在制造机器100的后续制造产品106上的功能。

图4描绘了控制系统12的示意图，控制系统12被配置成控制具有至少部分自主模式的动力工具150（诸如，电钻或驱动器）。控制系统12可以被配置成控制致动器14，致动器14被配置成控制电动工具150。

电动工具150的传感器16可以是光学传感器，其被配置成捕获工作表面152和/或被驱动到工作表面152中的紧固件154的一个或多个属性。分类器24可以被配置成从一个或多个捕获的属性中确定工作表面152的状态和/或紧固件154相对于工作表面152的状态。状态可以是紧固件154与工作表面152齐平。替代地，状态可以是工作表面154的硬度。致动器14可以被配置成控制电动工具150，使得取决于紧固件154相对于工作表面152的所确定的状态、或工作表面154的一个或多个捕获的属性来调整电动工具150的驱动功能。例如，如果紧固件154的状态相对于工作表面152是齐平的，则致动器14可以中止驱动功能。作为另一个非限制性示例，致动器14可以取决于工作表面152的硬度来施加附加的或更少的扭矩。

图5描绘了控制系统12的示意图，控制系统12被配置成控制自动化个人助理200。控制系统12可以被配置成控制致动器14，致动器14被配置成控制自动化个人助理200。自动化个人助理200可以被配置成控制家用电器，诸如洗衣机、炉子、烤箱、微波炉或洗碗机。

传感器16可以是光学传感器和/或音频传感器。光学传感器可以被配置成接收用户202的手势204的视频图像。音频传感器可以被配置成接收用户202的语音命令。

自动化个人助理200的控制系统12可以被配置成确定致动器控制命令20，致动器控制命令20被配置成控制系统12。控制系统12可以被配置成根据传感器16的传感器信号18来确定致动器控制命令20。自动化个人助理200被配置成将传感器信号18传输到控制系统12。控制系统12的分类器24可以被配置成：执行手势识别算法以标识由用户202做出的手势204，确定致动器控制命令20，并且将致动器控制命令20传输给致动器14。分类器24可以被配置成响应于手势204从非易失性存储装置中检索信息，并且以适合于用户202接收的形式输出检索到的信息。

图6描绘了控制系统12的示意图，控制系统12被配置成控制监测系统250。监测系统250可以被配置成物理地控制通过门252的进入。传感器16可以被配置成检测与决定是否准许进入有关的场景。传感器16可以是光学传感器，其被配置成生成和传输图像和/或视频数据。控制系统12可以使用这样的数据来检测人员的面部。

监测系统250的控制系统12的分类器24可以被配置成通过匹配存储在非易失性存储装置26中的已知人员的身份来解释图像和/或视频数据，由此确定人员的身份。分类器12可以被配置成响应于图像和/或视频数据的解释而生成致动器控制命令20。控制系统12被配置成将致动器控制命令20传输到致动器12。在该实施例中，致动器12可以被配置成响应于致动器控制命令20而将门252锁定或解锁。在其他实施例中，非物理的逻辑进入控制也是可能的。

监测系统250也可以是监控系统。在这样的实施例中，传感器16可以是被配置成检测监控下的场景的光学传感器，并且控制系统12被配置成控制显示器254。分类器24被配置成确定场景的分类，例如，由传感器16检测到的场景是否可疑。控制系统12被配置成响应于该分类而向显示器254传输致动器控制命令20。显示器254可以被配置成响应于致动器控制命令20来调整所显示的内容。例如，显示器254可以突出显示被分类器24认为可疑的对象。

图7描绘了控制系统12的示意图，控制系统12被配置成控制成像系统300（例如，MRI装置、x射线成像装置或超声装置）。传感器16例如可以是成像传感器。分类器24可以被配置成确定感测到的图像的全部或部分的分类。分类器24可以被配置成响应于该分类来确定或选择致动器控制命令20。例如，分类器24可以将感测到的图像的区域解释为是潜在异常的。在这种情况下，可以确定或选择致动器控制命令20以使显示器302显示该成像并且突出显示潜在异常区域。

演化策略已经被用作黑盒函数优化器。演化策略利用迭代黑盒优化方法。演化策略尝试在可行空间X中找到未知（例如，黑盒）损失函数f的全局最小者（minimizer）。等式（1）用代数术语示出该计算。

（1）

现有的演化策略的示例包括指数自然演化策略（xNES）和协方差矩阵自适应演化策略（CMA-ES）。演化策略被配置成：在不调整超参数的情况下对各种各样的目标函数实行优化。现有的演化策略使用预先定义的启发式方法（heuristics）和手动调整的超参数来实行其对其参数的更新。标准的演化策略不使用关于正在被优化的函数的结构的任何知识。因此，利用该知识可能无法改进优化性能。因此，需要一种计算优化方法，该方法通过首先在一组相似的目标函数上进行训练来并入优化问题的先验知识。

在一个或多个实施例中，提出了利用关于函数结构的知识来改进优化性能的计算方法和计算机系统。在一个或多个实施例中，该计算方法和计算机系统使用ML来元学习（metalearn）黑盒优化算法（例如，深度学习）。可以训练递归神经网络（RNN）以实行黑盒优化。在一个实施例中，该计算方法和计算机系统使用深度元学习来改进优化算法在特定函数类上的性能。这样的类可以宽泛地指代类中的函数的属性或特性，诸如函数的求值中的噪声量或一组多项式的次数（degree），或者它可以是非常具体的，诸如从特定实验的数值仿真中产生的函数。该计算方法和计算机系统可以包括元学习参数θ，该元学习参数θ被配置成定义演化策略如何更新其参数。例如，演化策略算法中的静态超参数（例如，学习速率、步长、控制动量的系数、和/或控制在对其参数的更新中给予每个项的权重的系数）可以被转换成可学习的参数。作为另一个示例，对m和σ的启发式更新可以利用ML（例如，神经网络）来进行，在这种情况下，θ表示神经网络的权重和/或偏差。

在一个或多个实施例中，因为由演化策略实行的操作是可微分的，所以该计算方法和计算机系统的演化策略算法被实现到自动微分框架中，其中该算法计算一个值并且自动构造用于计算该值的导数的过程。然后，可以利用梯度下降以监督学习的方式来训练元学习参数θ。

在一个或多个实施例的一个演化策略中，目标函数f：R ⁿ→R被存储在非易失性存储装置354中。存储器358包括在被处理器356执行时执行演化策略的指令，该演化策略被配置成通过迭代地更新以下参数中的一个或多个来优化f：多元高斯N(m,σC)的m∈R ⁿ、σ∈R、C∈R ^n×n。m是均值。σ是步长。C是协方差矩阵。迭代步骤可以被定义为t=1,…,T。在每个步骤t期间，处理器356可以迭代地实行以下步骤。第一步骤可以具有两个迭代的子部分。针对被定义为i=1,…,λ的多个样本迭代地执行这两个子部分。第一子部分是对λ数量的样本进行采样z _i∼N(0,I)，该z _i∼N(0,I)是具有零均值和单位协方差矩阵的多元正态分布，并且以其他方式被称为一代（a generation）。根据N(0,I)进行分布的向量具有独立的(0,1)正态分布的分量。第二子部分是使用以下等式将λ数量的样本z _i∼N(0,I)缩放并移位（shift）成x _i样本：

（2）

在第二迭代步骤中，根据样本x ₁,…,x _λ的函数求值对它们进行排序，使得经排序的样本满足f (x ₁) ≤ f(x ₂) ≤ ⋯ ≤ f(x _λ)。在第三迭代步骤中，根据x ₁,…,x _λ和一个或多个参数θ来更新演化参数m∈R ⁿ、σ∈R、C∈R ^n×n，参数θ是使用一个或多个实施例的训练方法来确定的。作为更新步骤的一部分，可以通过用当前代中样本的加权组合替换高斯的均值m来更新该均值m，其中将更大的权重置于具有更好（即，更小）函数值的样本上。

针对函数f的优化算法可以在函数的训练集上训练，如本文中关于一个或多个实施例所描述的。可以重复针对函数f的优化算法（例如，三个迭代步骤），直到达到终止标准。例如，如果最佳函数值在某个数量的迭代（诸如100次或1000次迭代、或者其之间的任何数量的迭代）之后没有改变，则该过程可以结束。

图8描绘了用于训练分类器24的训练系统350的示意图。在一个或多个实施例中，呈现了计算方法和计算机系统的一个或多个实施例，用于训练可以在图2-7中标识的一个或多个应用中使用的分类器24。例如，分类器24可以利用机器人来实现，以学习实行某个任务或者学习激光器或其他制造工具的最佳参数。

分类器24可以是元演化策略算法。演化策略的一组训练函数（F）和初始元学习参数θ可以存储在非易失性存储装置354中。训练系统350被配置成执行训练过程以找到优化的元学习参数θ。存储器358包括在被处理器356执行时执行训练过程的指令。训练系统350被配置成在一系列步骤中执行训练过程。第一步骤可以是对函数f∈F和初始均值m ^{(0)}∼U[-1,1]ⁿ进行采样。第二步骤可以是：针对t=1,…,T中的T数量的步骤，通过在具有初始均值m ⁽⁰⁾的目标函数f上执行一个或多个实施例的优化算法中的一个来计算均值m ⁽¹⁾,…,m ^(T)。第三步骤可以是从所求值的均值f(m ⁰),…,f(m ^T)中计算损失L以获得标量损失。损失L可以采用损失函数L(f(m ⁰),…,f(m ^T))的形式。第四步骤可以包括使用损失函数的梯度∇_θ L来更新参数θ。可以实行反向传播以关于该损失来训练参数θ。

图9描绘了根据一个实施例的用于使用元学习演化策略来训练分类器24的计算方法（例如，黑盒算法）的流程图400。该计算方法可以使用训练系统350来执行。用于训练分类器24的计算方法可以通过训练过程来表明。

在步骤402中，针对该训练方法接收输入。在一个实施例中，输入包括演化策略的一组训练函数F和初始元学习参数θ。在步骤404中，使用该组训练函数F中的一个或多个。

在步骤404中，对函数f∈F和初始均值m ^{(0)}∼U[-1,1]ⁿ进行采样。在如下所阐述的步骤406中，使用函数采样和初始均值采样。

在步骤406中，通过在具有初始均值m ^{(0)}的目标函数f上运行元学习演化策略算法（例如，图10中标识的算法）来计算均值m ⁽¹⁾,…,m ^(T)。如图9中所示，针对数量为T的步骤来重复步骤406。在如下所阐述的步骤408中，使用在数量为T的步骤之后所计算的均值。

在步骤408中，从在步骤406中计算的均值来计算损失函数。步骤408可以是从所求值的均值f(m ⁰),…,f(m ^T)中计算损失L以获得标量损失。损失L可以采用损失函数L(f(m ⁰),…,f(m ^T))的形式。该损失函数计算中可能包括其他参数。

在步骤410中，使用损失函数的梯度∇_θ L来更新演化策略的元学习参数θ。虽然步骤410使用损失函数的梯度，但在其他实施例中，可以通过梯度下降或其他深度学习优化器（诸如Adam）来实行该步骤。

重复步骤404、406、408和410，直到元学习优化算法收敛，如步骤412中所阐述的。如下所阐述的，在元学习优化算法中使用步骤414的最后更新的元学习参数θ值。

如图9中所示，一次使用一个函数来训练θ。在一个或多个其他实施例中，可以针对小批量（minibatch）函数来运行训练过程，其中小批量大小多达或超过128个函数。在其他实施例中，小批量中的函数数量可以在20到30个之间。在又其他实施例中，小批量中的函数数量可以超过128个。在替代实施例中，可以利用来自分布的样本（例如，来自高斯过程的样本），而不是来自规定的一组训练函数的样本。

图10描绘了根据一个实施例的用于利用元学习演化策略来使用分类器24（例如，黑盒算法）的计算方法的流程图450。该计算方法可以使用控制系统12来执行。

在步骤452中，针对i=1,…,λ，对z _i∼N(0,I)进行采样。在步骤454中，使用等式（2）通过将z _i缩放和移位来对z _i进行变换。如图10中所示，针对i=1,…,λ，重复步骤452和454。步骤456使用经变换的样本x _i。

在步骤456中，根据x _i样本的函数求值来对x _i样本进行排序，使得经排序的样本满足f (x ₁) ≤ f(x ₂) ≤ ⋯ ≤ f(x _λ)。经排序的样本x _i由步骤458使用。

在步骤458中，使用经排序的样本x _i、以及图9的步骤414的最后更新的元学习参数θ值来更新黑盒优化的演化策略参数m、σ和C。

虽然如图10中所示，元演化策略算法运行了固定数量T个步骤，但是它也可能一直运行，直到达到停止标准。图10还呈现了每一代的固定数量λ个样本，但是该数量可以变化，或者可以利用来自前几代的样本。

虽然上面描述了示例性实施例，但是这些实施例并不旨在描述权利要求所涵盖的所有可能形式。说明书中使用的词语是描述性的词语，而不是限制性的词语，并且要理解的是，在不脱离本公开的精神和范围的情况下，可以进行各种改变。如先前所描述的，各种实施例的特征可以被组合以形成可能未被明确描述或说明的本发明的其他实施例。虽然各种实施例可能已经被描述为关于一个或多个期望特性提供了相比于其他实施例或现有技术实现方式的优点或者相比于其他实施例或现有技术实现方式是优选的，但是本领域普通技术人员认识到，可以折衷一个或多个特征或特性以实现期望的整体系统属性，这取决于具体的应用和实现方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、大小、适用性、重量、可制造性、易于组装等。由此，在任何实施例被描述为关于一个或多个特性相比于其他实施例或现有技术实现方式不那么合期望的程度上，这些实施例不在本公开的范围之外，并且对于特定应用而言可能是合期望的。

Claims

1.一种用于训练元学习演化策略黑盒优化分类器的计算方法，所述方法包括：

接收元学习演化策略黑盒优化分类器的一个或多个训练函数和一个或多个初始元学习参数；

对来自所述一个或多个训练函数的所采样的目标函数以及所采样的目标函数的初始均值进行采样；

针对t = 1,…,T中的T数量的步骤，通过在使用所述初始均值的所采样的目标函数上运行元学习演化策略黑盒优化分类器来计算T数量的均值的集合；

从所述T数量的均值的集合中计算损失函数；以及

响应于损失函数的特性，更新元学习演化策略黑盒优化分类器的一个或多个初始元学习参数，以获得经更新的元学习演化策略黑盒优化分类器。

2.根据权利要求1所述的计算方法，进一步包括：

将从传感器获得的输入信号发送到经更新的元学习演化策略黑盒优化分类器中，以获得被配置成表征所述输入信号的分类的输出信号；以及

响应于所述输出信号，将致动器控制命令传输到计算机控制的机器的致动器。

3.根据权利要求1所述的计算方法，其中，损失函数的特性是损失函数的梯度。

4.根据权利要求1所述的计算方法，其中，损失函数的特性是损失函数的梯度下降。

5.根据权利要求1所述的计算方法，其中，更新步骤由深度学习优化器执行。

6.根据权利要求1所述的计算方法，其中，采样步骤、第一计算步骤、第二计算步骤和更新步骤在循环内交互地实行，直到满足停止条件。

7.根据权利要求6所述的计算方法，其中，所述停止条件是元学习演化策略黑盒优化分类器的收敛。

8.一种用于从元学习演化策略黑盒优化分类器学习致动器控制命令的计算方法，所述方法包括：

对样本λ的一代进行采样，并且将其变换成经变换的样本λ的一代；

响应于对经变换的样本λ的所述代的一个或多个函数求值，对经变换的样本λ的所述代进行排序，以获得经变换的样本λ的经排序的代；

响应于经变换的样本λ的经排序的代、以及在与经学习的演化策略黑盒优化分类器共享函数特性的一组目标函数上训练的一个或多个学习参数，来更新元学习演化策略黑盒优化分类器的一个或多个参数，以获得经更新的元学习演化策略黑盒优化分类器；

将从传感器获得的输入信号发送到经更新的元学习演化策略黑盒优化分类器，以获得被配置成表征所述输入信号的分类的输出信号；以及

9.根据权利要求8所述的计算方法，其中，多个参数包括m、σ和C。

10.根据权利要求9所述的计算方法，其中，使用神经网络来更新m和σ。

11.根据权利要求10所述的计算方法，其中，多个学习参数表示神经网络的权重和偏差中的一个或两者。

12.根据权利要求8所述的计算方法，其中，从多元高斯N(m,σC)中产生经变换的样本λ的所述代。

13.根据权利要求8所述的计算方法，其中，所述一个或多个函数求值是一个或多个目标函数求值。

14.根据权利要求8所述的计算方法，其中，经变换的样本λ的经排序的代满足f (x ₁) ≤f(x ₂) ≤ ⋯ ≤ f(x _λ)。

15.一种用于训练和使用元学习演化策略黑盒优化分类器的计算方法，所述方法包括：

接收一个或多个学习参数，所述一个或多个学习参数是在与经学习的演化策略黑盒优化分类器共享函数特性的一组目标函数上训练的；以及

响应于样本λ的一代，利用所述一个或多个学习参数来更新元学习演化策略黑盒优化分类器。

16.根据权利要求15所述的计算方法，进一步包括：

17.根据权利要求15所述的计算方法，其中，多个学习参数包括学习速率。

18.根据权利要求15所述的计算方法，其中，一个或多个学习参数包括神经网络。

19.根据权利要求15所述的计算方法，其中，从多元高斯N(m,σC)中产生样本λ的所述代。

20.根据权利要求15所述的计算方法，其中，更新步骤包括：响应于样本λ的所述代，利用一个或多个学习参数和一个或多个静态参数来更新元学习演化策略黑盒优化分类器。