CN111914862A

CN111914862A - 用于对多目标模型进行训练的训练装置和训练方法

Info

Publication number: CN111914862A
Application number: CN201910384143.XA
Authority: CN
Inventors: 钟朝亮; 夏文升; 石自强; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2020-11-10
Anticipated expiration: 2039-05-09
Also published as: JP7452228B2; CN111914862B; US20200356807A1; JP2020187742A; US11556735B2

Abstract

公开了用于基于目标空间内的目标对多目标模型进行训练的训练装置和训练方法。训练装置包括：目标空间设置单元，对所述目标空间进行设置，以获取具有不同难度级别的多个子目标空间；目标空间改变单元，将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间；采样单元，选取目标作为采样目标，以及通过执行动作来获取与采样目标有关的迁移；训练单元，基于迁移对多目标模型进行训练；以及评估单元，通过计算实现当前的子目标空间内的目标的成功率来对多目标模型进行评估。其中，目标空间改变单元被配置成在成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。

Description

用于对多目标模型进行训练的训练装置和训练方法

技术领域

本公开涉及信息处理领域，具体涉及用于基于目标空间内的目标对多目标模型进行训练的训练装置和方法。

背景技术

强化学习旨在解决智能决策问题。在强化学习框架中，存在代理和环境。代理通过根据其策略和当前状态确定最佳动作来与环境交互。执行动作后，环境将返回回报并根据其状态迁移概率切换到新状态。然后，代理通过使对累积回报的期望最大化来优化其策略。

常规的多目标强化学习方法，例如事后经验回放(Hindsight ExperienceReplay，HER)，仅使用单个目标空间来训练代理解决任务。通常，目标空间包括不同难度级别的目标。对于困难级别较高的目标，常规的多目标强化学习方法可以生成的实现该目标的样本非常少。因而，常规的多目标强化学习方法需要很长时间和大量的训练样本来训练代理实现困难的目标。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练装置和训练方法。

根据本公开的一方面，提供了一种训练装置，其用于基于目标空间内的目标对多目标模型进行训练。该训练装置可以包括：目标空间设置单元，被配置成对目标空间进行设置，以获取具有不同难度级别的多个子目标空间；目标空间改变单元，被配置成将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间；采样单元，被配置成至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与采样目标有关的迁移；训练单元，被配置成基于迁移对多目标模型进行训练；以及评估单元，被配置成通过计算实现当前的子目标空间内的目标的成功率来对多目标模型进行评估，其中，目标空间改变单元被配置成在成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。

根据本公开的另一方面，提供了一种训练方法，其用于基于目标空间内的目标对多目标模型进行训练。该训练方法包括：目标空间设置步骤，用于对目标空间进行设置，以获取具有不同难度级别的多个子目标空间；采样步骤，用于至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与采样目标有关的迁移；训练步骤，用于基于迁移对多目标模型进行训练；评估步骤，用于通过计算实现当前的子目标空间内的目标的成功率来对多目标模型进行评估；以及目标空间改变步骤，用于将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间，其中，在目标空间改变步骤中，在成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品，以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开的实施例的训练装置的功能配置示例的框图；

图2是示出根据本公开的实施例的目标空间划分的示例的图；

图3是示出根据本公开的另外的实施例的训练装置的功能配置示例的框图；

图4示出在根据本公开的实施例的训练方法的流程示例的流程图；

图5示出在根据本公开的另外的实施例的训练方法的流程示例的流程图；以及

图6是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开的实施例的训练装置100的功能配置示例。图1是示出根据本公开的实施例的训练装置100的功能配置示例的框图。如图1所示，根据本公开的实施例的训练装置100可以包括目标空间设置单元102、目标空间改变单元104、采样单元106、训练单元108和评估单元110。

目标空间设置单元102可以被配置成对目标空间进行设置，以获取具有不同难度级别的多个子目标空间。例如，子目标空间的难度级别表示实现子目标空间内的目标的难度，子目标空间的难度级别越高，实现子目标空间内的目标的难度越大。

例示而非限定，在训练机械臂以对物体进行提升的训练过程中，子目标空间的难度级别可以由提升高度决定。此外，例示而非限定，在对自主驾驶和/或辅助驾驶车辆的训练过程中，子目标空间的难度级别可以由道路交通状况决定。在其他训练过程中，本领域技术人员可以根据实际需要而确定子目标空间的难度级别，这里将不再赘述。

目标空间改变单元104可以被配置成将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间。

采样单元106可以被配置成至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与采样目标有关的迁移(transition)，即样本。

例如，采样单元106可以针对所选取的采样目标，通过根据多目标模型和噪声模型执行动作以与环境交互，而获取与采样目标有关的迁移。例示而非限定，可以使用ε贪婪策略(ε-greedy strategy)来确定噪声模型。本领域技术人员可以根据实际需要而采用其他方法确定噪声函数，这里将不再赘述。

训练单元108可以被配置成基于迁移对多目标模型(即，策略)进行训练。作为示例，训练单元108可以随机地选择用于对多目标模型进行训练的迁移或者根据迁移的时间差分误差(temporal difference error)而选择用于对多目标模型进行训练的迁移。然而，选择用于对多目标模型进行训练的迁移的方法不限于此。

例示而非限定，训练单元108可以被配置成使用HER算法来基于迁移对多目标模型进行训练。在使用HER算法来对多目标模型进行训练的情况下，可以使用四元组(s_t||g,a_t,r_t,s_t+1||g)表示迁移，其中s_t表示在时间步骤t的状态，a_t表示要在时间步骤t执行的动作，r_t表示通过在时间步骤t执行动作a_t所获得的回报，s_t+1表示在时间步骤t+1的状态，并且g表示采样目标。

评估单元110可以被配置成通过计算实现当前的子目标空间内的目标的成功率来对多目标模型进行评估。作为示例，评估单元110可以通过在没有噪声的情况下执行动作以获取多个执行结果，例如回合(episode)，来计算成功率。在这种情况下，成功率可以被计算为成功的回合的数目与所获取的全部回合的数目的比率。

具体地，在针对目标空间的训练开始时，待处理的子目标空间可以被设置为具有最低难度级别的子目标空间。在通过评估单元110所计算出的实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，目标空间改变单元104可以将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间。在通过评估单元110所计算出的实现当前的子目标空间内的目标的成功率不大于预定阈值的情况下，例如，可以继续执行针对当前的子目标空间的处理。例如，在当前的子目标空间为难度级别等于1的子目标空间1的情形下，在实现当前的子目标空间1内的目标的成功率大于预定阈值的情况下，目标空间改变单元104可以将待处理的子目标空间从当前的子目标空间1改变为难度级别为2的子目标空间2，并且在实现当前的子目标空间1内的目标的成功率不大于预定阈值的情况下，例如，可以继续执行针对当前的子目标空间1的处理。

例示而非限定，在实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，目标空间改变单元104可以自动地将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间。

此外，在开始对下一子目标空间的处理之前，可以对噪声模型的相关参数进行重新初始化。例如，在使用ε贪婪策略来确定噪声模型的情况下，可以将ε重新初始化为1。

作为示例，目标空间设置单元102可以被配置成预先对目标空间进行划分，以获取具有不同难度级别的多个子目标空间。例如，目标空间设置单元102可以被配置成预先对目标空间进行划分，以获取难度级别为1的子目标空间1、难度级别为2的子目标空间2……难度级别为n的子目标空间n，其中n为大于或等于2的正整数。例示而非限定，在训练机械臂以对物体进行提升的训练过程中，目标空间设置单元102可以被配置成预先根据提升高度对目标空间进行划分，以获取具有不同难度级别的多个子目标空间。例如，参见图2，其示出根据本公开的实施例的目标空间划分的示例。在图2中，根据提升高度z将目标空间划分为以下5个子目标空间：难度级别为1的子目标空间1(z＝0m)；难度级别为2的子目标空间2(0m＜z≤0.01m)；难度级别为3的子目标空间3(0.01m＜z≤0.02m)；难度级别为4的子目标空间4(0.02m＜z≤0.04m)；以及难度级别为5的子目标空间5(0.04m＜z≤0.08m)。

作为另外的示例，目标空间设置单元102可以被配置成在实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，通过计算已实现的目标的分布，利用目标空间内的距离该分布的中心预定距离的目标来获取下一子目标空间。此外，本领域技术人员可以通过其他方式对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，这里将不再赘述。

在目标空间设置单元102通过计算已实现的目标的分布、利用目标空间内的距离该分布的中心预定距离的目标来获取下一子目标空间情况下，需要指定目标空间的具体范围，以便在获取下一子目标空间时，将不在目标空间内的异常值去除。例如，在目标空间被构造为圆形或球形的情况下，需要指定目标空间的最大半径，以便在获取下一子目标空间时，将距目标空间的圆心的距离大于最大半径的异常值去除。

例示而非限定，可以根据目标空间的具体范围确定预定距离。此外，用于获取不同子目标空间的预定距离可以是相同的，也可以是不同的。

优选地，采样单元106可以被配置成还从经处理的子目标空间选取目标作为采样目标。也就是说，采样单元106可以被配置成从当前的子目标空间和经处理的子目标空间两者选取目标作为采样目标。例如，经处理的子目标空间是如下子目标空间：已经针对该子目标空间执行训练过程。优选地，经处理的子目标空间是如下子目标空间：已经针对该子目标空间执行训练过程，并且实现该子目标空间内的目标的成功率大于预定阈值。例示而非限定，在当前的子目标空间为子目标空间3时，采样单元106可以被配置成从当前的子目标空间3以及经处理的子目标空间1和子目标空间2选取目标作为采样目标。通过从当前的子目标空间和经处理的子目标空间两者选取目标作为采样目标，可以使得学习更为平滑。

作为示例，采样单元106可以被配置成分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标，以及其中，第一概率和第二概率之和为100％。例示而非限定，第一概率和第二概率可以分别为50％和50％。此外，本领域技术人员可以根据实际需要而选择其他合适的第一概率和第二概率。

根据本公开的该实施例的训练装置对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，并且根据难度级别顺序地处理所获取的多个子目标空间，使得能够减少多目标模型训练所需要的迁移和所花费时间，从而能够提高训练效率。

接下来，将参照图3描述根据本公开的另外的实施例的训练装置300的功能配置示例。图3是示出根据本公开的另外的实施例的训练装置300的功能配置示例的框图。如图3所示，根据本公开的另外的实施例的训练装置300可以包括目标空间设置单元302、目标空间改变单元304、采样单元306、训练单元308、评估单元310和优先级设置单元312。

根据本公开的该实施例的训练装置300中包括的目标空间设置单元302、目标空间改变单元304、采样单元306和评估单元310与根据本公开的上述实施例的训练装置100中包括的目标空间设置单元102、目标空间改变单元104、采样单元106和评估单元110类似，为了简洁起见，这里将不再重复描述。

优先级设置单元312可以被配置成对迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级。

作为示例，优先级设置单元312可以被配置成基于与迁移相对应的目标的难度系数而设置迁移的优先级。例如，与迁移相对应的目标的难度系数越高，迁移的优先级越高。例如，与迁移相对应的目标的难度系数可以与该目标所在的子目标空间的难度级别相关，并且同一子目标空间内的目标可以具有不同难度系数。相应地，例如，与同一子目标空间内的目标相对应的迁移可以具有不同的优先级。此外，例如，难度级别低的子目标空间内的每个目标的难度系数可以均低于难度级别高的子目标空间内的任何目标的难度系数。相应地，例如，与难度级别低的子目标空间内的目标相对应的每个迁移的优先级可以均低于与难度级别高的子目标空间内的目标相对应的任何迁移的优先级。

例示而非限定，在训练机械臂以对物体进行提升的训练过程中，优先级设置单元312可以被配置成根据迁移所对应的目标提升高度而设置迁移的优先级。例如，优先级设置单元312可以被配置成将迁移的优先级设置为迁移所对应的目标提升高度。例如，在迁移所对应的目标提升高度为0.01m的情况下，优先级设置单元312可以将迁移的优先级设置为0.01；在迁移所对应的目标提升高度为0.02m的情况下，优先级设置单元312可以将迁移的优先级设置为0.02；在迁移所对应的目标提升高度为0.04m的情况下，优先级设置单元312可以将迁移的优先级设置为0.04；在迁移所对应的目标提升高度为0.08m的情况下，优先级设置单元312可以将迁移的优先级设置为0.08；依此类推。

作为另外的示例，优先级设置单元312可以被配置成基于迁移的时间差分误差和与迁移相对应的目标的难度系数而设置迁移的优先级。例如，可以根据下面的式(1)而计算迁移的优先级

其中，δ表示迁移的时间差分误差，d表示与迁移相对应的目标的难度系数，以及其中，0≤λ≤1。可以根据实际需要而设置λ的值。λ越小，则表示在设置优先级时，与迁移相对应的目标的难度系数所起的决定作用越大。在λ为0的情况下，迁移的优先级仅和与迁移相对应的目标的难度系数相关联，而在λ为1的情况下，迁移的优先级仅和迁移的时间差分误差相关联。

训练单元308可以基于迁移的优先级而选择用于对多目标模型进行训练的迁移。例如，优先级越高，则迁移被选择用于对多目标模型进行训练的概率越大。作为示例，训练单元308可以根据与当前的目标空间相关的所有迁移的优先级计算迁移t的优先级分布系数，并且基于迁移t的优先级分布系数而选择用于对多目标模型进行训练的迁移。例如，迁移t的优先级分布系数越大，则迁移t被选择用于对多目标模型进行训练的概率越大。例如，训练单元308可以根据下面的式(2)而计算迁移t的优先级分布系数P(t)。

其中，α表示优先级因子，并且α≥0。可以根据实际需要而设置α的值。α越大，则表示在选择用于对多目标模型进行训练的迁移时，优先级所起的决定作用越大。在α为0的情况下，训练单元308与迁移的优先级无关地选择用于对多目标模型进行训练的迁移，类似于根据本公开的上述实施例的训练装置100中的训练单元108。

根据本公开的该实施例的训练装置与根据本公开的上述实施例的训练装置类似地，对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，并且根据难度级别顺序地处理所获取的多个子目标空间，使得能够减少多目标模型训练所需要的迁移和所花费时间，从而能够提高训练效率。此外，根据本公开的该实施例的训练装置对迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，并且基于迁移的优先级而选择用于对多目标模型进行训练的迁移，使得与实现具有更高难度系数的目标相对应的迁移被选择作为用于对多目标模型进行训练的迁移的可能性更大，因而可以进一步提高训练效率。

与上述对多目标模型进行训练的装置实施例相对应的，本公开还提供了以下对多目标模型进行训练的方法的实施例。

图4是示出根据本公开的实施例的训练方法400的流程示例的流程图。如图4所示，根据本公开的实施例的训练方法400包括开始步骤S401、目标空间设置步骤S402、采样步骤S404、训练步骤S406、评估步骤S408目标空间改变步骤S410以及结束步骤S412。

在目标空间设置步骤S402中，对目标空间进行设置，以获取具有不同难度级别的多个子目标空间。其中，子目标空间的难度级别表示实现子目标空间内的目标的难度，子目标空间的难度级别越高，实现子目标空间内的目标的难度越大。

例示而非限定，在训练机械臂以对物体进行提升的训练过程中，子目标空间的难度级别可以由提升高度确定。此外，例示而非限定，在对自主驾驶和/或辅助驾驶车辆的训练过程中，子目标空间的难度级别可以由道路交通状况确定。在其他训练过程中，本领域技术人员可以根据实际需要而确定子目标空间的难度级别，这里将不再赘述。

在采样步骤S404中，至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与采样目标有关的迁移，即样本。

具体地，在采样步骤S404中，可以针对所选取的采样目标，通过根据多目标模型和噪声模型执行动作以与环境交互，而获取与采样目标有关的迁移。例示而非限定，可以使用ε贪婪策略来确定噪声模型。本领域技术人员可以根据实际需要而采用其他方法确定噪声函数，这里将不再赘述。

在训练步骤S406中，基于迁移对多目标模型(即，策略)进行训练。作为示例，在训练步骤S406中，可以随机地选择用于对多目标模型进行训练的迁移或者根据迁移的时间差分误差而选择用于对多目标模型进行训练的迁移。然而，选择用于对多目标模型进行训练的迁移的方法不限于此。

例示而非限定，在训练步骤S406中，可以使用HER算法来基于迁移对多目标模型进行训练。在使用HER算法来对多目标模型进行训练的情况下，可以使用四元组(s_t||g,a_t,r_t,s_t+1||g)表示迁移，其中s_t表示在时间步骤t的状态，a_t表示要在时间步骤t执行的动作，r_t表示通过在时间步骤t执行动作a_t所获得的回报，s_t+1表示在时间步骤t+1的状态，并且g表示采样目标。

在评估步骤S408中，通过计算实现当前的子目标空间内的目标的成功率来对多目标模型进行评估。作为示例，评估步骤S408可以通过在没有噪声的情况下执行动作以获取多个执行结果，例如回合，来计算成功率。在这种情况下，成功率可以被计算为成功的回合的数目与所获取的全部回合的数目的比率。

在目标空间改变步骤S410中，在实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间。在实现当前的子目标空间内的目标的成功率不大于预定阈值的情况下，例如，可以继续执行针对当前子目标空间的处理。

具体地，在针对目标空间的训练开始时，待处理的子目标空间可以被设置为具有最低难度级别的子目标空间。在评估步骤S408中所计算出的实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，待处理的子目标空间可以从当前的子目标空间改变为具有更高难度级别的下一子目标空间。例如，在当前的子目标空间为难度级别等于1的子目标空间1的情况下，在实现当前的子目标空间1内的目标的成功率大于预定阈值的情况下，待处理的子目标空间可以从当前的子目标空间1改变为难度级别为2的子目标空间2。

例示而非限定，在实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，待处理的子目标空间可以自动地从当前的子目标空间改变为具有更高难度级别的下一子目标空间。

作为示例，在目标空间设置步骤S402中，可以预先对目标空间进行划分，以获取具有不同难度级别的多个子目标空间。例如，在目标空间设置步骤S402中，可以预先对目标空间进行划分，以获取难度级别为1的子目标空间1、难度级别为2的子目标空间2……难度级别为n的子目标空间n，其中n为大于或等于2的正整数。例示而非限定，在训练机械臂以对物体进行提升的训练过程中，在目标空间设置步骤S402中，可以预先根据提升高度对目标空间进行划分，以获取具有不同难度级别的多个子目标空间。例如，参见图2所示出的根据本公开的实施例的目标空间划分的示例。

作为另外的示例，在实现当前的子目标空间内的目标的成功率大于预定阈值的情况下，在目标空间设置步骤S402中，通过计算已实现的目标的分布，利用目标空间内的距离该分布的中心预定距离的目标来获取下一子目标空间。此外，本领域技术人员可以通过其他方式对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，这里将不再赘述。

在通过计算已实现的目标的分布、利用目标空间内的距离该分布的中心预定距离的目标来获取下一子目标空间情况下，需要指定目标空间的具体范围，以便在获取下一子目标空间时，将不在目标空间内的异常值去除。例如，在目标空间被构造为圆形或球形的情况下，需要指定目标空间的最大半径，以便在获取下一子目标空间时，将距目标空间的圆心的距离大于最大半径的异常值去除。

优选地，在采样步骤S404中，还从经处理的子目标空间选取目标作为采样目标。也就是说，在采样步骤S404中，从当前的子目标空间和经处理的子目标空间两者选取目标作为采样目标。例如，经处理的子目标空间是如下子目标空间：已经针对该子目标空间执行训练过程。优选地，经处理的子目标空间是如下子目标空间：已经针对该子目标空间执行训练过程，并且实现该子目标空间内的目标的成功率大于预定阈值。例示而非限定，在当前的子目标空间为子目标空间3时，可以从当前的子目标空间3以及经处理的子目标空间1和子目标空间2选取目标作为采样目标。通过从当前的子目标空间和经处理的子目标空间两者选取目标作为采样目标，可以使得学习更为平滑。

作为示例，在采样步骤S404中，分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标，以及其中，第一概率和第二概率之和为100％。例示而非限定，第一概率和第二概率可以分别为50％和50％。此外，本领域技术人员可以根据实际需要而选择其他合适的第一概率和第二概率。

根据本公开的该实施例的训练方法对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，并且根据难度级别顺序地处理所获取的多个子目标空间，使得能够减少多目标模型训练所需要的迁移和所花费时间，从而能够提高训练效率。

接下来，将参照图5描述根据本公开的另外的实施例的训练方法的功能配置示例。图5是示出根据本公开的另外的实施例的训练方法的流程示例的流程图。如图5所示，根据本公开的另外的实施例的训练方法500可以包括开始步骤S501、目标空间设置步骤S502、采样步骤S504、优先级设置步骤S505、训练步骤S506、评估步骤S508、目标空间改变步骤S510以及结束步骤S512。

根据本公开的该实施例的训练方法500中包括的目标空间设置步骤S502、采样步骤S504、评估步骤S508和目标空间改变步骤S510中的处理与根据本公开的上述实施例的训练方法400中包括的目标空间设置步骤S402、采样步骤S404、评估步骤S408和目标空间改变步骤S410中的处理类似，为了简洁起见，这里将不再重复描述。

在优先级设置步骤S505中，对迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级。

作为示例，在优先级设置步骤S505中，可以基于与迁移相对应的目标的难度系数而设置迁移的优先级。例如，与迁移相对应的目标的难度系数越高，迁移的优先级越高。例如，与迁移相对应的目标的难度系数可以与该目标所在的子目标空间的难度级别相关，并且同一子目标空间内的目标可以具有不同难度系数。相应地，例如，与同一子目标空间内的目标相对应的迁移可以具有不同的优先级。此外，例如，难度级别低的子目标空间内的每个目标的难度系数可以均低于难度级别高的子目标空间内的任何目标的难度系数。相应地，例如，与难度级别低的子目标空间内的目标相对应的每个迁移的优先级可以均低于与难度级别高的子目标空间内的目标相对应的任何迁移的优先级。

作为示例，在训练机械臂以对物体进行提升的训练过程中，在优先级设置步骤S505中，可以根据迁移所对应的目标提升高度而设置迁移的优先级。例如，在优先级设置步骤S505中，可以将迁移的优先级设置为迁移所对应的目标提升高度。例如，在迁移所对应的目标提升高度为0.01m的情况下，优先级设置单元312可以将迁移的优先级设置为0.01；在迁移所对应的目标提升高度为0.02m的情况下，优先级设置单元312可以将迁移的优先级设置为0.02；在迁移所对应的目标提升高度为0.04m的情况下，优先级设置单元312可以将迁移的优先级设置为0.04；在迁移所对应的目标提升高度为0.08m的情况下，优先级设置单元312可以将迁移的优先级设置为0.08；依此类推。

作为另外的示例，在优先级设置步骤S505中，可以基于迁移的时间差分误差和与迁移相对应的目标的难度系数而设置迁移的优先级。例如，可以根据在上面的装置实施例中描述的式(1)而计算迁移的优先级

可以根据实际需要而设置λ的值。λ越小，则表示在设置优先级时，与迁移相对应的目标的难度系数所起的决定作用越大。在λ为0的情况下，迁移的优先级仅和与迁移相对应的目标的难度系数相关联，而在λ为1的情况下，迁移的优先级仅和迁移的时间差分误差相关联。

在训练步骤S506中，可以基于迁移的优先级而选择用于对多目标模型进行训练的迁移。作为示例，在训练步骤S506中，可以根据与当前的目标空间相关的所有迁移的优先级计算迁移t的优先级分布系数，并且基于迁移t的优先级分布系数而选择用于对多目标模型进行训练的迁移。其中，迁移t的优先级分布系数P(t)越大，则迁移t被选择用于对多目标模型进行训练的概率越大。例如，在训练步骤S506中，可以根据在上面的装置实施例中描述的式(2)而计算迁移t的优先级分布系数P(t)。

可以根据实际需要而设置α的值。α越大，则表示在选择用于对多目标模型进行训练的迁移时，优先级所起的决定作用越大。在α为0的情况下，在训练步骤S506中，与迁移的优先级无关地选择用于对多目标模型进行训练的迁移，类似于根据本公开的上述实施例的训练方法400中的训练步骤S408。

根据本公开的该实施例的训练方法与根据本公开的上述实施例的训练方法类似地，对目标空间进行设置，以获取具有不同难度级别的多个子目标空间，并且根据难度级别顺序地处理所获取的多个子目标空间，使得能够减少多目标模型训练所需要的迁移和所花费时间，从而能够提高训练效率。此外，根据本公开的该实施例的训练方法对迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，并且基于迁移的优先级而选择用于对多目标模型进行训练的迁移，使得与实现具有更高难度系数的目标相对应的迁移被选择作为用于对多目标模型进行训练的迁移的可能性更大，因而可以进一步提高训练效率。

应指出，尽管以上描述了根据本公开的实施例的训练装置和方法的功能配置和操作，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的方法实施例是与上述装置实施例相对应的，因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述，在此不再重复描述。

此外，本公开还提供了存储介质和程序产品。应理解，根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述训练方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图6所示的通用个人计算机600安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU 601执行各种处理等时所需的数据。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，包括键盘、鼠标等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分608，包括硬盘等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等。通信部分609经由网络比如因特网执行通信处理。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 602、存储部分608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

方案1.一种训练装置，用于基于目标空间内的目标对多目标模型进行训练，所述训练装置包括：

目标空间设置单元，用于对所述目标空间进行设置，以获取具有不同难度级别的多个子目标空间；

目标空间改变单元，用于将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间；

采样单元，用于至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与所述采样目标有关的迁移；

训练单元，用于基于所述迁移对所述多目标模型进行训练；以及

评估单元，用于通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估，

其中，所述目标空间改变单元被配置成在所述成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。

方案2.根据方案1所述的训练装置，其中，所述目标空间设置单元被配置成预先对所述目标空间进行划分，以获取具有不同难度级别的所述多个子目标空间。

方案3.根据方案1所述的训练装置，其中，所述目标空间设置单元被配置成在所述成功率大于预定阈值的情况下，通过计算已实现的目标的分布，利用所述目标空间内的距离所述分布的中心预定距离的目标来获取下一子目标空间。

方案4.根据方案1至3中任一项所述的训练装置，其中，所述采样单元被配置成还从经处理的子目标空间选取目标作为采样目标。

方案5.根据方案4所述的训练装置，其中，所述采样单元被配置成分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标，以及其中，所述第一概率和所述第二概率之和为100％。

方案6.根据方案1至3中任一项所述的训练装置，其中，所述训练装置还包括优先级设置单元，所述优先级设置单元被配置成对所述迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，

其中，所述训练单元被配置成基于所述迁移的优先级而选择用于对所述多目标模型进行训练的迁移。

方案7.根据方案6所述的训练装置，其中，所述优先级设置单元基于所述迁移的时间差分误差和与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案8.根据方案6所述的训练装置，其中，所述优先级设置单元基于与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案9.根据方案4所述的训练装置，其中，所述训练装置还包括优先级设置单元，所述优先级设置单元被配置成对所述迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，

方案10.根据方案9所述的训练装置，其中，所述优先级设置单元基于所述迁移的时间差分误差和与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案11.根据方案9所述的训练装置，其中，所述优先级设置单元基于与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案12.一种训练方法，用于基于目标空间内的目标对多目标模型进行训练，所述方法包括：

目标空间设置步骤，用于对所述目标空间进行设置，以获取具有不同难度级别的多个子目标空间；

采样步骤，用于至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与所述采样目标有关的迁移；

训练步骤，用于基于所述迁移对所述多目标模型进行训练；

评估步骤，用于通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估；以及

目标空间改变步骤，用于将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间，

其中，在所述目标空间改变步骤中，在所述成功率大于预定阈值的情况下，将待处理的子目标空间从当前的子目标空间改变到具有更高难度级别的下一子目标空间。

方案13.根据方案12所述的训练方法，其中，在所述目标空间设置步骤中，预先对所述目标空间进行划分，以获取具有不同难度级别的所述多个子目标空间。

方案14.根据方案12所述的训练方法，其中，在所述成功率大于预定阈值的情况下，在所述目标空间设置步骤中，通过计算已实现的目标的分布，利用所述目标空间内的距离所述分布的中心预定距离的目标来获取下一子目标空间。

方案15.根据方案12至14中任一项所述的训练方法，其中，在所述采样步骤中，还从经处理的子目标空间选取目标作为采样目标。

方案16.根据方案15所述的训练方法，其中，在所述采样步骤中，分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标，以及其中，所述第一概率和所述第二概率之和为100％。

方案17.根据方案12至14中任一项所述的训练方法，其中，所述训练方法还包括优先级设置步骤，用于对所述迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，

其中，在所述训练步骤中，基于所述迁移的优先级而选择用于对所述多目标模型进行训练的迁移。

方案18.根据方案17所述的训练方法，其中，在所述优先级设置步骤中，基于所述迁移的时间差分误差和与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案19.根据方案17所述的训练方法，其中，在所述优先级设置步骤中，基于与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

方案20.一种存储有程序指令的计算机可读存储介质，当所述程序指令被计算机执行时用于执行方案12-19所述的方法。

尽管上面已经通过对本公开的具体实施方式的描述对本公开进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开的保护范围内。

Claims

1.一种训练装置，用于基于目标空间内的目标对多目标模型进行训练，所述训练装置包括：

目标空间设置单元，被配置成对所述目标空间进行设置，以获取具有不同难度级别的多个子目标空间；

目标空间改变单元，被配置成将待处理的子目标空间从当前的子目标空间改变为具有更高难度级别的下一子目标空间；

采样单元，被配置成至少从当前的子目标空间选取目标作为采样目标，以及通过执行动作来获取与所述采样目标有关的迁移；

训练单元，被配置成基于所述迁移对所述多目标模型进行训练；以及

评估单元，被配置成通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估，

2.根据权利要求1所述的训练装置，其中，所述目标空间设置单元被配置成预先对所述目标空间进行划分，以获取具有不同难度级别的所述多个子目标空间。

3.根据权利要求1所述的训练装置，其中，所述目标空间设置单元被配置成在所述成功率大于预定阈值的情况下，通过计算已实现的目标的分布，利用所述目标空间内的距离所述分布的中心预定距离的目标来获取下一子目标空间。

4.根据权利要求1至3中任一项所述的训练装置，其中，所述采样单元被配置成还从经处理的子目标空间选取目标作为采样目标。

5.根据权利要求4所述的训练装置，其中，所述采样单元被配置成分别以第一概率和第二概率从当前的子目标空间和经处理的子目标空间选取目标作为采样目标，以及其中，所述第一概率和所述第二概率之和为100％。

6.根据权利要求1至3中任一项所述的训练装置，其中，所述训练装置还包括优先级设置单元，所述优先级设置单元被配置成对所述迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，

7.根据权利要求6所述的训练装置，其中，所述优先级设置单元基于所述迁移的时间差分误差和与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

8.根据权利要求6所述的训练装置，其中，所述优先级设置单元基于与所述迁移相对应的目标的难度系数而设置所述迁移的优先级。

9.一种训练方法，用于基于目标空间内的目标对多目标模型进行训练，所述方法包括：

训练步骤，用于基于所述迁移对所述多目标模型进行训练；

评估步骤，用于通过计算实现当前的子目标空间内的目标的成功率来对所述多目标模型进行评估，以及

10.根据权利要求9所述的训练方法，其中，所述方法还包括优先级设置步骤，用于对所述迁移设置优先级，使得与实现具有更高难度系数的目标相对应的迁移具有更高的优先级，