CN117973554A

CN117973554A - 视觉变化环境的强化学习泛化方法及装置

Info

Publication number: CN117973554A
Application number: CN202311865731.8A
Authority: CN
Inventors: 张启超; 孙敬博; 赵冬斌
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-05-03

Abstract

本发明提供一种视觉变化环境的强化学习泛化方法及装置，包括：将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中；使用增强函数对原始状态进行增强，得到原始状态对应的增强状态；对原始状态以及增强状态分别加入显著性引导信息，结合回放池中的数据以及增强状态获取智能体的价值一致性损失，基于价值一致性损失更新智能体的价值网络及表征网络；获取原始状态以及增强状态对应的智能体的策略一致性损失，基于策略一致性损失更新智能体的策略网络；通过动力学模型获取原始状态以及增强状态对应的智能体的动力学损失，基于动力学损失更新智能体的表征网络与动力学模型。

Description

视觉变化环境的强化学习泛化方法及装置

技术领域

本发明涉及强化学习技术领域，尤其涉及一种视觉变化环境的强化学习泛化方法及装置。

背景技术

近年来，基于视觉输入的强化学习在各种应用中取得了巨大成功，如视频游戏、机器人操纵和自主导航等。然而，将当前环境学习到的策略推广到新的变化环境中仍然具有较大挑战性。例如，当与任务无关的视觉输入的变化很容易干扰智能体的注意力与决策动作，从而影响强化学习算法的性能。

发明内容

本发明提供一种视觉变化环境的强化学习泛化方法及装置，用以提高基于视觉输入的强化学习的泛化性。

本发明提供一种视觉变化环境的强化学习泛化方法，应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入的图像数据，智能体的动作为控制目标的控制变量，包括：

将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中；

使用增强函数对所述回放池中的原始状态进行增强，得到所述回放池中的原始状态对应的增强状态；

对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失，基于所述价值一致性损失更新智能体的价值网络及表征网络；

获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，基于所述策略一致性损失更新智能体的策略网络；

通过动力学模型获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，基于所述动力学损失更新智能体的表征网络与动力学模型。

根据本发明提供的一种视觉变化环境的强化学习泛化方法，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失，包括：

对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图；

根据所述回放池中的当前时刻智能体的原始状态以及当前时刻智能体的动作，得到智能体的第一预测价值；

根据所述回放池中的当前时刻智能体的环境奖励、下一时刻智能体的原始状态以及下一时刻智能体的动作，得到智能体的目标价值；

根据智能体的所述第一预测价值以及所述目标价值，得到智能体的原始状态价值损失；

根据当前时刻智能体的所述增强状态以及所述回放池中的当前时刻智能体的动作，得到智能体的第二预测价值；

根据智能体的所述第一预测价值以及所述目标价值，得到智能体的增强状态价值损失；

根据当前时刻智能体的所述第一显著性图以及所述回放池中的当前时刻智能体的动作，得到智能体的第三预测价值；

根据智能体的所述第一预测价值以及所述第三预测价值，得到智能体的原始状态显著性引导一致性损失；

根据当前时刻智能体的所述第二显著性图以及所述回放池中的当前时刻智能体的动作，得到智能体的第四预测价值；

根据智能体的所述第二预测价值以及所述第四预测价值，得到智能体的增强状态显著性引导一致性损失；

根据智能体的所述原始状态价值损失、所述增强状态价值损失、所述原始状态显著性引导一致性损失、所述增强状态显著性引导一致性损失以及价值一致性系数，得到智能体的价值一致性损失。

根据本发明提供的一种视觉变化环境的强化学习泛化方法，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图，包括：

获取所述回放池中的原始状态对应的第一显著性梯度图；

将所述第一显著性梯度图中等于或高于预设阈值的像素值置为1，将小于预设阈值的像素值置为0，得到具有显著性的区域的第一显著性属性图，并将所述第一显著性属性图作为所述回放池中的原始状态的显著性引导信息，得到所述回放池中的原始状态对应的第一显著性图；

获取所述增强状态对应的第二显著性梯度图；

将所述第二显著性梯度图中等于或高于预设阈值的像素值置为1，将小于预设阈值的像素值置为0，得到具有显著性的区域的第二显著性属性图，并将所述第二显著性属性图作为所述增强状态的显著性引导信息，得到所述增强状态对应的第二显著性图。

根据本发明提供的一种视觉变化环境的强化学习泛化方法，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，包括：

获取所述回放池中的原始状态对应的策略损失；

获取所述回放池中的原始状态与所述增强状态之间的策略约束损失；

根据所述策略损失、所述策略约束损失以及策略一致性系数，得到智能体的策略一致性损失。

根据本发明提供的一种视觉变化环境的强化学习泛化方法，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，包括：

通过动力学模型，获取所述回放池中的原始状态对应的第一动力学损失；

通过动力学模型，获取所述增强状态对应的第二动力学损失；

根据所述第一动力学损失以及所述第二动力损失，得到智能体的动力学损失。

根据本发明提供的一种视觉变化环境的强化学习泛化方法，还包括：

初始化智能体的网络参数、增强函数、价值一致性系数以及策略一致性系数，所述网络参数包括价值网络参数、策略网络参数、表征网络参数及动力学模型参数。

本发明还提供一种视觉变化环境的强化学习泛化装置，应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入的图像数据，智能体的动作为控制目标的控制变量，包括：

数据收集模块，用于将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中；

状态增强模块，用于使用增强函数对所述回放池中的原始状态进行增强，得到所述回放池中的原始状态对应的增强状态；

价值网络更新模块，用于对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取价值一致性损失，基于所述价值一致性损失更新智能体的价值网络及表征网络；

策略网络更新模块，用于获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，基于所述策略一致性损失更新智能体的策略网络；

表征网络更新模块，用于通过动力学模型获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，基于所述动力学损失更新智能体的表征网络与动力学模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述视觉变化环境的强化学习泛化方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述视觉变化环境的强化学习泛化方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述视觉变化环境的强化学习泛化方法的步骤。

本发明提供的视觉变化环境的强化学习泛化方法及装置，通过使用价值一致性损失更新价值函数，对于原始状态和增强状态进行价值训练的同时加入显著性引导信息训练，同时使用原始状态和增强状态训练价值网络及表征网络，并使用显著性图分别对于两种状态进行显著性引导。通过这种方式让智能体关注到准确又一致的任务相关区域；使用策略一致性损失的更新方式训练策略网络，在进行策略更新的同时限制智能体对于原始状态和增强状态做出的策略分布间的KL散度。通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策；对于原始状态和增强状态使用动力学损失作为辅助任务训练表征网络与动力学模型，让智能体对于原始状态和增强状态产生的表征符合环境的状态转移，通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策，如此提升了智能体的视觉泛化能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视觉变化环境的强化学习泛化方法的流程示意图；

图2是本发明提供的视觉变化环境的强化学习泛化方法的应用场景示意图之一；

图3是本发明提供的视觉变化环境的强化学习泛化方法的应用场景示意图之二；

图4是本发明提供的视觉变化环境的强化学习泛化方法的应用场景示意图之三；

图5是本发明提供的价值一致性损失计算方法的流程示意图；

图6是本发明提供的策略一致性损失计算方法的流程示意图；

图7是本发明提供的动力学损失计算方法的流程示意图；

图8是本发明提供的智能体的网络模型的结构示意图；

图9是本发明提供的视觉变化环境的强化学习泛化装置的结构示意图；

图10示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，基于视觉输入的强化学习是指利用计算机视觉技术作为输入，结合强化学习算法进行决策和学习的一种方法。在传统的强化学习中，智能体通常使用抽象的状态表示来进行决策，而基于视觉输入的强化学习则直接使用视觉输入(比如图像或视频)作为智能体的状态。

在这种方法中，智能体通过感知视觉输入，并从中提取有关环境的信息。然后，它使用这些信息来决定下一步的行动，并通过与环境的交互来获得奖励信号，以进一步优化其行为策略。

基于视觉输入的强化学习在许多领域具有广泛的应用，例如视频游戏、机器人操纵和自主导航等。然而，将当前环境学习到的策略推广到新的变化环境中仍然具有较大挑战性。

在深度强化学习的决策任务中，智能体的视觉输入会随着场景的变化而变化。研究发现，与任务无关的视觉输入的变化很容易干扰智能体的注意力与决策动作，从而影响强化学习算法的性能。这主要是三方面原因导致的：首先，在新的场景中，智能体的价值网络从视觉输入中学到的特征很容易集中于变化的任务无关区域，导致智能体根据任务无关的特征做出错误的决策；其次，智能体的策略网络很难对于在不同变换环境下具有相同控制目标情况的视觉输入做出稳定的决策，导致在新的场景中策略表现不如在训练时的决策效果；最后，智能体的表征网络很难学到未知变化环境的高效、鲁棒表征阻碍了智能体的泛化能力。

基于上述技术中所存在的缺陷，本实施例中提出了一种视觉变化环境的强化学习泛化方法，通过使用价值一致性损失更新价值函数，对于原始状态和增强状态进行价值训练的同时加入显著性引导信息训练，同时使用原始状态和增强状态训练价值网络，并使用显著性图分别对于两种状态进行显著性引导。通过这种方式让智能体关注到准确又一致的任务相关区域；使用策略一致性损失的更新方式训练策略网络，在进行策略更新的同时限制智能体对于原始状态和增强状态做出的策略分布间的KL散度。通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策；对于原始状态和增强状态使用动力学损失作为辅助任务训练表征网络，让智能体对于原始状态和增强状态产生的表征符合环境的状态转移，通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策，如此提升了智能体的视觉泛化能力。

下面结合附图描述本发明的视觉变化环境的强化学习泛化方法及装置。

图1是本发明提供的视觉变化环境的强化学习泛化方法的流程示意图，所述方法应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入中的控制目标图像数据，智能体的动作为控制目标的控制变量。

本实施例中，智能体利用视觉输入进行决策控制。在这个场景中，智能体的状态则是指从视觉输入中获取的关于控制目标的图像数据。该数据描述了智能体所关注的目标或任务。智能体通过观察当前的视觉输入，获取有关目标位置、姿态或其他相关信息，以便进行决策和控制。

而智能体的动作是指控制目标的控制变量，它们是根据预设的控制策略所确定的。预设的控制策略是一组根据视觉输入的图像数据计算出对应动作的规则或算法。这些规则或算法可以根据视觉输入的图像数据来选择合适的控制变量，以使智能体与目标达成一致或执行特定的任务。例如，在智能体行走控制任务中，动作为智能体的关节控制变量，环境奖励包括健康奖励和前向行走奖励两部分。在智能体倒立摆控制任务中，动作为倒立摆的关节控制变量，环境奖励为处于倒立状态的时间步数。在智能体在长方体环境中转动控制任务中，动作为智能体手指的关节控制变量，环境奖励为手指与目标点的距离。

强化学习泛化方法的目标是使智能体能够在不同的视觉输入下做出适应性决策和控制。它通过在训练阶段对于状态进行增强，使其学习到具有泛化能力的决策策略。这样，在面对新的视觉输入时，智能体可以根据先前的经验和学习，选择合适的动作以应对不同的情况。

具体地，所述方法包括：

步骤100，将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中；

应当理解地，智能体的原始状态指代视觉输入中的未经过图像处理的原始图像数据，在此不在具体赘述。

本实施例中，收集当前时刻智能体的状态、动作与奖励信息(s_t,a_t,r_t,s_t+1)，其中，s_t为当前时刻智能体的原始状态，a_t为当前时刻智能体的动作，r_t为当前时刻智能体的环境奖励，s_t+1为下一时刻智能体的原始状态。

具体地，将当前时刻智能体的原始状态s_t输入到策略网络π(α|s_t)中获得动作决策a_t，再将动作决策a_t输入到环境中获得奖励r_t与下一时刻智能体的原始状态s_t+1。

步骤200，使用增强函数对所述回放池中的原始状态进行增强，得到所述回放池中的原始状态对应的增强状态；

具体地，对状态使用增强函数s_α＝τ(s_t)获得增强状态。

在本实施例中，增强函数方法包括随机卷积和图像叠加两种，随机卷积为对于原始状态使用一个相同的卷积核(比如5*5的随机卷积核)进行卷积运算获得原始状态对应的增强状态，图像叠加为将原始状态与公用数据集图像按比例混合获得原始状态对应的增强状态。

步骤300，对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失，基于所述价值一致性损失更新智能体的价值网络及表征网络；

本实施例中，通过同时利用原始状态和增强状态，使用价值一致性损失进行价值网络及表征网络的更新，对于原始状态和增强状态进行价值函数训练的同时加入显著性引导训练，以确保智能体在不同的视觉环境下都能关注到相同的任务相关区域。

通过为原始状态和增强状态分别添加显著性引导信息，可以确保智能体关注到与任务直接相关的区域。这些显著性引导信息可以是任务的特定目标、重要区域或其他与任务相关的信息。通过将这些引导信息融合到状态表示中，智能体可以更加准确地关注到任务相关的区域，从而提高其决策和控制能力。

步骤400，获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，基于所述策略一致性损失更新智能体的策略网络；

本实施例中，通过比较在相同状态下的原始策略和增强策略的差异来衡量智能体的策略一致性。这可以通过计算两个策略分布之间的损失函数来实现，例如使用KL散度或其他度量方法。

使用该损失函数作为训练目标，通过最小化策略一致性损失来更新智能体的策略网络。通过这种方式，智能体的策略网络将被调整，使得在原始状态和增强状态下的策略分布更加一致。

也即本实施例中利用原始状态和增强状态的策略分布之间的差异作为训练目标，通过最小化损失来调整智能体的策略网络，以实现在不同状态下的一致决策和行动。

步骤500，通过动力学模型获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，基于所述动力学损失更新智能体的表征网络与动力学模型。

具体地，本实施例中同时通过动力学模型使用原始状态以及增强状态计算出的动力学损失之和来更新表征网络以及动力学模型的参数，以最小化动力学损失之和。在最小化损失之和时，可以使用梯度下降等优化方法来更新参数。将更新后的表征网络应用于智能体的决策过程中，以提高智能体的决策性能。

本实施例中通过使用价值一致性损失更新价值函数，对于原始状态和增强状态进行价值训练的同时加入显著性引导信息训练，同时使用原始状态和增强状态训练价值网络及表征网络，并使用显著性图分别对于两种状态进行显著性引导。通过这种方式让智能体关注到准确又一致的任务相关区域；使用策略一致性损失的更新方式训练策略网络，在进行策略更新的同时限制智能体对于原始状态和增强状态做出的策略分布间的KL散度。通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策；对于原始状态和增强状态使用动力学损失作为辅助任务训练表征网络与动力学模型，让智能体对于原始状态和增强状态产生的表征符合环境的状态转移，通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策，如此提升了智能体的视觉泛化能力。

进一步地，在智能体迭代训练时，重复执行上述步骤100～步骤500，直至达到预设的迭代次数，训练结束，获取最后一次更新的智能体网络参数作为训练结果。比如，预设的训练长度的单位为时间步，采样满50万个时间步后训练停止。训练结束后保留智能体网络参数，在后续执行中使用智能体的策略网络为智能体选择动作。

另外，在智能体的测试训练中，可以使用纯净背景的控制目标图像数据进行智能体训练学习，使用视频背景下的控制目标图像数据进行智能体测试，如此提升了智能体的视觉泛化能力。

比如，参考图2所示，智能体在纯净的仿真空间中进行行走动作学习，在具有视频背景的视觉变化环境中进行行走控制测试。参考图3所示，智能体在纯净的仿真空间中进行倒立摆平衡，在具有视频背景的视觉变化环境中进行倒立摆平衡控制测试。参考图4所示，智能体在纯净的仿真空间中进行转动长方体学习，在具有视频背景的视觉变化环境中进行转动长方体控制测试。

在一些实施例中，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失，包括：

参考图5，本实施例中智能体的价值一致性损失由四部分组成：原始状态价值损失L_Q1、增强状态价值损失L_Q2、原始状态显著性引导一致性损失L_QC1、增强状态显著性引导一致性损失L_QC2。

具体地，智能体的价值一致性损失L_Q＝L_Q1+L_Q2+λ(L_QC1+L_QC2)；其中，λ为价值一致性系数。

本实施例中，对回放池中的当前时刻智能体的原始状态s以及增强状态s_a分别加入显著性引导信息，得到原始状态s对应的第一显著性图s⁺(也即图5中的)以及增强状态s_a对应的第二显著性图s_a ⁺(也即图5中的/>)。

将智能体的当前时刻智能体的原始状态s输入到表征网络f中，得到对于状态的表征f(s)，接着将状态的表征f(s)与当前时刻智能体的动作a一同输入至价值网络Q中，得到输出的智能体的第一预测价值Q(f(s),a)(也即图5中的q_s)。

根据回放池中的当前时刻智能体的环境奖励r、下一时刻智能体的原始状态s_t+1以及下一时刻智能体的动作a_t+1，得到智能体的目标价值y_t。

将当前时刻智能体的增强状态s_a输入到表征网络f中，得到对于状态的表征f(s_a)，接着将状态的表征f(s_a)与当前时刻智能体的动作a一同输入至价值网络Q中，得到输出的智能体的第二预测价值Q(f(s_a),a)(也即图5中的q_sa)。

接着结合第一预测价值Q(f(s),a)与智能体的目标价值y_t计算出原始状态价值损失L_Q1：

其中，E_s,a为原始状态s对应的期望值。

结合第二预测价值Q(f(s_a),a)与智能体的目标价值y_t计算出原始状态价值损失L_Q2：

其中，/>为增强状态s_a对应的期望值。

进一步地，本实施例中的目标价值y_t是通过以下方式计算得到的：

y_t＝r+γQ(s_t+1,a_t+1)；

其中，r为环境奖励，Q(s_t+1,a_t+1)为根据下一时刻智能体的原始状态以及下一时刻智能体的动作计算出的价值，γ为系数。

将当前时刻智能体的第一显著性图s⁺(也即图5中的)输入到表征网络f中，得到对于状态的表征f(s⁺)，接着将状态的表征f(s⁺)与当前时刻智能体的动作a一同输入至价值网络Q中，得到输出的智能体的第三预测价值Q(f(s⁺),a)(也即图5中的/>)。

将当前时刻智能体的第二显著性图s_a ⁺(也即图5中的)输入到表征网络f中，得到对于状态的表征f(s_a ⁺)，接着将状态的表征f(s_a ⁺)与当前时刻智能体的动作a一同输入至价值网络Q中，得到输出的智能体的第四预测价值Q(f(s_a ⁺),a)(也即图5中的/>)。

结合第一预测价值Q(f(s),a)与第三预测价值Q(f(s⁺),a)计算出智能体的原始状态显著性引导一致性损失：

其中，/>为第一显著性图s⁺对应的期望值。

结合第二预测价值Q(f(s_a),a)与第四预测价值Q(f(s_a ⁺),a)计算出智能体的原始状态显著性引导一致性损失：

其中，/>为第一显著性图s_a ⁺对应的期望值。

进一步地，在一些实施例中，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图，包括：

获取所述回放池中的原始状态对应的第一显著性梯度图；

获取所述增强状态对应的第二显著性梯度图；

本实施例中，先通过以下方式获取原始状态s对应的第一显著性梯度图M(f⁰Q,s,a)：

设定显著性属性图的保留比例值为ρ，接着将第一显著性梯度图M(f⁰Q,s,a)中值较高的1-ρ像素置为1，其他置于0，得到具有显著性的区域的第一显著性属性图M_ρ(f⁰Q,s,a)。

最后通过将第一显著性属性图M_ρ(f⁰Q,s,a)与原始状态s进行点乘，即可得到第一显著性图s⁺：

s⁺＝s·M_ρ(f⁰Q,s,a)；

同理通过以下方式获取增强状态s_a对应的第二显著性梯度图M(f⁰Q,s_a,a)：

设定显著性属性图的保留比例值为ρ，接着将第二显著性梯度图M(f⁰Q,s_a,a)中值较高的1-ρ像素置为1，其他置于0，得到具有显著性的区域的第二显著性属性图M_ρ(f⁰Q,s_a,a)。

最后通过将第二显著性属性图M_ρ(f⁰Q,s_a,a)与原始状态s_a进行点乘，即可得到第二显著性图s_a ⁺：

s_a ⁺＝s_a·M_ρ(f⁰Q,s_a,a)。

本实施例中，通过对于原始状态和增强状态进行价值训练的同时加入显著性引导信息训练，使用显著性图分别对于两种状态进行显著性引导，通过这种方式让智能体关注到准确又一致的任务相关区域。

在一些实施例中，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，包括：

获取所述回放池中的原始状态对应的策略损失；

参考图6，本实施例中智能体的策略一致性损失由两部分组成：原始状态对应的策略损失L_πo、策略约束损失L_πc。

具体地，智能体的策略一致性损失L_π＝L_πo+βL_πc；其中，β为策略一致性系数。

进一步地，原始状态对应的策略损失L_πo通过以下方式得到：

L_πo＝E_s,a[αlogπ(a|f(s)-Q(f(s),a))]；其中，π为策略网络。

进一步地，策略约束损失L_πc通过以下方式得到：

其中，D_KL为_KL散度。

本实施例中，策略网络通过反向传播进行参数更新，参数的优化可以采用Adam优化器，对此不作限制。

本实施例中，通过使用策略一致性损失的更新方式训练策略网络，在进行策略更新的同时限制智能体对于原始状态和增强状态做出的策略分布间的KL散度。通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策。

在一些实施例中，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，包括：

根据所述第一动力学损失以及所述第二动力损失，得到智能体的动力学损失；

其中，所述动力学模型包括状态转移预测网络、奖励预测网络以及智能体的表征网络，所述状态转移预测网络用于根据当前状态与动作预测下一状态，所述奖励预测网络用于根据当前状态与动作预测奖励。

具体地，参考图7，本实施例中智能体的动力学损失由两部分组成：原始状态对应的动力学损失增强状态对应的动力学损失/>

具体地，智能体的动力学损失

进一步地，原始状态对应的动力学损失通过以下方式得到：

其中，P(f(s),a)为状态转移预测网络，根据当前状态与动作预测下一状态，R(f(s),a)为奖励预测网络，根据当前状态与动作预测奖励。

进一步地，原始状态对应的动力学损失通过以下方式得到：

其中，P(f(s_a),a)为状态转移预测网络，根据当前增强状态与动作预测下一增强状态，R(f(s_a),a)为奖励预测网络，根据当前状态与动作预测奖励。

本实施例中，对于原始状态和增强状态使用动力学作为辅助任务训练表征网络与动力学模型，更新表征网络和动力学模型的参数，让智能体对于原始状态和增强状态产生的表征符合环境的状态转移

在一些实施例中，还包括：

参考图8，图8为本实施例中智能体的网络模型，包括表征网络f、策略网络π、价值网络Q、状态转移网络P与奖励预测网络R，在智能体进行训练测试之前，更新所有的网络参数。

下面对本发明提供的视觉变化环境的强化学习泛化装置进行描述，下文描述的视觉变化环境的强化学习泛化装置与上文描述的视觉变化环境的强化学习泛化方法可相互对应参照。

该装置应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入的图像数据，智能体的动作为控制目标的控制变量。

图9是本发明提供的视觉变化环境的强化学习泛化装置的结构示意图，如图9所示，该装置包括：

数据收集模块910，用于将当前时刻智能体的原始状态、当前时刻智能体的动作、当前时刻智能体的环境奖励以及下一时刻智能体的原始状态关联存放于回放池中；

状态增强模块920，用于使用增强函数对所述回放池中的原始状态进行增强，得到所述回放池中的原始状态对应的增强状态；

价值网络更新模块930，用于对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取价值一致性损失，基于所述价值一致性损失更新智能体的价值网络及表征网络；

策略网络更新模块940，用于获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，基于所述策略一致性损失更新智能体的策略网络；

表征网络更新模块950，用于通过动力学模型获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，基于所述动力学损失更新智能体的表征网络与动力学模型。

本发明提供的视觉变化环境的强化学习泛化装置，通过使用价值一致性损失更新价值函数，对于原始状态和增强状态进行价值训练的同时加入显著性引导信息训练，同时使用原始状态和增强状态训练价值网络及表征网络，并使用显著性图分别对于两种状态进行显著性引导。通过这种方式让智能体关注到准确又一致的任务相关区域；使用策略一致性损失的更新方式训练策略网络，在进行策略更新的同时限制智能体对于原始状态和增强状态做出的策略分布间的KL散度。通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策；对于原始状态和增强状态使用动力学损失作为辅助任务训练表征网络与动力学模型，让智能体对于原始状态和增强状态产生的表征符合环境的状态转移，通过这种方式让智能体对于具有不同视觉信息但相同任务相关区域信息的状态做出稳定一致的决策，如此提升了智能体的视觉泛化能力。

需要说明的是，本发明提供的视觉变化环境的强化学习泛化装置可以实现上述视觉变化环境的强化学习泛化方法的各实施例，并达到相同的技术效果，在此不再赘述。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行视觉变化环境的强化学习泛化方法，包括：

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的视觉变化环境的强化学习泛化方法，包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的视觉变化环境的强化学习泛化方法，包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉变化环境的强化学习泛化方法，应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入的图像数据，智能体的动作为控制目标的控制变量，其特征在于，包括：

2.根据权利要求1所述的视觉变化环境的强化学习泛化方法，其特征在于，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，并结合所述回放池中的数据以及所述增强状态获取智能体的价值一致性损失，包括：

3.根据权利要求2所述的视觉变化环境的强化学习泛化方法，其特征在于，所述对所述回放池中的原始状态以及所述增强状态分别加入显著性引导信息，得到所述回放池中的原始状态对应的第一显著性图以及所述增强状态对应的第二显著性图，包括：

获取所述回放池中的原始状态对应的第一显著性梯度图；

获取所述增强状态对应的第二显著性梯度图；

4.根据权利要求1所述的视觉变化环境的强化学习泛化方法，其特征在于，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的策略一致性损失，包括：

获取所述回放池中的原始状态对应的策略损失；

5.根据权利要求1所述的视觉变化环境的强化学习泛化方法，其特征在于，所述获取所述回放池中的原始状态以及所述增强状态对应的智能体的动力学损失，包括：

6.根据权利要求1至5任一项所述的视觉变化环境的强化学习泛化方法，其特征在于，还包括：

7.一种视觉变化环境的强化学习泛化装置，应用于基于视觉输入进行决策控制的智能体，其中，智能体的状态为视觉输入的图像数据，智能体的动作为控制目标的控制变量，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述视觉变化环境的强化学习泛化方法的步骤。