CN112906888B

CN112906888B - 一种任务执行方法及装置、电子设备和存储介质

Info

Publication number: CN112906888B
Application number: CN202110231106.2A
Authority: CN
Inventors: 沈天龙; 张啸川
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2023-05-09
Anticipated expiration: 2041-03-02
Also published as: CN112906888A

Abstract

本发明提供一种任务执行方法及装置、电子设备和存储介质。其中，任务执行方法包括：获取现实环境感知数据；将现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据决策行动数据执行相应的任务；其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。在本发明中，通过利用获取的多种数据样本训练任务执行模型，并根据将获取的现实环境感知数据输入至训练好的任务执行模型所得到的决策行动数据执行相应的任务，极大的缩小了仿真环境与现实环境之间存在的差距，提高了任务执行模型由仿真环境迁移至现实环境的迁移效果。

Description

一种任务执行方法及装置、电子设备和存储介质

技术领域

本发明涉及深度强化学习模型虚实迁移技术领域，尤其涉及一种任务执行方法及装置、电子设备和存储介质。

背景技术

强化学习是机器学习的一个分支，它与有监督学习或无监督学习不同，它主要基于环境和模型进行互动。具体而言，强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。随着“深度学习”方法的兴起，“深度学习”与强化学习结合形成了深度强化学习；进一步的，将深度强化学习与神经网络建模相结合，便形成了深度强化学习模型。深度强化学习模型，已经成为了人工智能研究中竞争最激烈的领域之一。

深度强化学习模型大多应用于仿真、视频游戏等非真实物理环境，并且已经取得了极大的成功。然而，强化学习在真实物理系统上的复杂策略仍存在很大的挑战。强化学习需要智能体与环境进行大量的交互，但是实物机器人强化学习从现实环境中在线试错获取样本的代价极高，完全通过在线强化学习来实现强化学习在实际物理空间中的应用是不切实际的；然而，又由于仿真与现实存在差距，因此将在仿真中训练的策略迁移到实际系统中部署时通常效果不佳。

上述技术方案存在的缺陷或不足包括：将强化学习模型由仿真环境迁移至现实环境时，存在迁移效果差的问题。

发明内容

针对现有技术中存在的问题，本发明的实施例提供一种任务执行方法及装置、电子设备和存储介质。

本发明提供一种任务执行方法，包括：

获取现实环境感知数据；

将所述现实环境感知数据输入至任务执行模型中，得到决策行动数据；

根据所述决策行动数据执行相应的任务；

其中，所述任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。

根据本发明提供的一种任务执行方法，所述任务执行模型的训练方法包括：

基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，其中，所述深度网络模型包括图像编码层和决策层；

基于仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络模式训练现实环境编码网络，生成训练好的所述现实环境编码网络，其中，所述生成对抗网络包括仿真环境编码层、现实环境编码层和判别层；

将所述决策层与所述现实环境编码层进行组合，得到所述任务执行模型。

根据本发明提供的一种任务执行方法，所述基于所述仿真环境感知数据样本在仿真环境中进行深度强化学习训练，得到训练好的所述深度网络模型，包括：

将所述仿真环境感知数据样本输入至所述仿真环境编码层，得到第一编码特征样本；

将所述第一编码特征样本输入至决策层，得到所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本；

根据所述仿真环境感知数据样本、所述决策行动数据样本、所述对应的决策奖励值样本以及所述行动后的仿真环境感知数据样本调整所述仿真环境编码层和所述决策层的参数，以得到训练好的所述深度网络模型。

根据本发明提供的一种任务执行方法，所述基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的所述现实环境编码网络，包括：

将所述仿真环境感知数据样本输入至所述仿真环境编码层，生成第二编码样本特征；

将所述现实环境感知数据样本输入至所述现实环境编码层，生成第三编码样本特征；其中，所述现实环境编码层由所述仿真环境编码层初始化生成；

将所述第二编码样本特征和所述第三编码样本特征输入至判别层进行训练生成第一损失函数，并根据所述第一损失函数调整所述判别层的参数；

将所述第三编码样本特征输入至所述判别层生成第二损失函数，并根据所述第二损失函数调整所述现实环境编码层的参数，并将所述现实环境感知数据样本输入至所述现实环境编码层，生成更新的第三编码样本特征；

交替进行根据所述第一损失函数进行参数调整的任务以及根据所述第二损失函数进行参数调整的任务以及生成所述更新的第三编码样本特征的任务，直至所述第一损失函数及所述第二损失函数分别达到最小值。

根据本发明提供的一种任务执行方法，所述任务执行方法还包括：

采集任务执行样本数据，将所述任务执行样本数据输入至所述任务执行模型进行深度强化学习，以调整所述现实环境编码层的参数；

其中，所述任务执行样本数据包括：当前视觉信息、决策行动数据、行动后的视觉信息以及奖励回报。

根据本发明提供的一种任务执行方法，将所述现实环境感知数据输入至所述任务执行模型中，得到决策行动数据，包括：

将所述现实环境感知数据输入至所述现实环境编码层进行处理，得到编码特征；

将所述编码特征输入至所述决策层进行处理，得到所述决策行动数据。

本发明还提供一种任务执行装置，包括：

获取模块，用于获取现实环境感知数据；

处理模块，用于将所述现实环境感知数据输入至任务执行模型中，得到决策行动数据；

执行模块，用于根据所述决策行动数据执行相应的任务；

根据本发明提供的一种任务执行装置，所述处理模块，具体包括：

编码单元，用于将所述现实环境感知数据输入至所述现实环境编码层进行处理，得到编码特征；

决策单元，用于将所述编码特征输入至所述决策层进行处理，得到所述决策行动数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述任务执行方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述任务执行方法的步骤。

本发明实施例提供的一种任务执行方法及装置、电子设备和存储介质，通过利用获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本训练任务执行模型，并根据将现实环境感知数据输入至训练好的任务执行模型所得到的决策行动数据执行相应的任务，极大的缩小了仿真环境与现实环境之间存在的差距，提高了任务执行模型由仿真环境迁移至现实环境的迁移效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的任务执行方法的流程示意图；

图2是本发明实施例提供的任务执行模型的训练方法的流程示意图；

图3是本发明实施例提供的深度网络模型的结构示意图；

图4是本发明实施例提供的对抗网络的结构示意图；

图5是本发明实施例提供的任务执行装置的结构示意图；

图6是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

附图仅为示例而并非严格按比例绘制。如在本文中使用的，用语“优选”以及类似的用语，用作表近似，而不用作表程度，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。应注意，在本说明书中，“第一”、“第二”、“第三”等的表述仅用于将一个特征与另一个特征区分开来，而不表示对特征的任何限制，尤其不表示任何的先后顺序。

还应理解的是，诸如“包括”、“包括有”、“包含”和/或“包含有”等表述在本说明书中是开放性而非封闭性的表述，其表示存在所陈述的特征、元件和/或部件，但不排除一个或多个其它特征、元件、部件和/或它们的组合的存在。此外，当描述本申请的实施方式时，使用“可”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

除非另外限定，否则本文中使用的所有措辞(包括工程术语和科技术语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，除非本申请中有明确的说明，否则在常用词典中定义的词语应被解释为具有与它们在相关技术的上下文中的含义一致的含义，而不应以理想化或过于形式化的意义解释。

为了解决现有技术中存在的问题，本发明的实施例提供一种任务执行方法及装置、电子设备和存储介质。

图1是根据本发明的一个实施例提供的任务执行方法的流程示意图。如图1所示，该方法包括：

步骤101，获取现实环境感知数据。

具体地，获取现实环境感知数据指获取与具体任务内容相对应的现实任务场景的环境数据。其中，获取现实环境感知数据的步骤包括：根据具体任务内容，选择与该具体任务内容相对应的现实任务场景；利用置于现实任务场景中的现实智能体的传感设备获取现实任务场景的现实环境感知数据。

智能体指驻留在某一环境下，能持续自主的发挥作用，具备驻留性、反应性、社会性、主动性等特征的计算实体。基于这一定义可得，智能体可以是硬件实体，也可以是软件实体；本发明实施例所述的现实智能体指适配有任务执行模型，且能够自主活动的硬件实体。

进一步的，现实智能体的传感设备可以包括感应器、扫描仪、射频识别器等多种设备，本发明所述的现实智能体传感设备优选可见光相机。

更进一步的，利用置于现实任务场景中的现实智能体的传感设备获取的现实环境感知数据可以包括多种类型，本发明不做具体限定。故而，在本发明的实施例中，现实智能体基于其传感器设备获取的现实任务场景中的现实环境感知数据，优选的具体的指，现实任务场景中的图片信息数据。

步骤102，将现实环境感知数据输入至任务执行模型中，得到决策行动数据。

具体地，将现实环境感知数据输入至任务执行模型中得到决策行动数据指将获取的现实环境感知数据输入至训练好的适配于现实智能体的任务执行模型，任务执行模型输出决策行动数据。其中，将现实环境感知数据输入至任务执行模型中得到决策行动数据的步骤包括：根据具体任务内容，将训练好的任务执行模型适配于现实智能体，将现实环境感知数据输入至任务执行模型，得到任务执行模型输出的决策行动数据。

进一步的，任务执行模型包括现实环境编码层和决策层。具体而言，得到决策行动数据的步骤可以细化为，将获取的现实任务场景中的现实环境感知数据进行存储，并将存储的现实环境感知数据输入至任务执行模型的现实环境编码层，得到编码特征；将编码特征输入至任务执行模型的决策层进行处理，得到决策行动数据。

对应地，本发明实施例中描述的仿真环境具体指，基于具体任务内容构建的仿真环境。需要说明的是，构建仿真环境的方式包括多种，在本发明的实施例中优选利用3D仿真模拟器进行仿真环境构建；并且，构建的仿真环境非常贴近真实环境，。本发明实施例中描述的现实环境具体指与具体任务内容对应的多个现实任务场景，本发明实施例对现实任务场景不做具体限定。

步骤103，根据决策行动数据执行相应的任务，其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。

具体地，决策行动数据执行相应的任务指将得到的决策行动数据输入至现实智能体，现实智能体基于决策行动数据进行决策行动。其中，决策行动数据指针对任务的最优决策；现实智能体基于决策行动数据进行决策行动是指，现实智能体根据最优决策作出任务决策。

对应地，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到是指，通过仿真环境获得仿真环境感知数据样本、决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本，通过强化学习训练得到深度强化学习模型，其中，深度强化学习模型包括仿真环境编码层以及决策层，再利用现实环境样本及仿真环境样本通过生成对抗网络模式训练得到现实环境编码网络，现实环境编码层与决策层构成任务执行模型，其中，现实环境感知数据样本是利用现实智能体的传感设备从具体任务内容所对应的现实任务场景中获取得到。

基于上述任一实施例，图2是根据本发明的另一个实施例提供的任务执行模型的训练方法流程示意图。如图2所示，该训练方法包括：

步骤201，基于仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，其中，深度网络模型包括图像编码层和决策层。

具体地，基于仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型是指，获取仿真环境感知数据样本，并将获取的仿真环境感知数据样本输入至深度网络模型，并通过深度强化学习得到训练好的深度网络模型。

对应地，获取仿真环境感知数据样本的步骤包括：根据具体任务内容构建仿真环境，构建的仿真环境应该贴近现实环境根据具体任务构建基于强化学习的深度神经网络；需要说明的是，构建仿真环境的方式包括多种，在本发明的实施例中优选利用3D仿真模拟器进行仿真环境构建。根据具体任务构建基于强化学习的深度神经网络具体指，根据具体任务内容，利用多层全连接神经网络或者多层卷积神经网络组成图像编码层；利用多层全连接网络组成决策层；两个模块作为一个整体模型在仿真平台中根据具体任务进行深度强化学习训练。应该注意的是，深度网络模型的决策层的组成方式包括多种，在本发明的实施例中，优选利用多层全连接网络组成决策层。

进一步的，还需要根据具体任务内容进行相关动力学建模及传感器模型建模。具体而言，包括利用仿真器对现实智能体的动力学及其传感设备进行建模。对现实智能体的动力学及其传感设备进行建模的目的在于为了真实仿真现实智能体在现实任务场景中感知环境的模式。其中，在满足上述需求的情况下，仿真器可以包括多种类型，本发明不作具体限定；本发明优选利用Airsim仿真器对现实智能体的动力学及其传感设备进行建模。

更进一步的，利用构建的现实智能体动力学模型及其传感设备感知仿真环境，并获取仿真环境中的环境感知数据；然后，对获取的仿真环境感知数据进行存储，形成多个仿真环境感知数据样本。其中，仿真环境感知数据样本具体指，传感设备模型从仿真环境中获取的图片信息。

基于上述任一实施例，图3是根据本发明的再一个实施例提供的深度网络模型的结构示意图。如图3所示，深度网络模型包括仿真环境编码层310和决策层320；其中，仿真环境编码层310，用于对感知的仿真环境数据进行特征编码；决策层320，用于获取图像编码层输出的编码特征样本，进一步的，决策层320还用于基于获取的编码特征样本作出行动决策。

基于上述任一实施例，在步骤201中，将获取的仿真环境感知数据样本输入至深度网络模型的仿真环境编码层310进行特征编码，可以得到仿真环境编码层310输出的第一编码特征；将前述第一编码特征输入至深度网络模型的决策层320，可以得到决策层320输出的决策行动样本数据并可以通过仿真获得决策行动样本数据对应的奖励回报值。同时，可以根据奖励回报值调整深度网络模型中组成仿真环境编码层310和决策层320的神经网络的参数。

进一步的，根据奖励回报值对深度网络模型中仿真环境编码层310和决策层320的神经网络的参数进行调整后，继续在仿真环境中进行深度强化学习训练迭代，直至深度网络模型收敛达到最优模型。

步骤202，基于仿真环境感知数据样本和现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的现实环境编码网络，其中，生成对抗网络包括仿真环境编码层310、现实环境编码层和判别层。

具体地，基于仿真环境感知数据样本和现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的现实环境编码网络是指，将前述获取的多个仿真环境感知数据样本和多个现实环境感知数据样本分别输入到对应的环境编码层，获得相应的环境编码特征样本，并将样本输入到判别网络进行训练，然后再利用判别网络对现实环境编码层进行训练，并利用更新后的现实环境编码层生成新的现实环境编码特征样本，利用新的环境编码特征样本与仿真环境编码特征样本去训练更新判别网络，不断重复上述步骤；其中，获取多个现实环境感知数据样本的步骤包括：根据具体任务内容，对应具体的现实任务场景；利用现实智能体的传感设备感知现实任务场景，获取现实任务场景中的现实环境感知数据；将获取的现实环境感知数据进行存储，形成多个现实环境感知数据样本。

基于上述任一实施例，图4是根据本发明的又一个实施例提供的对抗网络的结构示意图。如图4所示，对抗网络包括仿真环境编码层410、现实环境编码层420和判别层430；其中，仿真环境编码层410，用于对获取的多个仿真环境感知数据样本进行编码；现实环境编码层420，用于对获取的多个现实环境感知数据样本进行编码；判别层430，用于对输入的编码样本特征进行训练。

基于上述任一实施例，在步骤202中，将多个仿真环境感知数据样本

输入至仿真环境编码层410，得到仿真环境编码层410输出的第二编码样本特征

其中，n为整实数，且对n的数值不做具体限定。同时，将多个现实环境感知数据样本

输入至现实环境编码层420，得到现实环境编码层420输出的第三编码样本特征

m为整实数，且对m的数值不做具体限定。需要说明的是，仿真环境编码层410为训练好的深度网络模型的仿真环境编码层310；现实环境编码层420利用仿真环境编码层410进行初始化。

对应地，将第二编码样本特征和第三编码样本特征输入至判别层进行训练，生成第一损失函数；并根据第一损失函数调整判别层430的参数。其中，判别层430，优选地，由多层全连接网络构成。

具体地，将第二编码样本特征和第三编码样本特征输入至判别层430后，判别层430会对第二编码样本特征和第三编码样本特征进行差异判别，并定义第一损失函数；第一损失函数参见下式(1)：

其中，

表示第二编码样本特征，

表示第三编码样本特征，D表示

和

来自于仿真环境感知数据的概率。

对应地，通过第一损失函数来更新判别层430参数，使得第一损失函数不断减小。

进一步的，利用判别层430对现实环境编码层420进行更新。

具体地，将现实环境感知数据样本输入到现实环境编码层获得第三编码样本特征，通过判别层430得到第三编码样本特征与仿真环境编码特征的差异，定义第二损失函数；第二损失函数参见下式(2)：

其中，

表示第三编码样本特征，D表示

本来自于现实环境感知数据的概率。

对应地，利用第二损失函数不断更新现实环境编码层420，使得第二损失函数不断减小，并利用最新地现实环境编码层420生成新的现实环境编码特征样本。

基于上述任一实施例，交替进行根据第一损失函数进行参数调整的任务和根据第二损失函数进行参数调整的任务以及生成更新的第三编码样本特征的任务，直至第一损失函数和第二损失函数的数值同时达到最小。

具体地，根据第一损失函数进行参数调整的任务是指根据第一损失函数调整判别层430的参数，直至第一损失函数的数值达到最小值；根据第二损失函数进行参数调整的任务是指根据第二损失函数进一步调整现实环境编码层420的参数，直至第二损失函数的数值达到最小值。

对应的，更新后的现实环境编码层420不断生成新的现实环境编码特征，并利用现实环境编码特征对判别层430进行不断更新；利用更新后的判别层430又继续更新现实环境编码层420，两者之间形成生成对抗网络训练模式。

需要说明的是，损失函数包括方差损失函数、误差损失函数、分位数损失函数和交叉熵损失函数；本发明实施例所述的第一损失函数和第二损失函数，具体指误差损失函数。

步骤203，将决策层320与现实环境编码层420进行组合，得到任务执行模型。

具体地，将决策层320与现实环境编码层420进行组合，得到任务执行模型是指将训练好的深度网络模型的决策层320与训练好的现实环境编码层420进行组合，得到任务执行模型。

对应地，将任务执行模型适配于现实智能体；现实智能体通过其传感设备采集现实任务场景中的现实环境感知数据；并将获取的现实环境感知数据进行存储，形成多个现实环境感知数据样本。将现实环境感知数据样本输入至任务执行模型，得到输出的决策行动数据；将得到的决策行动数据输入至现实智能体，现实智能体基于决策行动数据进行决策行动。同时，现实智能体利用任务数据收集模块，可以采集进行决策行动实施具体任务时，现实任务场景中的任务执行样本数据。

进一步的，将任务执行样本数据输入至任务执行模型进行深度强化学习，可以微调并更新任务执行模型的现实环境编码层420的参数与决策层320的参数。需要说明的是，现实智能体利用任务数据收集模块采集的与具体决策行动相关的任务执行样本数据包括，当前视觉信息、决策行动数据、行动后的视觉信息并根据前后视觉信息计算所得的行动奖励回报值。

更进一步的，将采集的当前视觉信息、决策行动数据、行动后的视觉信息以及计算得到的行动奖励回报值数据进行存储，可形成多个更新的任务执行样本数据。将多个更新的任务执行样本数据输入至任务执行模型，通过深度强化学习算法实现对任务执行模型中现实环境编码层420以及决策层320参数的微调更新。需要说明的是，对任务执行模型进行不断微调更新的目的在于使其性能最优，且能够最优的实现从仿真环境到现实任务场景的迁移和适配。

基于上述任一实施例，图5是根据本发明的一个实施例，进一步提供的任务执行装置的结构示意图。如图5所示，任务执行装置包括获取模块510、处理模块520和执行模块530；其中，获取模块510，用于获取现实环境感知数据；处理模块520，用于将现实环境感知数据输入至任务执行模型中，得到决策行动数据；执行模块530，用于根据所述决策行动数据执行相应的任务。

具体地，获取模块510，用于获取现实环境感知数据指获取与具体任务内容相对应的现实任务场景的环境数据。其中，获取现实环境感知数据包括：根据具体任务内容，选择与该具体任务内容相对应的现实任务场景；利用置于现实任务场景中的现实智能体的传感设备获取现实任务场景的现实环境感知数据。

具体地，处理模块520用于将现实环境感知数据输入至任务执行模型中得到决策行动数据指将获取的现实环境感知数据输入至训练好的适配于现实智能体的任务执行模型，任务执行模型输出决策行动数据。其中，将现实环境感知数据输入至任务执行模型中得到决策行动数据具体包括：根据具体任务内容，基于构建的仿真环境进行深度强化学习训练得到深度网络模型，并利用现实环境样本、仿真环境样本通过生成式对抗网络模式训练得到任务执行模型；将现实环境感知数据输入至任务执行模型，得到任务执行模型输出的决策行动数据。

基于上述任一实施例，处理模块520包括编码单元和决策单元；其中，编码单元用于将现实环境感知数据输入至现实环境编码层进行处理，得到编码特征；决策单元，用于将编码特征输入至决策层进行处理，得到决策行动数据。

进一步的，任务执行模型包括现实环境编码层和决策层。具体而言，编码单元，具体用于，将获取的现实任务场景中的现实环境感知数据进行存储，并将存储的现实环境感知数据输入至任务执行模型的现实环境编码层，得到编码特征；决策单元，用于将编码特征输入至任务执行模型的决策层进行处理，得到决策行动数据。

对应地，本发明实施例中描述的仿真环境具体指，基于具体任务内容构建的仿真环境。需要说明的是，构建仿真环境的方式包括多种，在本发明的实施例中优选利用3D仿真模拟器进行仿真环境构建；并且，构建的仿真环境非常贴近真实环境。本发明实施例中描述的现实环境具体指与具体任务内容对应的多个现实任务场景，本发明实施例对现实任务场景不做具体限定。

具体地，执行模块530用于根据决策行动数据执行相应的任务指将得到的决策行动数据输入至现实智能体，现实智能体基于决策行动数据进行决策行动，并基于决策行动执行响应的任务。其中，决策行动数据指针对任务的最优决策；并且，现实智能体基于决策行动数据进行决策行动是指，现实智能体根据最优决策作出任务决策。

进一步的，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到是指，通过仿真环境获得仿真环境感知数据样本、决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本，通过强化学习训练得到深度强化学习模型，其中，深度强化学习模型包括仿真环境编码层以及决策层，再利用现实环境样本及仿真环境样本通过生成对抗网络模式训练得到现实环境编码网络，现实环境编码层与决策层构成任务执行模型，其中，现实环境感知数据样本是利用现实智能体的传感设备从具体任务内容所对应的现实任务场景中获取得到。

更进一步的，对任务执行模型进行训练具体指基于仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型是指，获取仿真环境感知数据样本，并将获取的仿真环境感知数据样本输入至深度网络模型，并通过深度强化学习得到训练好的深度网络模型。

对应地，获取仿真环境感知数据样本是指：根据具体任务内容构建仿真环境，构建的仿真环境应该贴近现实环境根据具体任务构建基于强化学习的深度神经网络；需要说明的是，构建仿真环境的方式包括多种，在本发明的实施例中优选利用3D仿真模拟器进行仿真环境构建。根据具体任务构建基于强化学习的深度神经网络具体指，根据具体任务内容，利用多层全连接神经网络或者多层卷积神经网络组成图像编码层；利用多层全连接网络组成决策层；两个模块作为一个整体模型在仿真平台中根据具体任务进行深度强化学习训练。应该注意的是，深度网络模型的决策层的组成方式包括多种，在本发明的实施例中，优选利用多层全连接网络组成决策层。

另外，还需要根据具体任务内容进行相关动力学建模及传感器模型建模。具体而言，就是利用仿真器对现实智能体的动力学及其传感设备进行建模。对现实智能体的动力学及其传感设备进行建模的目的在于为了真实仿真现实智能体在现实任务场景中感知环境的模式。其中，在满足上述需求的情况下，仿真器可以包括多种类型，本发明不作具体限定；本发明优选利用Airsim仿真器对现实智能体的动力学及其传感设备进行建模。

除此之外，还利用构建的现实智能体动力学模型及其传感设备感知仿真环境，并获取仿真环境中的环境感知数据；然后，对获取的仿真环境感知数据进行存储，形成多个仿真环境感知数据样本。其中，仿真环境感知数据样本具体指，传感设备模型从仿真环境中获取的图片信息。

再进一步的，将获取的仿真环境感知数据样本输入至深度网络模型的仿真环境编码层进行特征编码，可以得到仿真环境编码层输出的第一编码特征；将前述第一编码特征输入至深度网络模型的决策层，可以得到决策层输出的决策行动样本数据并可以通过仿真获得决策行动样本数据对应的奖励回报值。同时，可以根据奖励回报值调整深度网络模型中组成仿真环境编码层和决策层的神经网络的参数。根据奖励回报值对深度网络模型中仿真环境编码层和决策层的神经网络的参数进行调整后，继续在仿真环境中进行深度强化学习训练迭代，直至深度网络模型收敛达到最优模型。

同时，将前述获取的多个仿真环境感知数据样本和多个现实环境感知数据样本分别输入到对应的环境编码层，获得相应的环境编码特征样本，并将样本输入到判别网络进行训练，然后再利用判别网络对现实环境编码层进行训练，并利用更新后的现实环境编码层生成新的现实环境编码特征样本，利用新的环境编码特征样本与仿真环境编码特征样本去训练更新判别网络，不断重复上述步骤；其中，根据具体任务内容，对应具体的现实任务场景；利用现实智能体的传感设备感知现实任务场景，获取现实任务场景中的现实环境感知数据；将获取的现实环境感知数据进行存储，形成多个现实环境感知数据样本。

将多个仿真环境感知数据样本

输入至仿真环境编码层，得到仿真环境编码层输出的第二编码样本特征

输入至现实环境编码层，得到现实环境编码层输出的第三编码样本特征

m为整实数，且对m的数值不做具体限定。需要说明的是，仿真环境编码层为训练好的深度网络模型的仿真环境编码层；现实环境编码层利用仿真环境编码层进行初始化。

对应地，将第二编码样本特征和第三编码样本特征输入至判别层进行训练，生成第一损失函数；并根据第一损失函数调整判别层的参数。其中，判别层，优选地，由多层全连接网络构成。

具体地，将第二编码样本特征和第三编码样本特征输入至判别层后，判别层会对第二编码样本特征和第三编码样本特征进行差异判别，并定义第一损失函数；第一损失函数参见下式(1)：

其中，

表示第二编码样本特征，

表示第三编码样本特征，D表示

和

来自于仿真环境感知数据的概率。

对应地，通过第一损失函数来更新判别层的参数，使得第一损失函数不断减小。

进一步的，利用判别层对现实环境编码层进行更新。

具体地，将现实环境感知数据样本输入到现实环境编码层获得第三编码样本特征，通过判别层得到第三编码样本特征与仿真环境编码特征的差异，定义第二损失函数；第二损失函数参见下式(2)：

其中，

表示第三编码样本特征，D表示

本来自于现实环境感知数据的概率。

对应地，利用第二损失函数不断更新现实环境编码层，使得第二损失函数不断减小，并利用最新地现实环境编码层生成新的现实环境编码特征样本。

具体地，根据第一损失函数进行参数调整的任务是指根据第一损失函数调整判别层的参数，直至第一损失函数的数值达到最小值；根据第二损失函数进行参数调整的任务是指根据第二损失函数进一步调整现实环境编码层的参数，直至第二损失函数的数值达到最小值。

对应的，更新后的现实环境编码层不断生成新的现实环境编码特征，并利用现实环境编码特征对判别层进行不断更新；利用更新后的判别层又继续更新现实环境编码层，两者之间形成生成对抗网络训练模式。

具体地，将决策层与现实环境编码层进行组合，得到任务执行模型是指将训练好的深度网络模型的决策层与训练好的现实环境编码层进行组合，得到任务执行模型。

进一步的，将任务执行样本数据输入至任务执行模型进行深度强化学习，可以微调并更新任务执行模型的现实环境编码层的参数与决策层的参数。需要说明的是，现实智能体利用任务数据收集模块采集的与具体决策行动相关的任务执行样本数据包括，当前视觉信息、决策行动数据、行动后的视觉信息并根据前后视觉信息计算所得的行动奖励回报值。

更进一步的，将采集的当前视觉信息、决策行动数据、行动后的视觉信息以及计算得到的行动奖励回报值数据进行存储，可形成多个更新的任务执行样本数据。将多个更新的任务执行样本数据输入至任务执行模型，通过深度强化学习算法实现对任务执行模型中现实环境编码层以及决策层参数的微调更新。需要说明的是，对任务执行模型进行不断微调更新的目的在于使其性能最优，且能够最优的实现从仿真环境到现实任务场景的迁移和适配。

综上所述，通过多个实施例对本发明提供的任务执行方法和任务执行装置进行了具体的描述。进一步的，示例性的，通过选择一种具体的现实智能体，并结合具体的现实智能体和任务执行模型进行描述，可以对本发明提供的任务执行方法和任务执行装置进行更进一步的说明。

具体地，在一个实施例中，根据无人机穿门任务内容，利用3D仿真模拟器构建无人机穿门任务仿真环境，并选择与任务内容对应的现实任务场景；同时，基于三层卷积神经网络形成环境编码层；基于三层全连接网络形成决策层；依托构建的仿真环境和现实任务场景，将深度强化学习模型中的决策层与现实环境编码层进行组合形成任务执行模型。

进一步的，任务执行模型的整个训练过程与前述任务执行方法中如图2至图4所描述的任务执行模型的训练步骤相互参照，将训练好的任务执行模型适配于无人机。

更进一步的，无人机通过单目视觉相机感知现实任务场景中的现实环境感知数据，将感知的现实环境感知数据进行存储，并将经存储的现实环境感知数据输入至任务执行模型的现实环境编码层，得到编码特征；将编码特征输入至任务执行模型的决策层进行处理，得到决策行动数据。无人机基于任务执行模型输出的决策行动数据进行决策行动；需要说明的是，无人机通过进行决策行动实现穿门训练。

基于上述任一实施例，本发明提供的任务执行方法和任务执行装置中所述的现实智能体包括多种，本发明的实施例不对其进行具体限定，无人机只是示例性的选择其中之一。

图6是根据本发明的一个实施例提供的电子设备的硬件结构示意图。如图6所示，该电子设备可以包括：处理器610、通信接口620、存储器630和通信总线640；其中，处理器610，通信接口620，存储器630相互间通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行提供的任务执行方法，该方法包括：获取现实环境感知数据；将现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据决策行动数据执行相应的任务；其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的任务执行方法，该方法包括：获取现实环境感知数据；将现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据决策行动数据执行相应的任务；其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各步骤提供的任务执行方法，该方法包括：获取现实环境感知数据；将现实环境感知数据输入至任务执行模型中，得到决策行动数据；根据决策行动数据执行相应的任务；其中，任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种任务执行方法，其特征在于，包括：

获取现实环境感知数据；

根据所述决策行动数据执行相应的任务；

其中，所述任务执行模型为根据获取的仿真环境感知数据样本、仿真决策行动样本、对应的决策奖励值样本、行动后的仿真环境感知数据样本和现实环境感知数据样本进行训练得到；

所述任务执行模型的训练方法包括：基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，其中，所述深度网络模型包括图像编码层和决策层；

基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的所述现实环境编码网络，其中，所述生成对抗网络包括：仿真环境编码层、现实环境编码层和判别层；

2.根据权利要求1所述的任务执行方法，其特征在于，所述基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，包括：

3.根据权利要求1所述的任务执行方法，其特征在于，所述基于所述仿真环境感知数据样本和所述现实环境感知数据样本通过生成对抗网络训练现实环境编码网络，生成训练好的现实环境编码网络，包括：

将所述现实环境感知数据样本输入至所述现实环境编码层，生成第三编码样本特征；其中，所述现实环境编码层由仿真环境编码层初始化生成；

将所述第三编码样本特征输入至所述判别层生成第二损失函数，根据所述第二损失函数调整所述现实环境编码层，并将所述现实环境感知数据样本输入至所述现实环境编码层，生成更新的第三编码样本特征；

交替进行根据所述第一损失函数进行参数调整的任务以及根据所述第二损失函数进行参数调整的任务以及生成所述更新的第三编码样本特征任务，直至所述第一损失函数及所述第二损失函数分别达到最小值。

4.根据权利要求1所述的任务执行方法，其特征在于，所述方法还包括：

其中，所述任务执行样本数据包括：当前视觉信息、决策行动数据、行动后的视觉信息以及行动奖励回报。

5.根据权利要求1所述的任务执行方法，其特征在于，将所述现实环境感知数据输入至所述任务执行模型中，得到决策行动数据，包括：

6.一种任务执行装置，其特征在于，包括：

获取模块，用于获取现实环境感知数据；

执行模块，用于根据所述决策行动数据执行相应的任务；

所述任务执行模型为基于所述仿真环境感知数据样本在仿真环境中对深度网络模型进行深度强化学习训练，得到训练好的深度网络模型，其中，所述深度网络模型包括图像编码层和决策层；

7.根据权利要求6所述的任务执行装置，其特征在于，所述处理模块，具体包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的任务执行方法的步骤。

9.一种非暂态计算机可读存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的任务执行方法的步骤。