CN111814823B

CN111814823B - 一种基于场景模板生成的迁移学习方法

Info

Publication number: CN111814823B
Application number: CN202010457152.XA
Authority: CN
Inventors: 王勇; 解永春; 陈奥; 李林峰; 胡勇; 唐宁
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-08-15
Anticipated expiration: 2040-05-26
Also published as: CN111814823A

Abstract

本发明涉及一种基于场景模板生成的迁移学习方法，包括设计场景模板、构建场景模板、训练模板生成网络及基于场景模板迁移策略网络。通过场景模板的概念建立了不同场景的统一模板，构建了不同场景之间的共同特征，通过共同特征建立了不同场景之间的联系，从而实现通过强化学习得到的策略网络在差异较大的环境之间的迁移。

Description

一种基于场景模板生成的迁移学习方法

技术领域

本发明涉及一种基于场景模板生成的迁移学习方法，属于智能机器人领域，用于实现机器人在数学仿真环境训练的策略网络无缝迁移到真实物理环境中，以及在不同物理环境之间迁移，实现在一种环境下学会的技能能够在另一个环境下应用。

背景技术

基于深度强化学习方法研究“自学习”空间操作机器人，是指赋予机器人自学习能力，通过“模仿”和自主训练的方式训练机器人掌握各种操作技能，从而解决困扰当前空间操作的非结构化环境、遥操作大时延等难题，是目前机器人领域的重要研究方向。

机器人自我训练需要机器人通过反复试错学习操作技能，空间环境的特殊性使得难以在地面构建相似的物理环境。因此，绝大多数的训练过程需要在计算机仿真中完成。然而，由于数学仿真环境和真实空间环境的差异，如何确保在仿真环境下得到的训练模型能够有效地适应实际的物理对象(称为迁移学习)是人工智能走向实际应用的关键技术瓶颈。

目前为止，机器人操作迁移学习主要有以下几种方法：

表1.机器人自学习操作迁移学习技术

上述两种方法在迁移过程中存在较大的局限性。

发明内容

本发明的技术解决问题：克服现有技术的不足，基于深度神经网络提出了以场景模板为核心的包括网络结构和学习训练的一套迁移学习方法，构建了数学仿真环境与物理环境以及不同的物理环境之间的桥梁，保证在数学仿真环境训练的策略网络能够无缝迁移到真实物理环境中。

本发明的技术解决方案：一种基于场景模板生成的迁移学习方法，包括如下步骤：

1)设计场景模板；

2)构建场景模板；

3)训练模板生成网络；

4)基于场景模板迁移策略网络。

所述场景模板由任务环境内完成任务所必须的主要物体组成，包括操作目标，障碍物，操作工具，机器人；具体形式为主要物体的2维，或3维图像，或其轮廓图，或特征，须体现主要物体之间相对位姿关系。

所述构建场景模板具体为：利用模板生成网络建立数学仿真环境或物理环境与场景模板的映射关系，根据任务环境的具体操作场景生成场景模板在每个时刻的图像；所述模板生成网络由一种广义的编解码网络组成，包括编码器和解码器；其中，编码器以任务环境为输入，以抽象特征为输出；解码器以抽象特征为输入，以场景模板为输出。

所述广义的编解码网络包括编解码网络、生成对抗网络、Mask RCNN为代表的2维图像语义分割和目标检测识别网络、PointNet为代表的3维点云语义分割网络和目标检测识别网络；其中，广义的编解码网络的编码器为上述网络的特征提取部分，解码器为上述网络的图像生成部分，或轮廓图生成部分；模板生成网络的loss函数为具体的编解码网络，生成对抗网络，2维或3维图像语义分割和目标检测识别网络的loss函数。

所述训练模板生成网络具体包括构建训练用网络结构和训练步骤。

所述构建的训练用网络结构由模板生成网络1和模板生成网络2组成，每个模板生成网络构建不同操作任务环境与场景模板的联系；其中，模板生成网络1由编码器1和解码器1组成，以任务场景1为输入，通过编码器1生成特征1；模板生成网络2由编码器2和解码器2组成，以任务场景2为输入，通过编码器2生成特征2；特征1与特征2分别由解码器1和解码器2生成共同的场景模板；其中，任务场景1代表数学仿真环境，任务场景2代表物理环境；训练用网络loss函数由三部分组成，即：

L＝L_v1+L_v2+L_comm

其中，L_v1、L_v2分别为模板生成网络1和模板生成网络2自身的loss函数；

其中，z_i,j和分别为特征1与特征2，E表示取均值，i、j分别表示第i行第j列。

所述训练步骤包括采集任务场景图像样本、标注任务场景图像样本和训练网络；其中，所述采集任务场景图像样本是指令任务场景1和任务场景2的相机具备相同的参数，保持同一位置和姿态拍摄同一视角下的样本图像，构成一对样本；分别在各种可能操作视角下拍摄若干样本对构成样本库；所述标注任务场景图像样本是按照场景模板的形式把样本对中包含的主要物体标注出完整轮廓，并注明类别；所述训练网络是指以训练用网络结构为主要形式，输入同一对样本和其对应的标注图，用训练用网络loss函数训练模板生成网络1和模板生成网络2。

所述步骤4)基于场景模板迁移策略网络具体包括策略网络训练和策略网络的迁移；其中，策略网络训练是指在任务场景1下利用强化学习进行；其中，策略网络的输入是指任务场景1中的相机采集的图像，通过训练好的模板生成网络1的编码器1生成特征1，或者把任务场景1中的相机采集的图像，通过训练好的模板生成网络1生成对应的场景模板。策略网络的迁移是指把任务环境2中的相机采集的图像，通过训练好的模板生成网络2的编码器2生成特征2作为策略网络的输入，或者把任务场景2中的相机采集的图像，通过训练好的模板生成网络2生成对应的场景模板作为策略网络的输入进行控制。

本发明相比于域随机法和基于生成对抗网络场景迁移方法的优点在于：

(1)提出一种场景模板的概念，即利用权利要求书中的步骤2为不同的任务环境提供一个抽象的统一表征方法，可以依据先验知识根据任务要求灵活设计抽象模板，摒弃不同任务场景中无关信息的干扰。

(2)提出了一种场景模板的构建和训练方法，即利用权利要求书中步骤1的构建场景模板和训练模板生成网络提取不同任务环境的本质特征，建立不同任务场景的本质联系，并以此本质特征为输入训练策略网络，实现同一操作任务在不同环境下的迁移。

(3)操作简单、物理意义明确。

附图说明

图1为模板生成网络；

图2为模板生成网络联合训练；

图3为基于公共特征训练策略网络；

图4为基于公共特征迁移策略网络。

具体实施方式

本发明提供一种基于场景模板生成的迁移学习方法，构建数学仿真环境与物理环境以及不同的物理环境之间的桥梁，保证在数学仿真环境训练的策略网络能够无缝迁移到真实物理环境中，以及在不同物理环境之间迁移，实现在一种环境下学会的技能能够在另一个环境下应用。主要包括如下步骤：

(1)设计场景模板

根据任务需求和任务场景设计场景模板的构成，比如，在轨加注操作物理场景包括空间机器人、加注系统主动端、受体卫星、加注系统被动端及其他。可以抽取空间机器人、加注系统主动端、受体卫星、加注系统被动端组成场景模板，然后经过网络特征提取后形成抽象特征作为迁移学习的基础。

(2)构建场景模板

以编解码网络、生成对抗网络或Mask R-CNN和PointNet为代表的语义分割网络等作为模板生成网络，建立数学仿真环境或各种物理环境与场景模板的映射关系，如图1所示。

(3)训练模板生成网络

训练用网络结构由模板生成网络1和模板生成网络2组成，每个模板生成网络构建不同操作任务环境与场景模板的联系，如图2所示。其中，模板生成网络1由编码器1和解码器1组成，以任务场景1为输入，通过编码器1生成特征1；模板生成网络2由编码器2和解码器2组成，以任务场景2为输入，通过编码器2生成特征2。特征1与特征2分别由解码器1和解码器2生成共同的场景模板。其中，任务场景1可以代表数学仿真环境，任务场景2可以代表物理环境。训练用网络loss函数由三部分组成：

L＝L_v1+L_v2+L_comm

其中，L_v1、L_v2分别为模板生成网络1和模板生成网络2自身的loss函数。

其中，z_i,j和分别为特征1与特征2。E表示取均值，i、j分别表示第i行第j列。

具体训练主要包括如下几步：

1)采集任务场景图像样本

使任务场景1与任务场景2的相机具备相同的参数，保持同一位置和姿态拍摄同一视角下的样本图像，构成一对样本。分别在各种可能操作视角下拍摄若干样本对构成样本库。

2)标注任务场景图像样本

依据设计的场景模板，分别对任务场景1与任务场景2的每一组样本按照场景模板的形式把样本对中包含的主要物体标注出完整轮廓，并注明类别。

3)训练网络

以训练用网络结构为主要形式，输入同一对样本和其对应的标注图，用训练用网络loss函数训练模板生成网络1和模板生成网络2，并使得由2个编码器得到的特征1和特征2尽量相同，从而实现提取不同任务环境的本质特征的目的。

(4)基于场景模板迁移策略网络

深度强化学习可以在一个数学仿真环境下(如任务场景1)训练，然后在实际物理环境(如任务场景2)下使用。因此，首先在任务场景1下，由训练好的编码器1提取特征作为策略网络的输入，从而利用强化学习训练策略网络，如图3所示。策略网络训练好后，利用训练好的编码器2把任务环境2的场景图像转换为特征作为策略网络的输入实现相同策略网络在任务场景2下的无缝迁移，如图4所示。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种基于场景模板生成的迁移学习方法，其特征在于包括如下步骤：

1)设计场景模板；

2)构建场景模板；

3)训练模板生成网络；

4)基于场景模板迁移策略网络；

所述训练模板生成网络具体包括构建训练用网络结构和训练步骤；

L＝L_v1+L_v2+L_comm

其中，z_i,j和分别为特征1与特征2，E表示取均值，i、j分别表示第i行第j列；

所述训练步骤包括采集任务场景图像样本、标注任务场景图像样本和训练网络；其中，所述采集任务场景图像样本是指令任务场景1和任务场景2的相机具备相同的参数，保持同一位置和姿态拍摄同一视角下的样本图像，构成一对样本；分别在各种可能操作视角下拍摄若干样本对构成样本库；所述标注任务场景图像样本是按照场景模板的形式把样本对中包含的物体标注出完整轮廓，并注明类别；所述训练网络是指以训练用网络结构为形式，输入同一对样本和其对应的标注图，用训练用网络loss函数训练模板生成网络1和模板生成网络2；

所述场景模板由任务环境内完成任务所必须的物体组成，包括操作目标，障碍物，操作工具，机器人；具体形式为物体的2维，或3维图像，或其轮廓图，或特征，须体现物体之间相对位姿关系；

2.根据权利要求1所述的一种基于场景模板生成的迁移学习方法，其特征在于：所述广义的编解码网络包括编解码网络、生成对抗网络、Mask RCNN为代表的2维图像语义分割和目标检测识别网络、PointNet为代表的3维点云语义分割网络和目标检测识别网络；其中，广义的编解码网络的编码器为上述网络的特征提取部分，解码器为上述网络的图像生成部分，或轮廓图生成部分；模板生成网络的loss函数为具体的编解码网络，生成对抗网络，2维或3维图像语义分割和目标检测识别网络的loss函数。

3.根据权利要求2所述的一种基于场景模板生成的迁移学习方法，其特征在于：所述步骤4)基于场景模板迁移策略网络具体包括策略网络训练和策略网络的迁移；其中，策略网络训练是指在任务场景1下利用强化学习进行；其中，策略网络的输入是指任务场景1中的相机采集的图像，通过训练好的模板生成网络1的编码器1生成特征1，或者把任务场景1中的相机采集的图像，通过训练好的模板生成网络1生成对应的场景模板；策略网络的迁移是指把任务环境2中的相机采集的图像，通过训练好的模板生成网络2的编码器2生成特征2作为策略网络的输入，或者把任务场景2中的相机采集的图像，通过训练好的模板生成网络2生成对应的场景模板作为策略网络的输入进行控制。