CN113534678A

CN113534678A - 一种操作问答任务的仿真到物理系统的迁移方法

Info

Publication number: CN113534678A
Application number: CN202110618613.1A
Authority: CN
Inventors: 刘华平; 王业飞; 袁小虎; 王毅; 王凯丽; 葛泉波
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-10-22
Anticipated expiration: 2041-06-03
Also published as: CN113534678B

Abstract

本发明属于机器人控制技术领域，尤其涉及一种操作问答任务的仿真到物理系统的迁移方法。本方法利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组，构建循环生成对抗网络模型，结合物理系统和仿真环境的状态图片进行联合训练，生成风格迁移图；利用视觉和物理参数随机化特征方法拟合真实实验状态，获取图像和文本的细粒度特征进行双线性因子化池化融合；将融合的特征作为马尔可夫决策过程的状态中训练，根据奖励得出机械臂动作序列，控制机械臂的运动；添加目标检测器在计算中心中协助目标检测，增加目标检测提高任务正确率，完成操作任务问答过程。改方法实现了机械臂的智能探索，人机交互等功能，有效的展现了机械臂的智能化特性。

Description

一种操作问答任务的仿真到物理系统的迁移方法

技术领域

本发明属于机器人控制技术领域，尤其涉及一种操作问答任务的仿真到物理系统的迁移方法。

背景技术

当今社会，随着现代化工业技术的发展，机械臂自动化技术已经广泛应用于各行各业的生产生活中，如自动分拣、自动装配、自动焊接、协同手术等，而且根据具体任务的不同需求，机械臂系统能自主完成不同类型的动作协作任务的完成，这些智能化机操作技术都极大的改善了人们的日常工作、学习、生活方式，创造了更加智能的生活工作环境。但是，对于复杂的现实环境，机器人收集数据的成本很高，不仅耗费大量的时间，而且安全性能也难以保障，因此目前的机器人智能化技术大多都是通过在仿真环境中对机器人的各项能力采用机器学习的方式进行大量的训练和学习，在巨大的数据堆叠下，才使得机械臂系统产生了智能，能够完成一系列的智能化操作。而目前的基于视觉操作问答任务则是对智能化设备探索的象征，控制的机械臂操作系统主要通过视觉传感器作为机械臂系统感知外部环境的保证，通过提出的问题进行理解从而进行视觉探索寻找答案，当观察到关注的区域，机械臂系统根据问题的内容执行相应操作，探索环境获取最终答案。现有的3D仿真环境更加贴合当下动态复杂的任务需求，科技工作者可以通过仿真环境模拟现实任务场景，利用任务场景中获取到的图像数据和文本数据经过深度学习和强化学习的联合训练，把最终生成的端对端的模型应用到整个系统中。

对于机器人在仿真环境进行各项模拟实验来说，通过各项设备的理想性大大的避免了数据的收集成本以及保证了整个机器人实验的稳定性，因此有助于整个实验过程的顺利，但是对于真实世界的机器人学习探索来说，存在巨大的物理限制，数据收集过程不仅耗时耗力，也难以保证整个环境的安全，因此绝大数实验都是在仿环境中进行训练模型，在实际机器人进行应用。而现有技术在模型迁移过程中，往往因为仿真环境和虚拟环境的细微差异而可能导致整个任务结果产生巨大的偏差，而且对于图像获取的特征往往是全局特征，对于细粒度的信息捕捉能力不足，也会导致具有推理性问题的适用性差。

发明内容

本发明的目的是提出一种操作问答任务的仿真到物理系统的迁移方法，以提高问题回答正确率，实现视觉问答的机械臂操作系统，并且能够有效的将模型迁移到真实环境中。

本发明提出的操作问答任务从仿真到物理系统的迁移方法，包括：

利用深度视觉传感器分别获取仿真环境和现实世界任务场景的图像组，构建循环生成对抗网络模型，结合物理系统的状态图片和仿真环境的状态图片进行联合训练，生成风格迁移图；利用视觉随机化特征方法和物理参数随机化方法拟合真实实验状态，获取图像细粒度特征和文本的细粒度特征进行双线性因子化池化融合；将融合的特征作为马尔可夫决策过程的状态中训练，根据奖励得出机械臂动作序列，控制机械臂的运动；添加目标检测器在计算中心中协助目标检测，增加目标检测提高任务正确率，完成操作任务问答过程。

本发明提出的一种操作问答任务的仿真到物理系统的迁移方法，其优点是：

1、本发明提供的基于现实环境的机械臂操作方法，通过引入循环生成对抗网络的方式，将不成对的虚拟环境图和现实图组进行有效的风格迁移，实现了在虚拟环境中保留现实环境图像信息的能力，并且添加域随机化技术，随机化实验环境参数和物理状态，使得在3D仿真环境下训练得到的模型能够迁移到现实物理环境下，加强了整个系统模型的泛化能力，在动态的适应在杂乱场景、物体遮挡的环境下，也能够正确的合理探索环境，加强机械臂的智能化操作能力。

2、本发明通过视觉传感器不仅可以提取RGB图，而且可以提取物体到视觉传感器的深度图片信息，不再局限于图片的全局特征，而是再通过对两种图片的细粒度特征提取，与文本特征进行双线性特征融合，能够高效的组合多模态特征，更加关注图像和文本的对应特征，提高整个系统的问答准确率。

3、本发明通过Ros分布式平台进行运作，引入目标检测器加强对现实环境的检索能力，实现机械臂对杂乱环境的自主探索，高效的实现人机交互，在未来复杂动态的工业环境下有着广泛的应用前景。

附图说明

图1是本方法的流程框图。

图2为循环神经网络架构示意图。

图3为生成器和判别器示意图。

图4为本发明操作网络架构示意图。

图5为本发明方法涉及的物理系统的结构框图。

具体实施方式

上述操作问答任务从仿真到物理系统的迁移方法，流程框图如图1所示，具体过程包括以下步骤：

(1)收集物理系统的状态图片和仿真环境的状态图片，采用数据增强方法，对物理系统状态图片和仿真环境状态图片进行随机裁剪、旋转、变形、缩放和添加颜色扰动，得到增强后的图像组；将图像组中的图像分别裁剪成分辨率为256*256的图像，并将裁剪后的图像的矩阵值进行归一化，得到一个矩阵值归一化的图像集，作为生成对抗模型的监督数据集；

(2)构建一个循环生成对抗网络模型，循环生成对抗网络模型的架构如图2所示，利用该循环生成对抗网络模型，分别得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图，具体过程如下：

(2-1)构建一个生成器，生成器的架构如图3(a)所示，该生成器由编码器、转换器和解码器组成；

(2-1-1)所述的编码器由三个卷积核组成，分别为7*7步长为1的64通道卷积核、3*3步长为2的128通道卷积核和3*3步长为2的256通道数的卷积核，编码器的输入图像的尺寸为(256，256，3)；向编码器输入步骤(1)的图像集，卷积网络输出得到尺寸为(64，64，256)的图像集特征，以增加图像的通道数，并压缩图像的特征表示形式；

(2-1-2)所述的转换器由连续的6个结构相同的残差网络组成，每个残差网络由三组尺寸为3*3、步长为2、通道数为256的卷积核、批量归一化网络、激活函数层(以下简称ReLU)以及一条残差边组成，向转换器输入图像集特征，转换器输出得到转换图像特征；

(2-1-3)所述的解码器为一个反卷积网络，反卷积网络由大小为3*3、步长为2的128通道反卷积核，大小为3*3、步长为2的64通道反卷积核以及大小为7*7、步长为1的3通道反卷积核组成，向解码器输入转换图像特征，解码器输出得到解码图像特征，从而得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图；即将图像特征增加到原来的尺寸大小。

(2-2)构建一个判别器，判别器的架构如图3(b)所示，判别器由四个卷积核和一个单通道卷积核组成，分别为：大小为4*4、步长为2的64通道卷积核及ReLU激活函数层、大小为4*4、步长为2的128通道卷积核及ReLU激活函数层、大小为4*4、步长为2的256通道卷积核及ReLU激活函数层，以及大小为4*4、步长为2的512通道卷积核及ReLU激活函数层，单通道卷积核的大小为4*4、步长为2及sigmoid激活函数层；向判别器输入物理风格迁移图和仿真风格迁移图，判别器分别输出步骤(1)的物理系统状态图片与物理风格迁移图之间的拟合概率，以及仿真环境状态图片与仿真风格迁移图之间的拟合概率；

(2-3)上述步骤((2-1)的生成器和步骤(2-2)的判别器组成一个循环生成对抗网络模型；

(3)构建一个步骤(2)的循环生成对抗网络模型的损失函数，包括以下步骤：

(3-1)循环生成对抗的模型损失函数包括对抗性损失Loss_adv(G,D_y,X,Y)和循环一致性损失Loss_adv(F,D_x,Y,X)，其中对抗性损失为：

其中，X表示仿真环境的状态图片,Y表示物理系统的状态图片，m为步骤(1)图像集总数，G(x)和F(y)分别为由步骤(1)的物理系统的状态图片到仿真环境状态图片的映射，以及由仿真环境的状态图片到物理系统状态图片的映射关系，D_y和D_x分别为步骤(1)的仿真环境状态图片与步骤(2-1-3)生成的仿真风格迁移图的区别和物理环境状态图片与步骤(2-1-3)生成的物理风格迁移图的区别，；

(3-2)为了映射G和F不相互矛盾，定义一个循环一致性损失函数Loss_cyc(G,F,X,Y)：

利用下式，计算最终损失函数，最终损失函数包括对抗损失和循环一致性损失：

L(G,F,D_x,D_y)＝L_adv(G,D_y,X,Y)+L_adv(F,D_x,Y,X)+λL_cyc(G,F,X,Y)

其中，λ表示相对重要性系数，λ的取值范围(0，20)，本发明的一个实施例中，λ的取值为10；

循环生成对抗网络模型的损失函数的训练目标为：

该训练目标为使生成器最小化步骤(1)的仿真环境状态图片与步骤(2-1-3)生成的仿真风格迁移图的差异和物理环境状态图片与步骤(2-1-3)生成的物理风格迁移图的差异，使得判别器最大化判别出图片来自步骤(1)的图片集还是步骤(2-1-3)生成的风格迁移图；

(4)根据步骤(3)的损失函数的训练目标，对循环生成对抗网络模型进行从零开始训练，设置学习率为0.0002，初始化时，利用高斯分布N(0，0.02)设置循环生成对抗网络模型的初始权重，设置迭代次数200次，得到完成训练后循环生成对抗网络模型；

(5)获取与操作问答任务相关的RGB图、深度图和操作问答文本，根据步骤(4)的循环生成对抗网络模型，生成得到与RGB图相对应的仿真风格迁移图，采用视觉域随机化方法，对仿真风格迁移图进行域随机化处理，即利用对仿真环境中的RGB图和深度图进行处理，对RGB图的三个颜色通道的值随机化，根据高斯噪声N(0，1)分布，在深度图中添加噪声，以模拟采集过程产生的误差，得到处理后的RGB图和深度图；

(6)构建一个操作问答模型，操作问答模型的架构如图4所示，将操作问答模型中图像特征提取模块设置为细粒度特征提取，即在操作问答模型中构建一个1*1的卷积层、ReLU激活函数层和Softmax激活函数层，用于将图像特征网络化，并利用ReLU激活函数和Softmax激活函数对图像特征进行归一化，得到细粒度特征；以预测图像特征在网格中的位置的注意力权重，通过空间网格位置向量的加权来获得带有注意力的细粒度图像特征。

(7)将步骤(5)的RGB图、深度图和操作问答文本输入到步骤(6)的操作问答模型中，操作问答模型输出得到RGB图、深度图和操作问答文本的细粒度特征，将RGB图、深度图和操作问答文本的细粒度特征输入双线性因子分解池化模型中，双线性因子分解池化模型能够实现多模态特征融合，即不同模态的特征利用多层感知机投射到相同的维度，再利用Hadmard对投射后的向量进行相乘，双线性因子分解池化模型输出得到融合特征；

多模态特征融合的过程为：将图像特征

和文本特征

进行多模态特征融合，

其中z_i是融合的多模态特征，k是因子化矩阵

和

的特征维数，ο是两个向量的Hadmard乘积计算符，

是全1向量。

(8)构建一个动态操作模型，整个操作行为表示为马尔可夫决策过程，将步骤(7)的融合特征作为马尔可夫决策过程的初始状态s_t，设定马尔可夫决策过程的动作空间A为一个推动物体的动作，推动的距离为与操作问答任务相关的RGB图像宽度的1/5，设定一个奖励系数R，若推动成功，则使奖励系数R+1，利用下式，计算得到马尔可夫策略为：

根据该马尔可夫策略，产生一个对目标物体的动作；

其中，t为动作时间；

(9)为了成功适应现实环境的物理设备动作，在训练时可以添加足够的模拟可变性，需要在步骤8中随机化物理参数对奖励函数，通过随机扰动环境，强制网络学习图像的基本特征，增强模型泛化能力，包括随机化图像噪声类型、场景光源数量、动作之间的时间步长、动作响应延迟等，可以设定一个随机化物理参数μ，从而有意影响到整个奖励，贴合实际情况。利用下式，计算得到随机奖励系数Reward：

Reward＝βR+μ β∈[0,1],μ∈[-1,0]

β为折扣因子，本发明的一个实施例中，μ的取值为0.5，β的其中为0.5；

(10)根据当前RGB图的图像特征，利用目标检测器(简称MASK-RCNN)，对目标物体进行检测，若操作问答任务场景中无目标物体，则返回步骤(8)，若检测到目标物体，则输出检测结果；

(11)遍历动作空间中的所有动作，重复步骤(8)-步骤(10)，实现操作问答任务从仿真到物理系统的迁移方法。

本发明利用vrep仿真操作环境进行整个仿真环境的训练，使得训练好的模型迁移到现实物理环境中。在现实物理环境中搭载的系统架构如图5所示，整个设备由深度视觉传感器、UR5机械臂以及PC机组成，依靠ROS框架使得各个设备相互之间完成通信。本发明通过深度视觉传感器采集RGB图像和深度图像的信息，向计算中心中发布RGB图像话题和深度图像话题，PC机可以订阅两个话题获取图像信息，计算中心经过获取的图像信息进行图像风格迁移化，使得生成的风格迁移图和文本信息作为动作选择器的输入，经过细粒度特征提取和多模态融合，生成一组输出动作指令发布到动作执行话题中，机械臂可以订阅动作话题，执行相应的动作序列。执行完动作之后，机械臂系统发布动作完成信号话题，当深度视觉传感器捕捉到动作完成信号话题之后，保存当前图像信息，送入到目标检测器中，完成任务回答过程。本方法可以极大程度的在物理环境下实施问答操作过程，具有较好的任务性能和广泛的应用前景。

Claims

1.一种操作问答任务的仿真到物理系统的迁移方法，其特征在于，包括：

2.如权利要求1所述的操作问答任务从仿真到物理系统的迁移方法，其特征在于具体过程包括以下步骤：

(1)收集物理系统的状态图片和仿真环境的状态图片，采用数据增强方法，对物理系统状态图片和仿真环境状态图片进行随机裁剪、旋转、变形、缩放和添加颜色扰动，得到增强后的图像组；将图像组中的图像分别裁剪成分辨率为256*256的图像，并将裁剪后的图像的矩阵值进行归一化，得到一个矩阵值归一化的图像集；

(2)构建一个循环生成对抗网络模型，利用该循环生成对抗网络模型，分别得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图，具体过程如下：

(2-1)构建一个生成器，该生成器由编码器、转换器和解码器组成；

(2-1-1)所述的编码器由三个卷积核组成，分别为7*7步长为1的64通道卷积核、3*3步长为2的128通道卷积核和3*3步长为2的256通道数的卷积核，编码器的输入图像的尺寸为(256，256，3)；向编码器输入步骤(1)的图像集，卷积网络输出得到尺寸为(64，64，256)的图像集特征；

(2-1-2)所述的转换器由连续的6个结构相同的残差网络组成，每个残差网络由三组尺寸为3*3、步长为2、通道数为256的卷积核、批量归一化网络、激活函数层以及一条残差边组成，向转换器输入图像集特征，转换器输出得到转换图像特征；

(2-1-3)所述的解码器为一个反卷积网络，反卷积网络由大小为3*3、步长为2的128通道反卷积核，大小为3*3、步长为2的64通道反卷积核以及大小为7*7、步长为1的3通道反卷积核组成，向解码器输入转换图像特征，解码器输出得到解码图像特征，从而得到步骤(1)的物理系统状态图片和仿真环境状态图片的物理风格迁移图和仿真风格迁移图；

(2-2)构建一个判别器，判别器由四个卷积核和一个单通道卷积核组成，分别为：大小为4*4、步长为2的64通道卷积核及ReLU激活函数层、大小为4*4、步长为2的128通道卷积核及ReLU激活函数层、大小为4*4、步长为2的256通道卷积核及ReLU激活函数层，以及大小为4*4、步长为2的512通道卷积核及ReLU激活函数层，单通道卷积核的大小为4*4、步长为2及sigmoid激活函数层；向判别器输入物理风格迁移图和仿真风格迁移图，判别器分别输出步骤(1)的物理系统状态图片与物理风格迁移图之间的拟合概率，以及仿真环境状态图片与仿真风格迁移图之间的拟合概率；

(3-2)定义一个循环一致性损失函数Loss_cyc(G,F,X,Y)：

L(G,F,D_x,D_y)＝L_adv(G,D_y,X,Y)+L_adv(F,D_x,Y,X)+λL_cyc(G,F,X,Y)

其中，λ表示相对重要性系数，λ的取值范围(0，20)；

循环生成对抗网络模型的损失函数的训练目标为：

(5)获取与操作问答任务相关的RGB图、深度图和操作问答文本，根据步骤(4)的循环生成对抗网络模型，生成得到与RGB图相对应的仿真风格迁移图，采用视觉域随机化方法，对仿真风格迁移图进行域随机化处理，即对RGB图的三个颜色通道的值随机化，根据高斯噪声N(0，1)分布，在深度图中添加噪声，得到处理后的RGB图和深度图；

(6)构建一个操作问答模型，将操作问答模型中图像特征提取模块设置为细粒度特征提取，即在操作问答模型中构建一个1*1的卷积层、ReLU激活函数层和Softmax激活函数层，用于将图像特征网络化，并利用ReLU激活函数和Softmax激活函数对图像特征进行归一化，得到细粒度特征；

(7)将步骤(5)的RGB图、深度图和操作问答文本输入到步骤(6)的操作问答模型中，操作问答模型输出得到RGB图、深度图和操作问答文本的细粒度特征，将RGB图、深度图和操作问答文本的细粒度特征输入双线性因子分解池化模型中，双线性因子分解池化模型输出得到融合特征；

多模态特征融合的过程为：将图像特征

和文本特征

进行多模态特征融合，

其中z_i是融合的多模态特征，k是因子化矩阵

和

的特征维数，

是两个向量的Hadmard乘积计算符，

是全1向量；

(8)构建一个动态马尔可夫决策过程的操作模型，将步骤(7)的融合特征作为马尔可夫决策过程的初始状态s_t，设定马尔可夫决策过程的动作空间A为一个推动物体的动作，推动的距离为与操作问答任务相关的RGB图像宽度的1/5，设定一个奖励系数R，若推动成功，则使奖励系数R+1，利用下式，计算得到马尔可夫策略为：

根据该马尔可夫策略，产生一个对目标物体的动作；

其中，t为动作时间；

(9)设定一个随机化物理参数μ，利用下式，计算得到随机奖励系数Reward：

Reward＝βR+μβ∈[0,1],μ∈[-1,0]

其中，β为折扣因子；

(10)根据当前RGB图的图像特征，利用目标检测器，对目标物体进行检测，若操作问答任务场景中无目标物体，则返回步骤(8)，若检测到目标物体，则输出检测结果；