CN111203878A

CN111203878A - 一种基于视觉模仿的机器人序列任务学习方法

Info

Publication number: CN111203878A
Application number: CN202010036162.6A
Authority: CN
Inventors: 贾之馨; 林梦香; 陈智鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-05-29
Anticipated expiration: 2040-01-14
Also published as: CN111203878B

Abstract

一种基于视觉模仿的机器人序列任务学习方法，用于指导机器人从包含人类动作的视频中模仿执行人类动作。步骤为：(1)根据输入图像，利用基于区域的掩码卷积神经网络识别物体种类与掩码；(2)根据掩码计算物体实际平面物理坐标(x,y)；(3)识别目标视频中的原子动作；(4)将原子动作序列与识别得到的物体种类转化为一维向量；(5)将该一维向量输入任务规划器，输出可指导机器人的任务描述向量；(6)结合任务描述向量和物体坐标，控制机器人完成机器人对目标视频中序列任务的模仿。本发明以视频和图像作为输入，识别物体及推断任务序列，指导机器人完成对目标视频的模仿，同时泛化性强，在不同的环境或物体种类下仍可以完成模仿任务。

Description

一种基于视觉模仿的机器人序列任务学习方法

技术领域

本发明涉及一种根据视觉传感器和视频输入进行机器人模仿人类完成各种任务的方法，属于机器人控制领域、深度学习和模仿学习领域，主要应用于通过视频教会机器人模仿人类完成搬运、打扫、分类或摆放物体等应用场景。

背景技术

近些年以来，随着人工智能领域、智能机器人领域的快速发展，智能产品如机器人在人类的生活中占据着越来越重要的角色，而在智能的背后是复杂的算法和控制方式。“工业革命4.0”、“中国制造2025”的时代背景下机器人，机械臂等与人工智能领域的研究愈发成为各国各高校、各企业、各大实验室研究创新的主流。利用人工智能技术为传统机械臂、机器人装上“大脑”将是下一次产业技术革命的重要技术支撑。并且，随着机器人和其他智能体从简单的环境或任务向复杂环境和任务涉足，为其运动的手动编程必须面对更大的困难和昂贵的时间代价，因此开发一种新的技术方法，越过对复杂环境与任务的手动编程，是迫切需要的，模仿学习就是针对这一问题，从数据中“模仿”人的动作，使机器人自己学会完成复杂任务。

从我们人类学习一个任务的过程出发，通常都是通过模仿老师的示范动作来学习的。也就是将老师的动作，还原到自己的环境下复现。这种从示教中学习的模式或算法，被称为模仿学习。近年来，模仿学习日益成为人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法，能通过专家的示教快速高效的模仿动作。示教的数据可以是视频、动作轨迹数据或任务序列等等。在理论研究中，模仿学习方法与强化学习、深度学习等方法相结合，已经取得了重要的成果。在实际应用中，尤其是在机器人和其他智能体的复杂环境中，模仿学习通过其示教中学习的特性也取得了很好的效果，能够模仿人类的动作行为。相比强化学习在很大的动作状态空间中的搜索模式，模仿学习通过专家示教，“告诉”机器人什么行为是对完成任务有益的，什么行为是消极的，通过这样的方式监督机器人的动作逐渐拟合到示教的动作上，从而更高效地学习目标任务。

机械臂作为一种类似人类手臂的机械结构，选择基于机械臂的模仿学习研究，能够通过实验模仿大多数人类的肢体动作。同时基于物体识别动作分割的先验知识，能够进一步加速学习过程，提高模型对不同环境的泛化能力。

模仿学习作为机器学习领域的一个分支，它包含了两大类方法：行为克隆方法和逆强化学习方法。行为克隆方法主要思想是基于包含了行为轨迹、状态动作对或任务序列的示教数据，通过学习的方法模拟示教者的动作。逆强化学习方法，是通过是示教数据(往往是包含动作的视频)提取出有用的特征，重新建立奖励函数，在通过强化学习的方法进行动作的模仿学习。

早期的模仿学习研究把无模型的行为克隆方法理解为监督学习。早些年Abbeel等人提出训练一个神经网络用于自动驾驶系统，这一神经网络建立一个从摄像机图象到转向角映射的模型。但是这一工作在实践中并不成功。主要原因有两个：一是由于示教数据集有限，学徒遇到的状态分布与给定的示教数据集分布不同，而监督学习是基于训练数据集是独立同分布的假设，因此监督学习很难泛化到新的场景去；二是不可避免的级联错误累积误差得不到纠正。

同时也有学者提出一个基于置信度的方法，在给定状态的置信度学习策略时，此方法基于置信度确定是否需要额外的专家示教。通过能返回置信度的分类器，学徒决定怎么样从动作集中选择动作。当置信度低于阈值时，就需要额外的专家示教。通过额外的示教该算法试图在学徒策略的诱导下学习策略，并将矫正后的动作添加到训练数据集。

隐马尔可夫模型是常常用于建立离散状态之间概率转换的模型。隐马尔可夫模型由一个有限隐状态集X、有限观察标签集Y、状态转移矩阵A、输出概率矩阵B和一个初始分布组成。给定观察序列和状态集，通过Baum-Welch算法求得A和B，进而可以求得给定初始状态下的运动序列。它的缺点是表示的离散性。状态数量多会导致计算成本过高，状态数量少不能有效表示。

在经典的自回归隐马尔可夫模型中，其隐变量的概率分布依赖于观察状态，隐变量用来表示任务的当前阶段。有学者使用自回归隐马尔科夫模型，把任务表示为一个确定性运动基元序列，其中变量表示当前的激活DMP。该模型使用条件运动基元规划，这一规划可以基于观察把一个DMP转化为另一个DMP。

生成对抗网络已经引入到模仿学习中。在生成对抗网络中，一个生成模型G训练一个用于模仿真实数据分布的生成数据样本。而判别器D用于判别数据是否是真实数据。也有学者提出基于生成对抗的模仿学习，把生成对抗网络和强化学习相结合。该方法能够根据未知的奖励函数来约束智能体的行为到近似最优，而无需明确地尝试恢复该奖励函数。这种方法训练重现专家行为策略的生成器和区分学徒策略轨迹和专家示教轨迹的判别器，并且使用信赖域策略优化方法来优化目标函数。但是这种方法训练的模型对于新的陌生场景难以适用，泛化能力有限。

发明内容

本发明的技术解决问题：克服现有技术的不足，提出一种基于视觉模仿的机器人序列任务学习方法，利用抽取的高级特征，大大提高了对不同环境的泛化能力，使得机器人在各种环境下都可以成功模仿视频完成任务。

本发明的技术解决方案：一种基于视觉模仿的机器人序列任务学习方法，利用深度学习的方法完成物体识别和视频中原子动作的识别，通过基于结构化预测的任务规划器指导机器人完成视频模仿任务；机器人执行模仿任务的环境为：在工作平面放置各种不同种类的物体，视觉传感器固定于桌面正上方，机器人位于桌子侧面；包括如下步骤：

第一步，根据视觉传感器获取的图像，利用基于区域的掩码卷积神经网络算法识别图像中的物体种类，并生成每个物体的掩码，其中掩码为不同大小的像素点集；

第二步，根据生成的掩码，计算得出每个物体的掩码的中心像素坐标(x_pixel,y_pixel)，通过视觉传感器到实际物理坐标系的变换，得到每个物体在实际工作平面上的物理坐标(x_i,y_i)；

第三步，将需要被模仿的目标视频逐帧读取，每一帧与其差分图像合并后输入到原子动作识别模型中，输出得到目标视频中包含的原子动作序列；

第四步，第一、三步获得的物体种类信息和原子动作序列信息均为字符描述，将二者合并转换为能够用于数学计算的一维数学向量；

第五步，将第四步的一维数学向量作为任务规划器的输入，输出一个用于指导机器人的任务描述向量；

第六步，结合第五步中的任务描述向量和第二步中获得的各个物体的物理坐标(x_i,y_i)，生成用于控制机器人的动作指令，机器人根据动作指令，逐步完成机器人对目标视频中序列任务的模仿。

所述第三步中，识别视频中原子动作序列的方法是：

原子动作模型由两部分拼接而成：第一部分是：不包含顶部全连接层的残差网络预训练模型Resnet50，该模型已经在数据集ImageNet上作预先训练；该部分模型输出一个长度为2048的向量，且不参与训练；第二部分是：拼接在预训练模型后的4层全连接层，分别包含256、128、32、4个神经元，参与训练；最后一层4个神经元输出长度为4的向量，该向量每一位代表一个原子动作：移动，抓取，放置，推动；将当前帧与当前帧的差分图像合并后输入原子动作识别模型中，预测当前帧的原子动作；

通过原子动作模型，识别待模仿的视频中的原子动作序列的步骤为：先将视频逐帧读入，每一帧和该帧的前后4帧的差分图像作为原子动作识别模型的输入，假设视频中共有n帧图像，输入表示为：

Input_k＝[I_k-2-I_k,I_k-1-I_k,I_k,I_k+1-I_k,I_k+2-I_k],k＝3,4,..,n-2

每一个包含了n帧的视频，能得到一个长度为n-4的序列；

对序列进行去重复化处理，使得序列中的每一段对应一个原子动作，得到具有11个原子动作的序列，并用0，1，2，3来分别表示移动，抓取，放置，推动这四个原子动作；最终得到一个11维向量作为该视频的原子动作序列；

从示教视频中识别到的原子动作序列用于后续任务的规划。

进一步的，所述第五步中，在物体种类和原子动作序列组合成的向量基础上，任务规划器生成任务描述向量并指导机器人完成模仿的步骤为：

假设物体种类共有m种，则从1，2，3…m每一个数字代表一种物体；环境中包含多种物体，随机选取其中3种普通物品和1中容器类物体，在这四种物体上做后续任务的规划；识别到的物体种类使用数字来表示，将数字化的物体种类向量和原子动作序列向量串联，组合成为一个15维的向量作为任务规划器的输入；

任务规划器是一个结构化预测网络；该预测网络的输入为15维向量，输出为42维向量，输出向量中各个位代表了当前任务的种类，以及和当前任务有关的两个物体，任务规划器采用结构化支持向量机(SSVM)算法，通过最小化损失函数来训练任务规划器；

物体种类和原子动作序列组成的向量是长度固定的，训练好的任务规划器输入一个15维向量，输出一个规划好的42维任务描述向量；任务描述向量中每一位的值都代表不同的含义，依次对照每一位的含义，对应指导机器人完成一系列模仿动作。

进一步的，所述第六步中，完成机器人对目标视频中序列任务的模仿的步骤为：

在第五步的基础上，参照任务描述向量，按照顺序，将向量中各位取值的含义，对应到机器人操作控制上；任务规划器的输出给出了当前执行的任务和任务的对象，通过TCP/IP协议将物体的位置发送给机器人，控制机器人移动到物体上方执行相应的动作；

在执行序列任务的模仿时，模仿的动作不同，会使得机器人完成任务的方式也不同；抓取(pick)动作分解成以下动作：

(1)令机器人z方向上向下移动到目标物体上方10mm；

(2)闭合夹爪；

(3)令机器人在z方向上向上移动到初始位置；

(4)判断夹爪是否完全闭合，若完全闭合则抓取失败，若不完全闭合则抓取成功。

进一步的，所述第六步中，在执行序列任务的模仿时，所述的推(push)动作分解成以下动作：

(1)令机器人z方向上向下移动到目标物体上方10mm；

(2)半闭合夹爪，将物体抓牢；

(3)令机器人在x,y方向上向上推动到目标位置；

(4)松开夹爪，机器人在z方向上移动到初始位置。

进一步的，所述第六步中，在执行序列任务的模仿时，所述放置(place)动作分解为以下动作：

(1)令机器人移动到目标物体上方10mm；

(2)张开夹爪；

(3)令机器人在z方向上向上移动到初始位置。

本发明与现有技术相比的有益效果在于：

(1)本发明采用物体识别和原子动作识别技术，模仿人类学习任务的特点，完成了机器人的视频模仿学习，与已有的基于强化学习方法的机器人模仿任务相比，具有更强的泛化性，能在不同的环境，物体种类下完成任务，明显具有更强的通用性。

(2)视觉模仿的是视频中的序列任务，而非在轨迹、动作层面。因此模仿获得的信息既可以在仿真环境下完成机器人的序列任务模仿，也可以在实际环境中指导机器人完成序列任务的模仿，迁移到实际环境无需额外的训练，实用性更强，同时也防止了训练过程中对机器人造成损害。

(3)与已有的一些行为克隆方法相比，本方法采用MaskR-CNN，在识别物体种类的同时，也准确的识别出了物体的掩码信息，通过掩码信息更加准确的判断物体的像素位置，有利于通过坐标变换获得更精确的物理坐标，提高了机器人抓取，推放物体的效率。

附图说明

图1为本发明的基于视频模仿的过程流程图；

图2为本发明中基于区域的掩码卷积神经网络识别的结果；

图3(a)为手移动到物体处；

图3(b)为推动物体到目标位置；

图3(c)为手移开；

图3(d)为手拿起物体；

图3(e)为移动到容器上方；

图3(f)为将物体放入容器；

图3(g)为拿起容器中的物体；

图3(h)为移动到容器上方；

图3(i)为移动到另一位置，放下物体；

图4(a)机器人选取物体；

图4(b)机器人推动物体到目标位置；

图4(c)机器人推动物体到目标位置完成任务；

图5(a)机器人选取物体火车模型；

图5(b)机器人将火车模型移动到容器盘子上方，并将抓取的物体放入容器内；

图5(c)机器人完成将物体放入容器的任务；

图6(a)机器人抓取容器中的物体；

图6(b)机器人将该物体移动到空旷的位置；

图6(c)机器人完成了将物体从容器中拿出放于空旷处的任务。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明提出一种基于视觉模仿的机器人序列任务学习方法，具体步骤如下：

步骤1.视觉传感器固定在物体正上方，视野范围覆盖整个工作平面，机器人位于工作平面侧面，其工作空间覆盖整个工作平面；

步骤2.假设视野范围内共有n个物体，根据视觉传感器获得的图像，利用Mask R-CNN算法在图像上生成所有物体的覆盖矩形以及每个覆盖矩形内的每个像素点是否为物体上一点的标志信号。初始化n个空的目标点集合，对每一个目标物体的覆盖矩形遍历其中所有的像素点，若该像素点是目标物体上的一点，则将其加入到相应的目标点集合中去。完成所有覆盖矩形的遍历后，得到n个物体的掩码像素点集。同时初始化一个集合，记录n个矩形框内对应的物体种类，同时将n个物体种类按照容器类和普通物品划分。

步骤3.利用公式

计算每一个掩码像素点集的中心，式中m为掩码像素点集中像素点的个数。至此得到视野内n个目标物体在像素坐标下的中心位置坐标(x_pixel,y_pixel)_k。

步骤4.由于视觉传感器在工作平面的正上方，其视角与工作平面垂直，位置关系是确定的。通过测量视觉传感器视野的左上角、右下角两个角点坐标(x_left,y_left),(x_right,y_right)，根据公式

其中求得每一个物体在工作平面内的物理位置(x,y)_k,k＝1,2,…,n，其中R_x,R_y是视觉传感器的分辨率。至此求得视野内所有物体的真实坐标(x,y)_k。

步骤5.通过原子动作模型，识别待模仿的视频中的原子动作序列的步骤为：先将视频逐帧读入，每一帧和该帧的前后4帧的差分图像作为原子动作识别模型的输入，假设视频中共有n帧图像，输入可表示为：

Input_k＝[I_k-2-I_k,I_k-1-I_k,I_k,I_k+1-I_k,I_k+2-I_k],k＝3,4,..,n-2

原子动作模型由两部分拼接而成：第一部分是：不包含顶部全连接层的ImageNet预训练模型Resnet50，该部分模型输出一个长度为2048的向量，且不参与训练；第二部分是：拼接在预训练模型后的4层全连接层，分别包含256、128、32、4个神经元，参与训练。最后一层4个神经元输出长度为4的向量，该向量每一位代表一个原子动作：移动，抓取，放置，推动。将Input_k输入原子动作识别模型中，预测当前帧的原子动作。循环预测每一帧对应的原子动作，可以得到一个长度为n-4的序列，对序列进行去重复化处理，抽取出11个其中的“move，pick，place，push”这四个元素，并用0，1，2，3来分别表示这四个原子动作。最终得到一个11维向量作为该视频的原子动作序列。例如：序列中前20个元素均为“移动”，可以用一个原子动作“移动”来代替这一段。因此对序列进行去重复化处理，因为用于训练的视频中包含的原子动作数量均为11个，所以可以从每段视频中抽取出11个原子动作，并用0，1，2，3来分别表示移动，抓取，放置，推动这四个原子动作；最终得到一个11维向量作为该视频的原子动作序列。

步骤6.假设物体种类共有m种，则从1，2，3…m每一个数字代表一种物体。环境中往往包含大于5种的物体，我们随机选取其中3种普通物品和1中容器类物体，在这四种物体上做后续任务的规划。因此识别到的物体种类可以使用数字来表示，将数字化的物体种类向量和原子动作序列向量串联，组合成为一个15维的向量作为任务规划器的输入。

步骤7.任务规划器是一个结构化预测网络。该网络的输入为15维向量，输出为42维向量，输出向量中各个位代表了当前任务的种类，以及和当前任务有关的两个物体，例如：推任务，物体A推向物体B。任务规划器采用结构化支持向量机(SSVM)算法，通过最小化损失函数来训练任务规划器。

任务规划器的输出给出了当前执行的任务和任务的对象，通过TCP/IP协议将物体的位置发送给机器人，控制机器人移动到物体上方执行相应的动作。

步骤8.模仿动作的不同，会使得机器人完成任务的方式也不同。抓取(pick)动作可以分解成以下动作：(1)令机器人z方向上向下移动到目标物体上方10mm；(2)闭合夹爪；(3)令机器人在z方向上向上移动到初始位置；(4)判断夹爪是否完全闭合，若完全闭合则抓取失败，若不完全闭合则抓取成功。

推(push)动作可以分解成以下动作：(1)令机器人z方向上向下移动到目标物体上方10mm；(2)半闭合夹爪，将物体抓牢；(3)令机器人在x,y方向上向上推动到目标位置；(4)松开夹爪，机器人在z方向上移动到初始位置。

放置(place)动作可以分解为以下动作：(1)令机器人移动到目标物体上方10mm；(2)张开夹爪；(3)令机器人在z方向上向上移动到初始位置。

参见图2，为本发明中基于区域的掩码卷积神经网络识别的结果。虚线矩形框为将识别到的物体框出表示，虚线矩形框左上角字符表示该物体的种类，种类后的小数表示虚线矩形框中的物体种类预测正确的概率，物体上的被覆盖区域为生成的掩码。

参见图3，为本发明中视频中原子动作识别结果。图3中截取了视频中个别帧进行展示，该视频中包含将三个任务：①推动任务，②将物体放入容器任务，③将物体拿出容器任务。图3中(a)，(b)，(c)展示了推动任务的详细过程，分别为手移动到物体处，推动物体到目标位置，手移开。图3中(d)，(e)，(f)详细描述了将物体放入容器的任务，依次为：拿起物体，移动到容器上方，放入物体。图3中(g)，(h)，(i)详细描述了将物体拿出容器的任务，依次为：拿起容器中的物体，移动到容器上方，移动到另一位置，放下物体。

参见图4(a)-图4(c)，为机器人模仿视频完成第一个任务，即推动物体的任务。首先机器人在面对的新环境下，选取可以推动的物体和推向的目标物体，完成了推动物体的任务。

参见图5(a)-图5(c)，为机器人模仿视频完成第二个任务，即将另一物体拿入容器中。首先机器人选取可以拿起的物体——火车模型，然后将火车模型移动到容器盘子上方，并将抓取的物体放入容器内，完成了将物体放入容器的任务。

参见图6(a)-图6(c)，为机器人模仿视频完成第三个任务，即将物体从容器中拿出放于空旷处。首先机器人抓取容器中的物体——火车模型，然后将该物体移动到空旷的位置，并将抓取的物体放下，完成了将物体从容器中拿出放于空旷处的任务。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于视觉模仿的机器人序列任务学习方法，其特征在于：利用深度学习的方法完成物体识别和视频中原子动作的识别，通过基于结构化预测的任务规划器指导机器人完成视频模仿任务；机器人执行模仿任务的环境为：在工作平面放置各种不同种类的物体，视觉传感器固定于桌面正上方，机器人位于桌子侧面；包括如下步骤：

2.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法，其特征在于：所述第三步中，识别视频中原子动作序列的方法是：

Input_k＝[I_k-2-I_k,I_k-1-I_k,I_k,I_k+1-I_k,I_k+2-I_k],k＝3,4,..,n-2

每一个包含了n帧的视频，能得到一个长度为n-4的序列；

从示教视频中识别到的原子动作序列用于后续任务的规划。

3.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法，其特征在于：

所述第五步中，在物体种类和原子动作序列组合成的向量基础上，任务规划器生成任务描述向量并指导机器人完成模仿的步骤为：

4.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法，其特征在于：所述第六步中，完成机器人对目标视频中序列任务的模仿的步骤为：

(1)令机器人z方向上向下移动到目标物体上方10mm；

(2)闭合夹爪；

(3)令机器人在z方向上向上移动到初始位置；

5.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法，其特征在于：所述第六步中，在执行序列任务的模仿时，所述的推(push)动作分解成以下动作：

(1)令机器人z方向上向下移动到目标物体上方10mm；

(2)半闭合夹爪，将物体抓牢；

(3)令机器人在x,y方向上向上推动到目标位置；

(4)松开夹爪，机器人在z方向上移动到初始位置。

6.根据权利要求1所述的基于视觉模仿的机器人序列任务学习方法，其特征在于：所述第六步中，在执行序列任务的模仿时，所述放置(place)动作分解为以下动作：

(1)令机器人移动到目标物体上方10mm；

(2)张开夹爪；

(3)令机器人在z方向上向上移动到初始位置。