CN107622311A

CN107622311A - 一种基于语境翻译的机器人模仿学习方法

Info

Publication number: CN107622311A
Application number: CN201710927010.3A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-01-23

Abstract

本发明中提出的一种基于语境翻译的机器人模仿学习方法，其主要内容包括：学习语境翻译、用于特征追踪的奖励功能和加强学习算法的特征追踪，其过程为，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。本发明通过学习语境翻译模型，实现在高维度的观察和学习，也能处理语境改变的情况；此外，实现有效地语境翻译和学习，还能够应用于机器人的模仿学习中。

Description

一种基于语境翻译的机器人模仿学习方法

技术领域

本发明涉及模仿学习领域，尤其是涉及了一种基于语境翻译的机器人模仿学习方法。

背景技术

随着科学技术的发展，机器人学已经成为人工智能领域研究的热点问题之一，它体现了目前研究的机器控制水平。在机器人控制中，机器人的模仿学习是自动系统获取控制策略的有效方法。模仿学习是使机器通过观察人类工具使用的视频来学习涉及工具使用的机器人技能。通过学习，机器人可以进一步学习各种技能，如完成扫地、拖地、洗碗、叠衣服等家务工作，又如完成传送和取回物品、开门关门等能够在未来减少人类工作量，给人们带来便利，提高人们幸福感的工作。然而，现有的模拟学习方法不能实现在高维度的观察和学习，而且不能处理语境改变的情况。

本发明提出了一种基于语境翻译的机器人模仿学习方法，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。本发明通过学习语境翻译模型，实现在高维度的观察和学习，也能处理语境改变的情况；此外，实现有效地语境翻译和学习，还能够应用于机器人的模仿学习中。

发明内容

针对不能处理语境改变的问题，本发明的目的在于提供一种基于语境翻译的机器人模仿学习方法，先从一个未知的语境中学习新的演示，再在这些演示中学习一个语境翻译模型，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察，接着用于特征追踪的奖励功能惩罚已翻译特征的偏差，从而产生观察结果，最后加强学习算法的特征追踪，在学习环境中学习控制策略，可以用于加强学习算法，计算图像特征。

为解决上述问题，本发明提供一种基于语境翻译的机器人模仿学习方法，其主要内容包括：

(一)学习语境翻译；

(二)用于特征追踪的奖励功能；

(三)加强学习算法的特征追踪。

其中，所述的模拟观察算法，它是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。

其中，所述的学习语境翻译，由于每个演示D_k都是从一个未知的语境ω_k生成的，所以学习者不能在自己的语境ω_l中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ω_k中演示的第一帧可以用于隐含地提取关于语境ω_k的信息。

进一步地，所述的翻译模型，翻译模型是通过对演示和进行训练的，其中，D_i来自未知语境ω_i(源语境)，D_j来自未知语境ω_j(目标语境)；该模型必须学习输出D_j条件下的观测值D_i和目标语境ω_j中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示D_k，将其转化为学习者的语境ω_l进行跟踪。

进一步地，所述的翻译，通过学习整体翻译函数使得其输出对于所有t和每对训练演示D_i和D_j都紧密匹配也就是说，该模型将来自D_i的观察结果转化为语境ω_j，仅限于D_j中的第一个观察

进一步地，所述的模型的组件，该模型由四个组件组成：组件一为源观测编码器表示为z₁；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z₂；组件三为转换器z₃＝T(z₁,z₂)，其将特征z₁转换为z₂的语境的特征，表示为z₃；组件四为将目标语境解码的解码器Dec(z₃)，解码为

使用来表示从输入观察和语境图像生成特征z₃的特征提取器；编码器Enc₁和Enc₂可以具有不同的权重或束缚，这取决于演示场景的多样性；该模型在输出端和端对端之间进行了一个平方误差损失的监督。

进一步地，所述的编码器和解码器，为了确保翻译的特征z₃形成与编码图像z₁内部一致的表示，共同训练翻译模型编码器Enc₁和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将其与特征z₃对齐，使用损失这使编码器Enc₁和解码器Dec采用一致的特征表示，使得目标语境观察被编码成与被翻译的特征z₃相似的特征；整个模型的训练目标由组合损失函数给出，其中，D_i和D_j是从训练集中随机选择的一对演示，而λ₁和λ₂是超参数。

其中，所述的用于特征追踪的奖励功能，特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z₃)可以用于将每个演示观察值转化为学习者的语境ω_l；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：

其中，计算在时间步长t的观察特征，由给出，计算翻译特征。

进一步地，所述的追踪奖励，追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：

最终奖励是加权组合其中，ω_rec是一个小常数。

其中，所述的加强学习算法的特征追踪，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z₃，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。

附图说明

图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。

图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。

图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。主要包括学习语境翻译，用于特征追踪的奖励功能，加强学习算法的特征追踪。

模拟观察算法是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。

学习语境翻译，由于每个演示D_k都是从一个未知的语境ω_k生成的，所以学习者不能在自己的语境ω_l中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ω_k中演示的第一帧可以用于隐含地提取关于语境ω_k的信息。

加强学习算法的特征追踪，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z₃，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。

图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。翻译模型是通过对演示和进行训练的，其中，D_i来自未知语境ω_i(源语境)，D_j来自未知语境ω_j(目标语境)；该模型必须学习输出D_j条件下的观测值D_i和目标语境ω_j中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示D_k，将其转化为学习者的语境ω_l进行跟踪。

通过学习整体翻译函数使得其输出对于所有t和每对训练演示D_i和D_j都紧密匹配也就是说，该模型将来自D_i的观察结果转化为语境ω_j，仅限于D_j中的第一个观察

该模型由四个组件组成：组件一为源观测编码器表示为z₁；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z₂；组件三为转换器z₃＝T(z₁,z₂)，其将特征z₁转换为z₂的语境的特征，表示为z₃；组件四为将目标语境解码的解码器Dec(z₃)，解码为

为了确保翻译的特征z₃形成与编码图像z₁内部一致的表示，共同训练翻译模型编码器Enc₁和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将其与特征z₃对齐，使用损失这使编码器Enc₁和解码器Dec采用一致的特征表示，使得目标语境观察被编码成与被翻译的特征z₃相似的特征；整个模型的训练目标由组合损失函数给出，其中，D_i和D_j是从训练集中随机选择的一对演示，而λ₁和λ₂是超参数。

图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z₃)可以用于将每个演示观察值转化为学习者的语境ω_l；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：

追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：

最终奖励是加权组合其中，ω_rec是一个小常数。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于语境翻译的机器人模仿学习方法，其特征在于，主要包括学习语境翻译(一)；用于特征追踪的奖励功能(二)；加强学习算法的特征追踪(三)。

2.基于权利要求书1所述的模拟观察算法，其特征在于，它是基于学习可以将演示从一个语境(例如，第三人视点和人类演示者)转换到另一语境(例如，第一人视点和机器人)的语境翻译模型；通过训练一个模型来执行这种转换，从而获得一个适合追踪演示行为的特征。

3.基于权利要求书1所述的学习语境翻译(一)，其特征在于，由于每个演示D_k都是从一个未知的语境ω_k生成的，所以学习者不能在自己的语境ω_l中直接跟踪这些演示；然而，由于有来自多个未知但不同背景的演示，所以可以在这些演示中学习一个语境翻译模型；只假设在特定语境ω_k中演示的第一帧可以用于隐含地提取关于语境ω_k的信息。

4.基于权利要求书3所述的翻译模型，其特征在于，翻译模型是通过对演示和进行训练的，其中，D_j来自未知语境ω_i(源语境)，D_j来自未知语境ω_j(目标语境)；该模型必须学习输出D_j条件下的观测值D_i和目标语境ω_j中的第一个观测值因此，模型从目标环境中观察单个结果，并且通过从源语境翻译演示来预测在该语境中将来的观察；一旦被训练，这个模型可以提供任何演示D_k，将其转化为学习者的语境ω_l进行跟踪。

5.基于权利要求书4所述的翻译，其特征在于，通过学习整体翻译函数使得其输出对于所有t和每对训练演示D_i和D_j都紧密匹配也就是说，该模型将来自D_i的观察结果转化为语境ω_j，仅限于D_j中的第一个观察

6.基于权利要求书3所述的模型的组件，其特征在于，该模型由四个组件组成：组件一为源观测编码器表示为z₁；组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z₂；组件三为转换器z₃＝T(z₁,z₂)，其将特征z₁转换为z₂的语境的特征，表示为z₃；组件四为将目标语境解码的解码器Dec(z₃)，解码为

7.基于权利要求书6所述的编码器和解码器，其特征在于，为了确保翻译的特征z₃形成与编码图像z₁内部一致的表示，共同训练翻译模型编码器Enc₁和解码器Dec作为自动编码器，具有重建损耗并且同时使特征表示此自动编码器，以将其与特征z₃对齐，使用损失这使编码器Enc₁和解码器Dec采用一致的特征表示，使得目标语境观察被编码成与被翻译的特征z₃相似的特征；整个模型的训练目标由组合损失函数给出，其中，D_i和D_j是从训练集中随机选择的一对演示，而λ₁和λ₂是超参数。

8.基于权利要求书1所述的用于特征追踪的奖励功能(二)，其特征在于，特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚；在每个时间步骤中，翻译函数F(已给出z₃)可以用于将每个演示观察值转化为学习者的语境ω_l；然后，奖励函数对应于最小化所有这些演示的欧几里得距离的平方，这大致符合其平均值，导致：

<mrow> <msub> <mover> <mi>R</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mi>e</mi> <mi>a</mi> <mi>t</mi> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>Enc</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </munderover> <mi>F</mi> <mrow> <mo>(</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mn>0</mn> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

9.基于权利要求书8所述的追踪奖励，其特征在于，追踪奖励还有一种称为弱图像跟踪奖励，这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法：

<mrow> <msub> <mover> <mi>R</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>m</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mo>|</mo> <mo>|</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>l</mi> </msubsup> <mo>-</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>n</mi> </munderover> <mi>M</mi> <mrow> <mo>(</mo> <msubsup> <mi>o</mi> <mi>t</mi> <mi>i</mi> </msubsup> <mo>,</mo> <msubsup> <mi>o</mi> <mn>0</mn> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

最终奖励是加权组合其中，ω_rec是一个小常数。

10.基于权利要求书1所述的加强学习算法的特征追踪(三)，其特征在于，进行强化学习，以便在学习环境中学习控制策略；该方法可以用于任何加强学习算法；计算图像特征z₃，并将它们作为状态的一部分；指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。