CN107622311A - 一种基于语境翻译的机器人模仿学习方法 - Google Patents
一种基于语境翻译的机器人模仿学习方法 Download PDFInfo
- Publication number
- CN107622311A CN107622311A CN201710927010.3A CN201710927010A CN107622311A CN 107622311 A CN107622311 A CN 107622311A CN 201710927010 A CN201710927010 A CN 201710927010A CN 107622311 A CN107622311 A CN 107622311A
- Authority
- CN
- China
- Prior art keywords
- translation
- linguistic context
- mrow
- msubsup
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于语境翻译的机器人模仿学习方法,其主要内容包括:学习语境翻译、用于特征追踪的奖励功能和加强学习算法的特征追踪,其过程为,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。本发明通过学习语境翻译模型,实现在高维度的观察和学习,也能处理语境改变的情况;此外,实现有效地语境翻译和学习,还能够应用于机器人的模仿学习中。
Description
技术领域
本发明涉及模仿学习领域,尤其是涉及了一种基于语境翻译的机器人模仿学习方法。
背景技术
随着科学技术的发展,机器人学已经成为人工智能领域研究的热点问题之一,它体现了目前研究的机器控制水平。在机器人控制中,机器人的模仿学习是自动系统获取控制策略的有效方法。模仿学习是使机器通过观察人类工具使用的视频来学习涉及工具使用的机器人技能。通过学习,机器人可以进一步学习各种技能,如完成扫地、拖地、洗碗、叠衣服等家务工作,又如完成传送和取回物品、开门关门等能够在未来减少人类工作量,给人们带来便利,提高人们幸福感的工作。然而,现有的模拟学习方法不能实现在高维度的观察和学习,而且不能处理语境改变的情况。
本发明提出了一种基于语境翻译的机器人模仿学习方法,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。本发明通过学习语境翻译模型,实现在高维度的观察和学习,也能处理语境改变的情况;此外,实现有效地语境翻译和学习,还能够应用于机器人的模仿学习中。
发明内容
针对不能处理语境改变的问题,本发明的目的在于提供一种基于语境翻译的机器人模仿学习方法,先从一个未知的语境中学习新的演示,再在这些演示中学习一个语境翻译模型,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察,接着用于特征追踪的奖励功能惩罚已翻译特征的偏差,从而产生观察结果,最后加强学习算法的特征追踪,在学习环境中学习控制策略,可以用于加强学习算法,计算图像特征。
为解决上述问题,本发明提供一种基于语境翻译的机器人模仿学习方法,其主要内容包括:
(一)学习语境翻译;
(二)用于特征追踪的奖励功能;
(三)加强学习算法的特征追踪。
其中,所述的模拟观察算法,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
其中,所述的学习语境翻译,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
进一步地,所述的翻译模型,翻译模型是通过对演示和 进行训练的,其中,Di来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
进一步地,所述的翻译,通过学习整体翻译函数使得其输出 对于所有t和每对训练演示Di和Dj都紧密匹配也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
进一步地,所述的模型的组件,该模型由四个组件组成:组件一为源观测编码器表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失的监督。
进一步地,所述的编码器和解码器,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗 并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失这使编码器Enc1和解码器Dec采用一致的特征表示,使得目标语境观察被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数 给出,其中,Di和Dj是从训练集中随机选择的一对演示,而λ1和λ2是超参数。
其中,所述的用于特征追踪的奖励功能,特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
其中,计算在时间步长t的观察特征,由给出,计算翻译特征。
进一步地,所述的追踪奖励,追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
最终奖励是加权组合其中,ωrec是一个小常数。
其中,所述的加强学习算法的特征追踪,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。
附图说明
图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。
图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。
图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于语境翻译的机器人模仿学习方法的系统框架图。主要包括学习语境翻译,用于特征追踪的奖励功能,加强学习算法的特征追踪。
模拟观察算法是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
学习语境翻译,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
加强学习算法的特征追踪,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。
图2是本发明一种基于语境翻译的机器人模仿学习方法的翻译模型。翻译模型是通过对演示和进行训练的,其中,Di来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
该模型由四个组件组成:组件一为源观测编码器表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失的监督。
为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失这使编码器Enc1和解码器Dec采用一致的特征表示,使得目标语境观察被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数给出,其中,Di和Dj是从训练集中随机选择的一对演示,而λ1和λ2是超参数。
图3是本发明一种基于语境翻译的机器人模仿学习方法的用于特征追踪的奖励功能。特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
其中,计算在时间步长t的观察特征,由给出,计算翻译特征。
追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
最终奖励是加权组合其中,ωrec是一个小常数。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于语境翻译的机器人模仿学习方法,其特征在于,主要包括学习语境翻译(一);用于特征追踪的奖励功能(二);加强学习算法的特征追踪(三)。
2.基于权利要求书1所述的模拟观察算法,其特征在于,它是基于学习可以将演示从一个语境(例如,第三人视点和人类演示者)转换到另一语境(例如,第一人视点和机器人)的语境翻译模型;通过训练一个模型来执行这种转换,从而获得一个适合追踪演示行为的特征。
3.基于权利要求书1所述的学习语境翻译(一),其特征在于,由于每个演示Dk都是从一个未知的语境ωk生成的,所以学习者不能在自己的语境ωl中直接跟踪这些演示;然而,由于有来自多个未知但不同背景的演示,所以可以在这些演示中学习一个语境翻译模型;只假设在特定语境ωk中演示的第一帧可以用于隐含地提取关于语境ωk的信息。
4.基于权利要求书3所述的翻译模型,其特征在于,翻译模型是通过对演示 和进行训练的,其中,Dj来自未知语境ωi(源语境),Dj来自未知语境ωj(目标语境);该模型必须学习输出Dj条件下的观测值Di和目标语境ωj中的第一个观测值因此,模型从目标环境中观察单个结果,并且通过从源语境翻译演示来预测在该语境中将来的观察;一旦被训练,这个模型可以提供任何演示Dk,将其转化为学习者的语境ωl进行跟踪。
5.基于权利要求书4所述的翻译,其特征在于,通过学习整体翻译函数使得其输出对于所有t和每对训练演示Di和Dj都紧密匹配也就是说,该模型将来自Di的观察结果转化为语境ωj,仅限于Dj中的第一个观察
6.基于权利要求书3所述的模型的组件,其特征在于,该模型由四个组件组成:组件一为源观测编码器表示为z1;组件二为将观测值编码为源和目标特征的目标初始观测编码器表示为z2;组件三为转换器z3=T(z1,z2),其将特征z1转换为z2的语境的特征,表示为z3;组件四为将目标语境解码的解码器Dec(z3),解码为
使用来表示从输入观察和语境图像生成特征z3的特征提取器;编码器Enc1和Enc2可以具有不同的权重或束缚,这取决于演示场景的多样性;该模型在输出端和端对端之间进行了一个平方误差损失的监督。
7.基于权利要求书6所述的编码器和解码器,其特征在于,为了确保翻译的特征z3形成与编码图像z1内部一致的表示,共同训练翻译模型编码器Enc1和解码器Dec作为自动编码器,具有重建损耗并且同时使特征表示此自动编码器,以将其与特征z3对齐,使用损失这使编码器Enc1和解码器Dec采用一致的特征表示,使得目标语境观察被编码成与被翻译的特征z3相似的特征;整个模型的训练目标由组合损失函数给出,其中,Di和Dj是从训练集中随机选择的一对演示,而λ1和λ2是超参数。
8.基于权利要求书1所述的用于特征追踪的奖励功能(二),其特征在于,特征追踪奖励功能的第一个组成部分是对已翻译特征的偏差的惩罚;在每个时间步骤中,翻译函数F(已给出z3)可以用于将每个演示观察值转化为学习者的语境ωl;然后,奖励函数对应于最小化所有这些演示的欧几里得距离的平方,这大致符合其平均值,导致:
<mrow>
<msub>
<mover>
<mi>R</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>f</mi>
<mi>e</mi>
<mi>a</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mo>|</mo>
<mo>|</mo>
<msub>
<mi>Enc</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mi>i</mi>
<mi>n</mi>
</munderover>
<mi>F</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>o</mi>
<mn>0</mn>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,计算在时间步长t的观察特征,由给出,计算翻译特征。
9.基于权利要求书8所述的追踪奖励,其特征在于,追踪奖励还有一种称为弱图像跟踪奖励,这种奖励直接惩罚了通过使用完整的观察翻译模型M来产生与翻译观察不同的观察结果的方法:
<mrow>
<msub>
<mover>
<mi>R</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
<mi>g</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mo>|</mo>
<mo>|</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>l</mi>
</msubsup>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>n</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mi>i</mi>
<mi>n</mi>
</munderover>
<mi>M</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>o</mi>
<mi>t</mi>
<mi>i</mi>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>o</mi>
<mn>0</mn>
<mi>l</mi>
</msubsup>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msubsup>
<mo>|</mo>
<mn>2</mn>
<mn>2</mn>
</msubsup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
最终奖励是加权组合其中,ωrec是一个小常数。
10.基于权利要求书1所述的加强学习算法的特征追踪(三),其特征在于,进行强化学习,以便在学习环境中学习控制策略;该方法可以用于任何加强学习算法;计算图像特征z3,并将它们作为状态的一部分;指导性方法搜索(GPS)的成本函数是状态空间中的欧几里德距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927010.3A CN107622311A (zh) | 2017-10-09 | 2017-10-09 | 一种基于语境翻译的机器人模仿学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710927010.3A CN107622311A (zh) | 2017-10-09 | 2017-10-09 | 一种基于语境翻译的机器人模仿学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107622311A true CN107622311A (zh) | 2018-01-23 |
Family
ID=61091339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710927010.3A Withdrawn CN107622311A (zh) | 2017-10-09 | 2017-10-09 | 一种基于语境翻译的机器人模仿学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107622311A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334363A (zh) * | 2019-07-12 | 2019-10-15 | 厦门大学 | 一种基于混合编码器的描述子翻译及相似度度量方法 |
CN113239634A (zh) * | 2021-06-11 | 2021-08-10 | 上海交通大学 | 一种基于鲁棒模仿学习的模拟器建模方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881397A (zh) * | 2014-02-27 | 2015-09-02 | 富士通株式会社 | 缩写词扩展方法和装置 |
CN107170012A (zh) * | 2017-05-12 | 2017-09-15 | 深圳市唯特视科技有限公司 | 一种基于语境信息进行视点估计的方法 |
CN107844473A (zh) * | 2017-09-25 | 2018-03-27 | 沈阳航空航天大学 | 基于语境相似度计算的词义消歧方法 |
-
2017
- 2017-10-09 CN CN201710927010.3A patent/CN107622311A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104881397A (zh) * | 2014-02-27 | 2015-09-02 | 富士通株式会社 | 缩写词扩展方法和装置 |
CN107170012A (zh) * | 2017-05-12 | 2017-09-15 | 深圳市唯特视科技有限公司 | 一种基于语境信息进行视点估计的方法 |
CN107844473A (zh) * | 2017-09-25 | 2018-03-27 | 沈阳航空航天大学 | 基于语境相似度计算的词义消歧方法 |
Non-Patent Citations (1)
Title |
---|
YUXUAN LIU ET AL.: "Imitation from Observation: Learning to Imitate Behaviors from Raw Video via Context Translation", 《ARXIV》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334363A (zh) * | 2019-07-12 | 2019-10-15 | 厦门大学 | 一种基于混合编码器的描述子翻译及相似度度量方法 |
CN113239634A (zh) * | 2021-06-11 | 2021-08-10 | 上海交通大学 | 一种基于鲁棒模仿学习的模拟器建模方法 |
CN113239634B (zh) * | 2021-06-11 | 2022-11-04 | 上海交通大学 | 一种基于鲁棒模仿学习的模拟器建模方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Scaradozzi et al. | Towards a definition of educational robotics: a classification of tools, experiences and assessments | |
Weese et al. | STEM outreach: Assessing computational thinking and problem solving | |
Cuéllar et al. | Design and implementation of intelligent systems with LEGO Mindstorms for undergraduate computer engineers | |
Lin et al. | Design and implementation of interdisciplinary STEM instruction: Teaching programming by computational physics | |
Aparicio et al. | Learning programming using educational robotics | |
Abbass et al. | Machine Education: Designing semantically ordered and ontologically guided modular neural networks | |
Çakıroğlu et al. | Assessing teachers’ PCK to teach computational thinking via robotic programming | |
CN107622311A (zh) | 一种基于语境翻译的机器人模仿学习方法 | |
Jonassen | First principles of learning | |
Ghosh et al. | Adaptive Scaffolding in Block-Based Programming via Synthesizing New Tasks as Pop Quizzes | |
CN113177393B (zh) | 改进针对网页结构理解的预训练语言模型的方法和装置 | |
Kumaran et al. | End-to-end procedural level generation in educational games with natural language instruction | |
Udvaros et al. | Technical IT solutions in teaching | |
Stoyanov | Teaching artificial intelligence in cyber-physical systems | |
Gee | Human action and social groups as the natural home of assessment: Thoughts on 21st century learning and assessment | |
Wang | Construction of Multimedia Teaching Platform for Ecological Economics Course Based on Information Technology. | |
Yeni et al. | Interdisciplinary integration of computational thinking in K-12 education: A systematic review | |
Ahmed et al. | ThinknLearn: An ontology-driven mobile web application for science enquiry based learning | |
Ching et al. | Developing computational thinking in young learners via robotics: A review of literature | |
Zhang et al. | Design and practice of arduino experiments for" E&I" oriented education | |
Gong et al. | The effect of PDCA cycle strategy on pupils’ tangible programming skills and reflective thinking | |
Shibberu | Introduction to deep learning: A first course in machine learning | |
Allison et al. | Revisiting Polya's approach to foster problem solving skill development in software engineers | |
Gu | Recursive Algorithm and its Practice in C Language Online Course Teaching | |
Tavella et al. | Signs of Language: Embodied Sign Language Fingerspelling Acquisition from Demonstrations for Human-Robot Interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180123 |
|
WW01 | Invention patent application withdrawn after publication |