CN114193443A - 用于控制机器人设备的设备和方法 - Google Patents

用于控制机器人设备的设备和方法 Download PDF

Info

Publication number
CN114193443A
CN114193443A CN202111086090.7A CN202111086090A CN114193443A CN 114193443 A CN114193443 A CN 114193443A CN 202111086090 A CN202111086090 A CN 202111086090A CN 114193443 A CN114193443 A CN 114193443A
Authority
CN
China
Prior art keywords
projected
policy
normal distribution
updated
multivariate normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111086090.7A
Other languages
English (en)
Inventor
F·奥图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN114193443A publication Critical patent/CN114193443A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39001Robot, manipulator control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40499Reinforcement learning algorithm

Abstract

本发明公开了用于控制机器人设备的设备和方法,其中该方法(400)具有:由机器人设备使用机器人控制模型执行动作序列(402);使用所执行的动作序列确定更新后的策略(404);将更新后的策略投影到投影后的策略上,使得对于投影后的策略的多个状态中的每个状态:根据投影后的策略和更新后的策略之间的相似度度量的相似度值得到最大化,并且根据投影后的策略和初始策略之间的相似度度量的相似度值大于预定义阈值(406);适配机器人控制模型以实现投影后的策略(408);以及使用经过适配的机器人控制模型来控制机器人设备(410)。

Description

用于控制机器人设备的设备和方法
技术领域
各种实施例一般地涉及用于控制机器人设备的设备和方法。
背景技术
可以使用机器人控制模型来控制机器人设备。为此,可以借助于诸如强化学习(也称为增强学习,英语:Reinforcement Learning)的机器学习来训练机器人控制模型。在此,所述机器人控制模型可以借助于针对目标的策略为机器人设备的当前状态选择要通过所述机器人设备执行的动作。看上去针对多个状态中相应状态的策略映射为多个动作中的一个动作。可以在机器人控制模型的训练期间和/或在经过训练的机器人控制模型的推理期间更新该策略。在此,初始策略和更新后的策略之间的相似度在预定义区域(例如置信区域)内可能是期望的和/或必要的。
在Schulman等人的“Trust Region Policy Optimization(置信域策略优化)”,ICML,Proceedings of Machine Learning Research,37,2015中描述了一种置信区域策略优化(TRPO),其中策略更新在以下条件下进行,即更新后的策略位于置信区域内。在该文献中,所述条件是使用平均KL散度对初始策略和更新后的策略之间的Kullback-Leibler(KL)散度进行启发式近似。
然而,在强化学习中必须考虑探索-利用妥协(也称为探索-利用困境)。
在Abdolmaleki等人的“Model-based relative entropy stochastic search(基于模型的相对熵随机搜索)”, Advances in Neural Information Processing Systems,2015中,描述了如果在更新策略时不考虑更新后的策略的熵,则这可能由于增强利用而导致过早的策略收敛。在置信区域内更新策略时,可以将所述策略的熵作为附加条件考虑在内。
Akrour等人的“Projections for Approximate Policy Iteration Algorithms(近似策略迭代算法的预测)”,ICLR,2019建立在Schulman等人描述的TRPO方法和Abdolmaleki等人描述的策略熵的附加条件的基础上,其中将经过更新的条件约束策略投影到无条件约束策略中。
然而,在TRPO中使用的条件以及因此该条件的投影是基于关于所有状态的平均KL散度。因此,投影后的策略的各个状态可能违反置信区域的条件(例如,位于所述置信区域之外)。因此可能需要的是,提供一种能够在更新策略时确保每个状态的置信区域的方法。
此外,所描述的置信区域策略优化和策略的投影限于平均KL散度。因此,使用其他数学方法将策略投影到置信区域中可能会有所帮助和/或有必要,例如数学上更合适的方法(例如需要较少计算技术耗费的数学方法,例如能够以封闭形式求解的数学方法)。
此外,能够有利的和/或对于机器人控制模型的端到端训练来说必要的是,提供一种用于将策略投影到置信区域中的方法,借助于该方法将策略投影作为一个或多个可微分层实现在神经网络中。
在Amos和Kolter的“OptNet: Differentiable Optimization as a Layer inNeural Networks(OptNet:作为神经网络中的层的可微分优化)”,34th InternationalConference on Machine Learning,2017中描述了一种方法,其可以将优化问题作为可微分层集成到神经网络(OptNet)中。
发明内容
具有独立权利要求1(第一示例)和14(第十八示例)特征的方法和设备可以训练机器人控制模型,使得在更新机器人控制模型的策略时对于所述机器人控制模型的每个状态都确保置信区域(例如相应的置信区域)。
因此,用于控制机器人设备的设备和方法能够更有效地(例如更快地,例如以更高的准确度,例如以改进的探索和利用比率)训练所述机器人控制模型。
机器人控制模型可以是基于机器学习的模型。所述机器人控制模型例如可以具有强化学习算法。根据各种实施例,所述机器人控制模型的至少一部分可以借助于神经网络来实现。
机器人设备可以是任何类型的由计算机控制的设备,例如机器人(例如制造机器人、维修机器人、家用机器人、医疗机器人等)、车辆(例如自主车辆)、家用电器、生产机器、个人助理、访问控制系统等。
通过对于所述机器人控制模型的每个状态都确保置信区域的方式投影所述机器人控制模型的更新后的策略,可以控制(例如改进,例如优化)例如强化学习中的探索-利用妥协。
使用所执行的动作序列确定更新后的策略可以具有:通过将奖励函数分别应用于所导致的状态,为所执行的动作序列中的每个所执行的动作确定相应的奖励;以及使用初始策略和所确定的奖励来确定所述更新后的策略,使得期望的奖励得到最大化。本段中描述的特征结合第一示例形成第二示例。
将更新后的策略投影到投影后的策略上可以具有:将所述更新后的策略投影到所述投影后的策略上,使得对于投影后的策略的多个状态中的每个状态:根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值得到最大化,根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于预定义阈值,以及所述投影后的策略的熵大于或等于预定义熵阈值。本段中所描述的特征结合第一示例或第二示例形成第三示例。
可以表现为,多个状态策略中每个状态的熵大于或等于预定义熵阈值的条件导致在对策略更新时例如不仅协方差,而且所述投影后的策略的多元正态分布的期望值都得到改变。
所述初始策略可以具有多个动作的初始多元正态分布。所述更新后的策略可以具有多个动作的更新后的多元正态分布。所述投影后的策略可以具有多个动作的投影后的多元正态分布。将更新后的策略投影到投影后的策略上可以具有:将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值。本段中描述的特征结合第一示例至第三示例中的一个或多个形成第四示例。
将更新后的策略投影到投影后的策略上可以具有:将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值;以及投影后的多元正态分布的熵大于或等于预定义熵阈值。本段中所描述的特征结合第三示例和第四示例形成第五示例。
将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值,可以具有:使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于马氏距离和Frobenius范数确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第六示例。
将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值,可以具有:使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于Wasserstein距离确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第七示例。
使用根据第六示例的马氏距离和Frobenius范数或根据第七示例的Wasserstein距离具有以下效果:可以以数学上封闭的形式确定更新后的策略的投影。例如,可以将以这种方式确定的投影后的策略集成为神经网络中的一个层(或多个层)。
将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:根据投影后的多元正态分布与更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据投影后的多元正态分布与初始多元正态分布之间的相似度度量的相似度值大于预定义阈值,可以具有:使用初始多元正态分布、更新后的多元正态分布和预定义阈值借助于数值优化器确定投影后的多元正态分布。本段中所描述的特征结合第四示例或第五示例形成第八示例。
所述数值优化器可以使用Kullback-Leibler散度来确定投影后的多元正态分布。本段中所描述的特征结合第八示例形成第九示例。
投影后的多元正态分布的确定可以采用拉格朗日乘数方法。本段中所描述的特征结合第六至第九示例中的一个或多个形成第十示例。
所述机器人控制模型可以是神经网络。本段中所描述的特征结合第一示例至第十示例中的一个或多个形成第十一示例。
将更新后的策略投影到投影后的策略上可以作为神经网络中的一个或多个层(例如可微分层)来实现。本段中所描述的特征结合第十一示例形成第十二示例。
将策略投影到状态自己的置信区域中作为一个或多个可微分层集成到神经网络中具有以下效果:可以使用策略投影端到端地训练所述神经网络,其中在训练期间对每个状态都确保置信区域的条件。
适配所述机器人控制模型以实现投影后的策略可以具有借助于梯度方法适配所述机器人控制模型。本段中所描述的特征结合第一示例至第十二示例中的一个或多个形成第十三示例。
使用经过适配的机器人控制模型来控制所述机器人设备可以具有:由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作;借助于回归,使用所执行的一个或多个动作来更新策略。本段中所描述的特征结合第一示例至第十三示例中的一个或多个形成第十四示例。
使用经过适配的机器人控制模型来控制所述机器人设备可以具有:由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作;使用所执行的一个或多个动作来更新策略,使得预期奖励和根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值之差得到最大化。本段中所描述的特征结合第一示例至第十三示例中的一个或多个形成第十五示例。
一种用于控制机器人设备的方法可以具有:由所述机器人设备使用机器人控制模型执行动作序列,其中执行所述动作序列中的每个动作具有:使用初始策略借助于所述机器人控制模型为所述机器人设备的多个状态中的当前状态确定动作,由所述机器人设备执行所确定的动作,并且确定由所执行的动作导致的所述机器人设备的状态;使用所执行的行动序列确定更新后的策略;确定投影后的策略,使得针对所述投影后的策略的预期奖励与根据所述投影后的策略的多个状态中的每个状态和所述更新后的策略之间的相似度度量的相似度值之差得到最大化;适配所述机器人控制模型以实现所述投影后的策略;以及使用经过适配的机器人控制模型来控制所述机器人设备。具有本段中所描述特征的方法形成第十六示例。
一种用于控制机器人设备的方法可以具有:由所述机器人设备使用机器人控制模型执行动作序列,其中执行所述动作序列中的每个动作具有:使用初始策略借助于所述机器人控制模型为所述机器人设备的多个状态中的当前状态确定动作,由所述机器人设备执行所确定的动作,并且确定由所执行的动作导致的所述机器人设备的状态;使用所执行的行动序列确定更新后的策略;确定投影后的策略,使得针对所述投影后的策略的预期奖励与根据所述投影后的策略的多个状态中的每个状态和所述更新后的策略之间的相似度度量的相似度值之差得到最大化;以及使用投影后的策略借助于所述机器人控制模型来控制所述机器人设备。具有本段中描述的特征的方法形成第十七示例。
计算机程序产品可以存储程序指令,如果执行所述程序指令,则所述程序指令执行根据第一示例至第十七示例中的一个或多个的方法。具有本段中所描述特征的计算机程序产品形成第十九示例。
非易失性存储介质可以存储程序指令,如果执行所述程序指令,则所述程序指令执行第一示例至第十七示例中的一个或多个的方法。具有本段中描述的特征的非易失性存储介质形成第二十示例。
非易失性存储介质可以存储程序指令,如果执行所述程序指令,则所述程序指令执行第一示例至第十七示例中的一个或多个的方法。具有本段中描述的特征的非易失性存储介质形成第二十一示例。
附图说明
本发明的实施例在附图中示出并且在下面的描述中得到更详细的解释。
其中:
图1示出了根据各种实施方式的示例性机器人设备布置;
图2示出了根据各种实施方式的用于确定策略的说明性流程图;
图3示出了示出根据各种实施方式使用数值优化器来确定投影后的策略的图表;
图4示出了根据各种实施方式的用于控制机器人设备的方法;
图5示出了根据各种实施方式的用于控制机器人设备的方法。
具体实施方式
在一种实施方式中,“计算机”可以理解为任何类型的逻辑实现实体,其可以是硬件、软件、固件或其组合。因此在一种实施方式中,“计算机”可以是硬连线逻辑电路或可编程逻辑电路,例如可编程处理器,例如微处理器(例如,CISC(大型指令集处理器)或RISC(精简指令集处理器))。“计算机”可以具有一个或多个处理器。“计算机”也可以是由处理器实现或执行的软件,例如任何类型的计算机程序,例如使用诸如Java的虚拟机代码的计算机程序。与一种替代实施方式一致,可以将以下更详细地描述的相应功能的任何其他类型的实现理解为“计算机”。
可以使用基于强化学习的机器人控制模型来控制机器人设备。为了在更新机器人控制模型的策略时确保改进的探索和利用(例如最佳)妥协,可能需要在置信区域内更新策略。各种实施例涉及用于控制机器人设备的设备和方法,它们能够训练机器人控制模型,使得针对机器人设备的每个状态的更新后的策略都位于所述置信区域内。可以表现为在更新机器人控制模型的策略时考虑和确保机器人设备的每个状态的置信区域。
图1示出了机器人设备布置100。机器人设备布置100可以具有机器人设备101。为了说明,在图1中示出并且在下面示例性描述的机器人设备101代表示例性的机器人设备并且例如可以具有用于对工件进行移动、安装或加工的机器人臂形式的工业机器人。提示:所述机器人设备可以是任何类型的计算机控制设备,例如机器人(例如制造机器人、维修机器人、家用机器人、医疗机器人等)、车辆(例如自主车辆)、家用电器、生产机器、个人助理、访问控制系统等。
机器人设备101具有机器人肢体102、103、104和承载机器人肢体102、103、104的基座(或通常是支架)105。术语“机器人肢体”涉及机器人设备101的可运动部分,所述可运动部分的致动使得能够与环境进行物理交互,例如以便执行任务,例如执行动作。
为了进行控制,机器人设备布置100包含控制设备106,所述控制设备被设置为根据控制程序实现与环境的交互。机器人肢体102、103、104的最后一个元件104(从基座105看过去)也称为末端效应器104并且可以包含一个或多个工具,如焊炬、夹持工具、涂漆设备等。
其他机器人肢体102、103(更靠近基座105)可以形成定位设备,使得机器人臂(或关节臂)与末端效应器104一起设置,其中末端效应器104设置在所述机器人臂的末端处。机器人臂是一种机械臂,其可以满足与人类手臂类似的功能(可能所述机器人臂的末端带有工具)。
机器人设备101可以包含将机器人肢体102、103、104彼此连接并与基座105连接的连接元件107、108、109。连接元件107、108、109可以具有一个或多个关节,每个关节可以为所属的机器人肢体提供相对于彼此的旋转运动和/或平移运动(即,位移)。机器人肢体102、103、104的运动可以借助于由控制设备106控制的调节机构启动。
术语“调节机构”可以理解为适合于响应于受到驱动而影响机械装置的组件。所述调节机构可以将控制设备106所输出的指令(所谓的激活)转换为机械运动。诸如机电换能器的调节机构可以被设置为响应于其操控将电能转换为机械能。
术语“控制设备”(也称为“控制装置”)可以理解为任何类型的逻辑实现单元,其可以包含例如能够执行存储在存储介质中的软件、固件或其组合的电路和/或处理器,并且可以发布指令,例如向本示例中的调节机构。所述控制设备可以例如通过程序代码(例如软件)来设置用于控制系统的运行,该系统在本示例中是机器人。
在本示例中,控制设备106包含计算机110和存储代码和数据的存储器111,计算机110基于这些代码和数据来控制机器人设备101。根据各种实施方式,控制设备106基于存储在存储器111中的机器人控制模型112来控制机器人设备101。
根据各种实施方式,机器人设备布置100可以具有一个或多个传感器113。一个或多个传感器113可以被设置为提供表征所述机器人设备的状态的传感器数据。例如,一个或多个传感器113可以具有诸如相机(例如标准相机、数码相机、红外相机、立体相机等)的成像传感器、雷达传感器、LIDAR传感器、位置传感器、速度传感器、超声传感器、加速度传感器、压力传感器等。
机器人设备101可以处于多种状态中的状态
Figure DEST_PATH_IMAGE002
。根据各种实施方式,机器人设备101可以在任何时间点处于多个状态中的当前状态。可以使用由一个或多个传感器113提供的传感器数据来确定多个状态中的相应状态。
机器人设备101可以被设置为执行多个动作。例如,可以在控制设备106的程序代码中预定义多个动作中的动作。多个动作中的一个或多个动作可以具有例如一个或多个机器人肢体102、103、104的机械运动。多个动作中的一个或多个动作可以具有例如末端效应器的动作(例如抓握,例如松开等)。根据各种实施方式,在机器人设备101的当前状态
Figure DEST_PATH_IMAGE003
下执行的动作
Figure DEST_PATH_IMAGE005
可以导致机器人设备101的多个状态中的导致的状态。
机器人控制模型112可以是基于强化学习的模型。例如,机器人控制模型112可以实现强化学习算法。
机器人控制模型112可以被设置用于为多个状态中的一个状态确定多个动作中的一个动作。例如,机器人控制模型112可以响应于多个状态中一个状态的输入而输出多个动作中的一个动作。可以表现为,机器人控制模型112从多个状态中的一个状态映射到多个动作中的一个动作。多个状态中的状态可以形成状态空间。多个动作的动作可以形成动作空间。可以表现为,机器人控制模型112从状态空间映射到动作空间。
根据各种实施方式,机器人控制模型112可以具有策略(英语:policy)
Figure DEST_PATH_IMAGE007
。例如,机器人控制模型112可以在任何时间点遵循策略。可以将相应的策略分配给目标和/或任务。例如,相应的策略可以是用于实现目标或完成任务的策略。根据各种实施方式,策略可以响应于多个状态中的一个状态的输入而输出多个动作中的一个动作。可以表现为,由机器人控制模型112使用的策略从状态空间映射到动作空间。
可以向多个状态中的每个状态分配多个动作的相应概率分布(例如正态分布)。根据各种实施方式,策略可以具有或可以是多元正态分布(也称为多维正态分布和/或多元高斯分布)。多元正态分布可以由期望值向量和协方差矩阵定义。策略的多元正态分布的期望值向量可以具有多个状态中每个状态的期望值。策略的多元正态分布的协方差矩阵(在此也称为协方差)可以取决于多个状态(例如,是多个状态的函数)。
根据各种实施方式,控制设备106可以被设置为控制机器人设备101,使得机器人设备101执行和/或实施针对机器人设备101的当前状态由机器人控制模型112使用当前策略确定的动作。
控制设备106可以被设置用于为由所执行的动作导致的机器人设备101的状态确定奖励(英语:reward)
Figure DEST_PATH_IMAGE009
。根据各种实施方式,控制设备106可以使用奖励函数来确定导致的状态的奖励。例如,用于执行奖励函数的算法可以存储在存储器111中。例如,机器人控制模型112可以被设置为执行所述奖励函数。例如,可以将为导致的状态确定的奖励分配给结合机器人设备101的初始状态执行的动作。
根据各种实施方式,机器人设备101可以使用机器人控制模型112来执行动作序列。控制设备106可以被设置为使用初始策略
Figure DEST_PATH_IMAGE011
确定所述动作序列中的每个动作。控制设备106可以被设置用于为所执行的动作序列中的每个所执行的动作确定相应的奖励。
控制设备106(例如控制设备106的计算机110)可以被设置为使用所执行的动作序列来确定更新后的策略
Figure DEST_PATH_IMAGE013
。控制设备106可以被设置为确定更新后的策略
Figure DEST_PATH_IMAGE014
,使得方程式(1)中给出的预期奖励增加(例如,最大化):
Figure DEST_PATH_IMAGE016
(1),
其中
Figure DEST_PATH_IMAGE018
是使用所述策略为了实现目标或完成任务而遍历的状态
Figure DEST_PATH_IMAGE019
和动作
Figure DEST_PATH_IMAGE020
的轨迹,其中γ是折扣因子(英语:discount factor),以及其中
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
策略
Figure DEST_PATH_IMAGE025
可以由机器人控制模型112的参数
Figure DEST_PATH_IMAGE027
定义,例如可以通过
Figure DEST_PATH_IMAGE027A
Figure DEST_PATH_IMAGE028
参数化。
根据各种实施方式,可以使用方程式(2)来确定更新后的策略
Figure DEST_PATH_IMAGE028A
Figure DEST_PATH_IMAGE030
(2),
其中
Figure DEST_PATH_IMAGE011A
是初始策略(例如之前使用的策略),以及
其中
Figure DEST_PATH_IMAGE032
是收益函数。可以例如通过
Figure DEST_PATH_IMAGE034
来确定所述收益函数,其中
Figure DEST_PATH_IMAGE036
是动作价值函数(英语:action value function),而
Figure DEST_PATH_IMAGE038
是价值函数(英语:value function)。
根据各种实施方式,可以使用按照重要性的随机采样(英语:importancesampling,重要性采样)来确定更新后的策略
Figure DEST_PATH_IMAGE039
根据各种实施方式,更新后的策略
Figure DEST_PATH_IMAGE040
可以服从关于初始策略
Figure DEST_PATH_IMAGE041
的一个或多个条件(例如边界条件,例如次要条件)。例如,条件可以是更新后的策略
Figure DEST_PATH_IMAGE042
在关于初始策略
Figure DEST_PATH_IMAGE043
的置信区域(英语:Trust Region)内(例如,机器人控制模型112可以实现基于置信区域的强化学习)。例如,条件可以是多个状态中每个状态
Figure DEST_PATH_IMAGE044
的根据更新后的策略
Figure DEST_PATH_IMAGE039A
与初始策略
Figure DEST_PATH_IMAGE011AA
之间的相似度度量的相似度值大于预定义阈值。例如,如果更新后的策略
Figure DEST_PATH_IMAGE045
与初始策略
Figure DEST_PATH_IMAGE011AAA
之间的距离d小于或等于预定义阈值
Figure DEST_PATH_IMAGE047
,则多个状态中每个状态
Figure DEST_PATH_IMAGE044A
的根据待使用的策略与初始策略
Figure DEST_PATH_IMAGE048
之间的相似度度量的相似度值可能大于预定义阈值。根据各种实施方式,可以将相应的预定义阈值
Figure DEST_PATH_IMAGE047A
分配给多个状态中的每个状态。例如,关于方程式(2)的条件(受制于)是,多个状态中每个状态
Figure DEST_PATH_IMAGE044AA
的根据更新后的策略
Figure DEST_PATH_IMAGE049
和初始策略
Figure DEST_PATH_IMAGE011AAAA
之间的相似度度量的相似度值大于预定义阈值
Figure DEST_PATH_IMAGE047AA
,该条件根据方程式(3)描述为:
Figure DEST_PATH_IMAGE051
(3)。
可以表现为,限制状态空间中的每个点(例如状态)的更新后的策略。表现为,在置信区域内更新策略的效果是策略以不过大的步长接近最优策略(例如以不过大的步长收敛)。可以表现为,所使用的策略的变化程度是有限的。
根据各种实施方式,条件可以是多个状态中每个状态
Figure DEST_PATH_IMAGE052
的更新后的策略
Figure DEST_PATH_IMAGE053
的熵
Figure DEST_PATH_IMAGE055
大于或等于预定义的熵阈值
Figure DEST_PATH_IMAGE057
。例如,关于方程式(2)的条件可以根据方程式(4)描述为:
Figure DEST_PATH_IMAGE059
(4)。
使用根据方程式(3)和可选地进一步根据方程式(4)的与更新后的策略
Figure DEST_PATH_IMAGE053A
相关的条件使得能够控制机器人控制模型112的强化学习的探索(也称为Exploration)和利用(也称为Exploitation)。
根据各种实施方式,可以借助于方程式(5)来定义使用根据方程式(3)和(4)的条件的方程式(2):
Figure DEST_PATH_IMAGE061
(5)。
参考图2,机器人控制模型112可以使用初始策略
Figure DEST_PATH_IMAGE048A
确定(在202中)动作序列中的每个动作。如本文所述,控制设备106可以根据方程式(2)确定(在204中)更新后的策略
Figure DEST_PATH_IMAGE062
,其中更新后的策略
Figure DEST_PATH_IMAGE063
可以受方程式(3)中定义的条件的限制且可选地还受方程式(4)中定义的条件的限制。可以表现为,更新后的策略
Figure DEST_PATH_IMAGE028AA
可以是受限制的更新后的策略
Figure DEST_PATH_IMAGE013A
。更新后的策略
Figure DEST_PATH_IMAGE063A
对于多个状态中的每个状态都是可以受限制的(例如,服从根据方程式(3)的条件)。可以表现为,更新后的策略
Figure DEST_PATH_IMAGE028AAA
是状态独特的受限制的更新后的策略
Figure DEST_PATH_IMAGE064
。例如,多个状态中的每个状态可以具有各自的预定义阈值
Figure DEST_PATH_IMAGE047AAA
,使得预定义阈值
Figure DEST_PATH_IMAGE065
可以是预定义阈值向量。
控制设备106可以被设置为确定(在206中)投影后的策略
Figure DEST_PATH_IMAGE067
。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE064A
投影到投影后的策略
Figure DEST_PATH_IMAGE067A
上。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE025A
投影到投影后的策略
Figure DEST_PATH_IMAGE067AA
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067AAA
的多个状态中的每个状态,增加(例如,最大化)根据投影后的策略
Figure DEST_PATH_IMAGE067AAAA
和更新后的策略
Figure DEST_PATH_IMAGE028AAAA
之间的相似度度量的相似度值。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE040A
投影到投影后的策略
Figure DEST_PATH_IMAGE067_5A
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067_6A
的多个状态中的每个状态,增加(例如最大化)根据投影后的策略
Figure DEST_PATH_IMAGE068
和更新后的策略
Figure DEST_PATH_IMAGE069
之间的相似度度量的相似度值,并且对于投影后的策略
Figure DEST_PATH_IMAGE067_7A
的多个状态中的每个状态,根据投影后的策略
Figure DEST_PATH_IMAGE067_8A
和初始策略
Figure DEST_PATH_IMAGE011_5A
之间的相似度度量的相似度值大于预定义阈值
Figure DEST_PATH_IMAGE070
。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE042A
投影到投影后的策略
Figure DEST_PATH_IMAGE068A
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067_9A
的多个状态中的每个状态,增加(例如最大化)根据投影后的策略
Figure DEST_PATH_IMAGE067_10A
和更新后的策略
Figure DEST_PATH_IMAGE040AA
之间的相似度度量的相似度值,并且对于投影后的策略
Figure DEST_PATH_IMAGE068AA
的多个状态中的每个状态,根据投影后的策略
Figure DEST_PATH_IMAGE067_11A
和初始策略
Figure DEST_PATH_IMAGE041A
之间的相似度度量的相似度值大于预定义阈值
Figure DEST_PATH_IMAGE071
,并且对于投影后的策略
Figure DEST_PATH_IMAGE067_12A
的多个状态中的每个状态,多个状态中每个状态
Figure DEST_PATH_IMAGE003A
的更新后的策略
Figure DEST_PATH_IMAGE039AA
的熵
Figure DEST_PATH_IMAGE072
大于或等于预定义熵阈值
Figure DEST_PATH_IMAGE073
根据各种实施方式,可以借助于分配的多元正态分布来描述相应的策略。例如,初始策略
Figure DEST_PATH_IMAGE011_6A
可以具有多个动作的初始多元正态分布。初始多元正态分布可以描述为:
Figure DEST_PATH_IMAGE075
,其中
Figure DEST_PATH_IMAGE077
是初始期望值向量,而
Figure DEST_PATH_IMAGE079
是初始多元正态分布的初始协方差。例如,更新后的策略
Figure DEST_PATH_IMAGE039AAA
可以具有多个动作的更新后的多元正态分布。更新后的多元正态分布可以描述为:
Figure DEST_PATH_IMAGE081
,其中
Figure DEST_PATH_IMAGE083
是更新后的多元正态分布的更新后的期望值向量,而
Figure DEST_PATH_IMAGE085
是更新后的多元正态分布的更新后的协方差。初始期望值向量、初始协方差、更新后的期望值向量和/或更新后的协方差可以是多个状态的函数。例如,投影后的策略
Figure DEST_PATH_IMAGE067_13A
可以具有多个动作的投影后的多元正态分布。投影后的多元正态分布可以描述为:
Figure DEST_PATH_IMAGE087
,其中
Figure DEST_PATH_IMAGE089
是投影后的多元正态分布的投影后的期望值向量,而
Figure DEST_PATH_IMAGE091
是投影后的多元正态分布的投影后的协方差。投影后的期望值向量可以取决于初始期望值向量、更新后的期望值向量、初始协方差、更新后的协方差、预定义阈值和/或多个状态。投影后的协方差可以取决于初始期望值向量、更新后的期望值向量、初始协方差、更新后的协方差、预定义阈值、多个状态和/或预定义熵阈值。
控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE092
投影到投影后的策略
Figure DEST_PATH_IMAGE067_14A
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067_15A
的多个状态中的每个状态,增加(例如,最大化)根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE093
投影到投影后的策略
Figure DEST_PATH_IMAGE067_16A
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067_17A
的多个状态中的每个状态,增加(例如最大化)根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值,并且对于投影后的策略
Figure DEST_PATH_IMAGE067_18A
的多个状态中的每个状态,根据投影后的多元正态分布和初始多元正态分布之间的相似度度量的相似度值大于预定义阈值
Figure DEST_PATH_IMAGE094
。控制设备106可以被设置为将更新后的策略
Figure DEST_PATH_IMAGE095
投影到投影后的策略
Figure DEST_PATH_IMAGE067_19A
上,使得对于投影后的策略
Figure DEST_PATH_IMAGE067_20A
的多个状态中的每个状态,增加(例如最大化)根据投影后的多元正态分布和更新后的多元正态分布之间的相似度度量的相似度值,对于投影后的策略
Figure DEST_PATH_IMAGE068AAA
的多个状态中的每个状态,根据投影后的多元正态分布和初始多元正态分布之间的相似度度量的相似度值大于预定义阈值
Figure DEST_PATH_IMAGE096
,并且对于投影后的多元正态分布的多个状态中的每个状态,多个状态中每个状态
Figure DEST_PATH_IMAGE097
的更新后的多元正态分布的熵
Figure DEST_PATH_IMAGE098
大于或等于预定义熵阈值
Figure DEST_PATH_IMAGE099
如本文所描述的,可以使用距离d来描述根据相似度度量的相似度值。根据各种实施方式,根据投影后的策略
Figure DEST_PATH_IMAGE100
的投影后的多元正态分布与更新后的策略
Figure DEST_PATH_IMAGE101
的更新后的多元正态分布之间的相似度度量的相似度值可以具有投影后的策略
Figure DEST_PATH_IMAGE067_21A
的投影后的多元正态分布与更新后的多元正态分布之间的距离d。根据各种实施方式,根据投影后的策略
Figure DEST_PATH_IMAGE068AAAA
的投影后的多元正态分布与初始策略
Figure DEST_PATH_IMAGE048AA
的初始多元正态分布之间的相似度度量的相似度值可以具有投影后的策略
Figure DEST_PATH_IMAGE067_22A
的投影后的多元正态分布与初始策略
Figure DEST_PATH_IMAGE041AA
的初始多元正态分布之间的距离d。根据各种实施方式,可以根据方程式(6)至(8)来描述用于确定投影后的策略
Figure DEST_PATH_IMAGE067_23A
的优化问题:
Figure DEST_PATH_IMAGE103
根据各种实施方式,可以将更新后的策略
Figure DEST_PATH_IMAGE040AAA
投影到投影后的策略
Figure DEST_PATH_IMAGE067_24A
上,使得投影后的策略是不受限制的投影后的策略
Figure DEST_PATH_IMAGE067_25A
。可以表现为,通过满足这些条件(例如,参见方程式(6))的方式来确定投影后的策略
Figure DEST_PATH_IMAGE067_26A
。表现为,将更新后的策略
Figure DEST_PATH_IMAGE028_5A
投影到投影后的策略
Figure DEST_PATH_IMAGE068_5A
上,使得投影后的多元正态分布尽可能接近更新后的多元正态分布(例如,投影后的多元正态分布和更新后的多元正态分布之间的距离是最小的)并且投影后的多元正态分布(以及因此投影后的策略
Figure DEST_PATH_IMAGE067_27A
)满足这些条件。
投影后的多元正态分布可以借助于投影后的期望值向量
Figure DEST_PATH_IMAGE104
和投影后的协方差
Figure DEST_PATH_IMAGE091A
来描述。将更新后的策略
Figure DEST_PATH_IMAGE105
投影到投影后的策略
Figure DEST_PATH_IMAGE067_28A
上可以具有确定投影后的期望值向量
Figure DEST_PATH_IMAGE104A
和投影后的协方差
Figure DEST_PATH_IMAGE091AA
可以表现为,在本文描述的一个或多个条件下将更新后的多元正态分布投影到投影后的多元正态分布上。可以表现为,将更新后的多元正态分布投影到投影后的多元正态分布上,使得对于多个状态中的每个状态都满足本文描述的一个或多个条件。
下面描述了用于确定投影后的期望值向量
Figure DEST_PATH_IMAGE104AA
和投影后的协方差
Figure DEST_PATH_IMAGE091AAA
的三种示例性投影方法:
(I)使用马氏距离和Frobenius范数的第一种投影方法;
(II)使用Wasserstein距离的第二种投影方法;和
(III)使用数值优化器的第三种投影方法。
(I)第一种投影方法
根据各种实施方式,可以使用根据方程式(9)的关于投影后的期望值向量
Figure DEST_PATH_IMAGE104AAA
和投影后的协方差
Figure DEST_PATH_IMAGE091AAAA
的马氏距离和Frobenius范数来描述优化问题的方程式(6):
Figure DEST_PATH_IMAGE107
(9)。
根据各种实施方式,期望值向量和协方差可以彼此独立。例如,可以独立地观察期望值向量和协方差。例如,对于根据方程式(10)的期望值向量的预定义阈值
Figure DEST_PATH_IMAGE109
和根据方程式(11)的协方差的预定义阈值
Figure DEST_PATH_IMAGE111
,可以考虑根据方程式(7)的条件:
Figure DEST_PATH_IMAGE113
可以表现为,观察根据关于期望值向量的相似度度量的相似度值和根据关于协方差的相似度度量的相似度值。根据各种实施方式,可以使用拉格朗日乘数方法来求解根据方程式(9)至(11)描述的优化问题。例如,可以根据方程式(12)的拉格朗日函数
Figure DEST_PATH_IMAGE115
来描述方程式(9)至(11)的拉格朗日对偶性:
Figure DEST_PATH_IMAGE117
(12),
其中
Figure DEST_PATH_IMAGE119
Figure DEST_PATH_IMAGE121
是拉格朗日乘数。
通过求解方程式(12)得到根据方程式(13)的投影后的期望值向量和根据方程式(14)的投影后的协方差:
Figure DEST_PATH_IMAGE123
(13)
Figure DEST_PATH_IMAGE125
(14),
其中可以根据方程式(15)确定
Figure DEST_PATH_IMAGE119A
和根据方程式(16)确定
Figure DEST_PATH_IMAGE126
Figure DEST_PATH_IMAGE128
(15)
Figure DEST_PATH_IMAGE130
(16)。
(II)第二种投影方法
根据各种实施方式,可以使用根据方程式(17)的关于投影后的期望值向量
Figure DEST_PATH_IMAGE104AAAA
和投影后的协方差
Figure DEST_PATH_IMAGE091_5A
的Wasserstein距离(例如缩放的Wasserstein距离)来描述优化问题的方程式(6):
Figure DEST_PATH_IMAGE132
(17),
其中tr是矩阵的迹。
Wasserstein距离对于两个正态分布包含这两个正态分布的期望值的欧几里德距离。乘以初始协方差
Figure DEST_PATH_IMAGE133
并缩放Wasserstein距离导致Mahalanobis距离(为此例如参见方程式(17))。
如本文所述,可以彼此独立地观察期望值向量和协方差。例如,对于根据方程式(18)的期望值向量的预定义阈值
Figure DEST_PATH_IMAGE134
和根据方程式(19)的协方差的预定义阈值
Figure DEST_PATH_IMAGE135
,可以考虑根据方程式(7)的条件:
Figure DEST_PATH_IMAGE137
其中
Figure DEST_PATH_IMAGE139
是单位矩阵(也称为信息矩阵)。
根据各种实施方式,可以使用拉格朗日乘数方法来求解根据方程式(17)至(19)描述的优化问题。关于投影后的期望值向量
Figure DEST_PATH_IMAGE104_5A
的解,参考方程式(13)和方程式(15)。
根据各种实施方式,可以求解关于投影后的协方差的根的优化问题。例如,可以根据方程式(20)的拉格朗日函数
Figure DEST_PATH_IMAGE141
来描述方程式(17)和(19)的拉格朗日对偶。
Figure DEST_PATH_IMAGE143
(20)
通过求解方程式(20)得到根据方程式(21)的投影后的协方差:
Figure DEST_PATH_IMAGE145
(21)
其中可以根据方程式(22)确定
Figure DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE148
(22)
由此,可以以封闭形式求解第一种投影方法和第二种投影方法(可以以封闭形式确定投影后的多元正态分布)。
(III)第三种投影方法
根据各种实施方式,可以借助于数值优化器来求解根据方程式(6)至(8)的优化问题。
图3示出了显示根据各种实施方式使用数值优化器302来确定投影后的策略
Figure DEST_PATH_IMAGE149
的方案。例如,控制设备106(例如,控制设备106的计算机110)可以被设置为实现数值优化器302。
可以借助于正则参数
Figure DEST_PATH_IMAGE151
(也称为自然参数)和累积量生成函数
Figure DEST_PATH_IMAGE153
来描述多元正态分布。
数值优化器302可以被设置为针对正则参数
Figure DEST_PATH_IMAGE151A
和累积量生成函数
Figure DEST_PATH_IMAGE153A
求解根据方程式(6)至(8)的优化问题,其方式是数值优化器302针对正则参数
Figure DEST_PATH_IMAGE151AA
和累积量生成函数
Figure DEST_PATH_IMAGE154
确定第一优化拉格朗日乘数
Figure DEST_PATH_IMAGE156
和第二优化拉格朗日乘数
Figure DEST_PATH_IMAGE158
。例如,数值优化器302可以使用KL散度确定第一优化拉格朗日乘数
Figure DEST_PATH_IMAGE156A
和第二优化拉格朗日乘数
Figure DEST_PATH_IMAGE158A
根据各种实施方式,控制设备106可以根据
Figure DEST_PATH_IMAGE160
为更新的协方差
Figure DEST_PATH_IMAGE161
304确定更新的累积量生成函数
Figure DEST_PATH_IMAGE154A
306。例如,对于更新的期望值向量
Figure DEST_PATH_IMAGE162
308和更新的累积量生成函数
Figure DEST_PATH_IMAGE154AA
306,控制设备106可以根据
Figure DEST_PATH_IMAGE164
确定更新的正则参数
Figure DEST_PATH_IMAGE151AAA
310。
数值优化器302可以被设置为使用更新的累积量生成函数
Figure DEST_PATH_IMAGE153AA
306和更新的正则参数
Figure DEST_PATH_IMAGE165
310来确定第一优化拉格朗日乘数
Figure DEST_PATH_IMAGE166
和第二优化拉格朗日乘数
Figure DEST_PATH_IMAGE167
。数值优化器302可以被设置为使用更新的累积量生成函数
Figure DEST_PATH_IMAGE168
306、更新的正则参数310、第一拉格朗日乘数
Figure DEST_PATH_IMAGE169
312和第二拉格朗日乘数
Figure DEST_PATH_IMAGE119AA
314来确定第一优化拉格朗日乘数
Figure DEST_PATH_IMAGE170
316和第二优化拉格朗日乘数
Figure DEST_PATH_IMAGE171
318。例如,第一拉格朗日乘数
Figure DEST_PATH_IMAGE172
312和/或第二拉格朗日乘数
Figure DEST_PATH_IMAGE119AAA
314可以被预定义(例如,设置)。例如,数值优化器302可以被设置为确定第一拉格朗日乘数
Figure DEST_PATH_IMAGE173
312和/或第二拉格朗日乘数
Figure DEST_PATH_IMAGE119AAAA
314。
可以使用初始协方差
Figure DEST_PATH_IMAGE133A
(例如,基于
Figure DEST_PATH_IMAGE160A
)来确定初始累积量生成函数
Figure DEST_PATH_IMAGE175
。可以使用初始累积量生成函数和初始期望值向量(例如,基于
Figure DEST_PATH_IMAGE176
)来确定初始正则参数
Figure DEST_PATH_IMAGE178
可以根据方程式(23)确定投影后的正则参数
Figure DEST_PATH_IMAGE180
320:
Figure DEST_PATH_IMAGE182
(23)。
投影后的累积量生成函数
Figure DEST_PATH_IMAGE184
322可以根据方程式(24)确定:
Figure DEST_PATH_IMAGE186
(24)。
可以使用投影后的累积量生成函数
Figure DEST_PATH_IMAGE187
322(例如,基于
Figure DEST_PATH_IMAGE188
)来确定投影后的协方差
Figure DEST_PATH_IMAGE189
324。可以使用投影后的正则参数
Figure DEST_PATH_IMAGE180A
320和投影后的累积量生成函数
Figure DEST_PATH_IMAGE187A
322(例如,基于
Figure DEST_PATH_IMAGE190
)来确定投影后的期望值向量
Figure DEST_PATH_IMAGE089A
提示:更新后的策略
Figure DEST_PATH_IMAGE069A
也可以借助于不同于本文描述的三种示例性投影方法的方式投影到投影后的策略
Figure DEST_PATH_IMAGE067_29A
上。
根据各种实施方式,投影后的策略是优化策略,并且借助于投影后的策略,可以确定机器人设备101的状态和机器人设备101执行和/或实施的动作的最优序列(例如顺序)并由机器人设备101执行。
根据各种实施方式,机器人控制模型112可以具有或者是神经网络。将更新后的策略
Figure DEST_PATH_IMAGE191
投影到投影后的策略
Figure DEST_PATH_IMAGE067_30A
上可以作为神经网络中的一个或多个层来实现。例如,将更新后的策略
Figure DEST_PATH_IMAGE192
投影到投影后的策略
Figure DEST_PATH_IMAGE067_31A
上可以作为神经网络中的一个或多个可微分层来实现。根据各种实施方式,所述一个或多个层可以被设置为,如果不满足更新后的策略
Figure DEST_PATH_IMAGE053AA
的条件之一,则执行本文描述的投影。
根据各种实施方式,控制设备106可以被设置为适配(例如,适应)机器人控制模型112以实现投影后的策略
Figure DEST_PATH_IMAGE068_6A
根据各种实施方式,机器人控制模型112可以具有神经网络并且机器人控制模型112的适配可以是神经网络的训练。例如,可以使用梯度方法(例如,策略梯度方法)来训练神经网络。根据各种实施方式,可以使用投影后的策略
Figure DEST_PATH_IMAGE067_32A
和初始策略
Figure DEST_PATH_IMAGE193
来确定一个或多个梯度。可以表现为,使用投影后的策略
Figure DEST_PATH_IMAGE067_33A
来适配神经网络是迭代地训练神经网络。根据各种实施方式,可以执行多次迭代。例如,本文描述的用于适配机器人控制模型112的方法可以执行多次。
例如,可以借助于梯度方法使用所确定的一个或多个梯度来适配(例如训练)机器人控制模型112的神经网络。
可以以封闭形式求解第一种投影方法和第二种投影方法。在这里,可以直接确定一个或多个梯度。对于第三种投影方法,可以使用Amos和Kolter描述的OptNet方法来确定一个或多个梯度。在此,神经网络的层可以求解以下拉格朗日对偶:
Figure DEST_PATH_IMAGE195
根据各种实施方式,可以借助于推导对应的Karush-Kuhn-Tucker(KKT)条件来确定(例如计算)一个或多个梯度。
可以例如借助于方程式(25)来描述固定的KKT条件:
Figure DEST_PATH_IMAGE197
(25),
其中
Figure DEST_PATH_IMAGE199
是第一KKT乘数,并且
Figure DEST_PATH_IMAGE201
是第二KKT乘数。
KKT的互补松弛度(英语:complementary slackness)可以例如借助于方程式(26)描述为:
Figure DEST_PATH_IMAGE203
(26)。
根据各种实施方式,可以通过推导Karush-Kuhn-Tucker(KKT)条件来确定一个或多个梯度。根据各种实施方式,神经网络的一个或多个层可以设置为:如果不满足本文描述的针对更新后的策略
Figure DEST_PATH_IMAGE105A
的条件之一(例如根据方程式(3)的条件,例如根据方程式(4)的条件),则执行投影。例如,可以为以下状况确定一个或多个梯度:
-满足根据方程式(3)的条件和根据方程式(4)的条件。可以表现为,在这种情况下将更新后的策略用于梯度方法。例如,不需要借助于神经网络的一个或多个层来投影策略和/或计算梯度,
-满足根据方程式(3)的条件,并且不满足根据方程式(4)的条件,
-不满足根据方程式(3)的条件,并且满足根据方程式(4)的条件,
-不满足根据方程式(3)的条件和根据方程式(4)的条件。
根据各种实施方式,如果不满足这些条件中的至少一个,则神经网络的一个或多个层可以如本文所描述的那样对策略进行投影。根据各种实施方式,如果不满足这些条件中的至少一个并且如果使用第三种投影方法,则神经网络的一个或多个层可以确定一个或多个梯度。
可以表现为,三种投影方法之一作为神经网络中的一个或多个可微分层来实现,使得可以端到端地训练神经网络,使得在训练期间针对多个状态中的每个状态确保(例如,满足)一个或多个条件(例如置信区域的条件)。
根据各种实施方式,控制设备106可以被设置为使用经过适配的机器人控制模型112来控制机器人设备101。
控制设备106可以被设置为确定机器人设备101的当前状态。控制设备106可以被设置为使用投影后的策略借助于经过适配的机器人控制模型112来确定针对当前状态要执行的动作。要执行的动作可以是例如多个动作中具有最高概率的动作(例如分配给当前状态的期望值的动作),该动作由投影后的多元正态分布描述。控制设备106可以被设置为与要执行的动作相对应地控制机器人设备101,使得机器人设备101执行和/或实施所述动作。根据各种实施方式,机器人设备101可以使用经过适配的机器人控制模型112来执行一个或多个动作。
根据各种实施方式,控制设备106可以使用所执行的一个或多个动作来更新策略。这里,如本文所述,可以确定更新后的策略并且使用更新后的策略来确定投影后的策略。根据各种实施方式,例如当推理机器人控制模型112(例如神经网络)时,可以求解根据方程式(27)的优化问题。
Figure DEST_PATH_IMAGE205
(27)
在此,可以使用所执行的一个或多个动作借助于回归(例如,具有一个或多个回归步骤)来适配机器人控制模型112。
根据各种实施方式,可以根据方程式(28)中给出的目标函数来确定投影后的策略。在此可以这样来确定投影后的策略,即增加(例如最大化)预期奖励(参见方程式(2))与根据投影后的策略和更新后的策略之间的相似度度量的相似度值之差。例如,可以通过投影后的策略和更新后的策略之间的距离
Figure DEST_PATH_IMAGE207
来确定根据投影后的策略和更新后的策略之间的相似度度量的相似度值。例如,可以使用本文描述的三种投影方法来确定投影后的策略和更新后的策略之间的距离。
Figure DEST_PATH_IMAGE209
(28)。
图4示出了根据各种实施方式的用于控制机器人设备的方法400。
方法400可以具有由机器人设备使用机器人控制模型来执行动作序列(在402中)。执行动作序列中的每个动作可以具有:借助于机器人控制模型使用初始策略来为机器人设备的多个状态中的当前状态确定动作,由机器人设备执行所确定的动作,以及确定所执行的动作导致的机器人设备的状态。根据各种实施方式,机器人控制模型可以是基于强化学习的模型(例如,基于强化学习的神经网络)。
方法400可以具有使用所执行的动作序列来确定更新后的策略(在404中)。
方法400可以具有将更新后的策略投影到投影后的策略上(在406中)。更新后的策略可以以如下方式投影到投影后的策略上,即对于投影后的策略的多个状态中的每个状态,增加(例如最大化)根据投影后的策略和更新后的策略之间的相似度度量的相似度值,并且对于投影后的策略的多个状态中的每个状态,根据投影后的策略与初始策略之间的相似度度量的相似度值大于预定义阈值。更新后的策略可以以如下方式投影到投影后的策略上,即对于投影后的策略的多个状态中的每个状态,增加(例如最大化)根据投影后的策略和更新后的策略之间的相似度度量的相似度值,对于投影后的策略的多个状态中的每个状态,根据投影后的策略与初始策略之间的相似度度量的相似度值大于预定义阈值,并且对于投影后的策略的多个状态中的每个状态,投影后的策略的熵大于或等于预定义熵阈值。
方法400可以具有适配机器人控制模型以实现投影后的策略(在408中)。
方法400可以具有使用经过适配的机器人控制模型来控制机器人设备(在410中)。
图5示出了根据各种实施方式的用于控制机器人设备的方法500。
方法500可以具有由机器人设备使用机器人控制模型来执行动作序列(在502中)。执行动作序列中的每个动作可以具有:借助于机器人控制模型使用初始策略来为机器人设备的多个状态中的当前状态确定动作,由机器人设备执行所确定的动作,以及确定所执行的动作导致的机器人设备的状态。根据各种实施方式,机器人控制模型可以是基于强化学习的模型(例如,基于强化学习的神经网络)。
方法500可以具有使用所执行的动作序列来确定更新后的策略(在504中)。
方法500可以具有确定投影后的策略,使得增加(例如,最大化)针对投影后的策略预期的奖励和根据投影后的策略的多个状态中的每个状态与更新后的策略之间的相似度度量的相似度值之差(在506中)。
方法500可以具有使用投影后的策略借助于机器人控制模型来控制机器人设备(在508中)。
根据各种实施方式,方法500可以具有适配机器人控制模型以实现投影后的策略并使用经过适配的机器人控制模型来控制机器人设备。

Claims (15)

1.用于控制机器人设备的方法,具有:
·由所述机器人设备使用机器人控制模型执行动作序列,其中执行所述动作序列中的每个动作具有:
o借助于所述机器人控制模型使用初始策略为所述机器人设备的多个状态中的当前状态确定动作,
o由所述机器人设备执行所确定的动作,以及
o确定由所执行的动作导致的所述机器人设备的状态;
•使用所执行的动作序列确定更新后的战略;
•将所述更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:
o根据所述投影后的策略和所述更新后的策略之间的相似度度量的相似度值得到最大化,并且
o根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于预定义阈值;
•适配所述机器人控制模型以实现所述投影后的策略;以及
•使用经过适配的机器人控制模型来控制所述机器人设备。
2.根据权利要求1所述的方法,
其中将更新后的策略投影到投影后的策略上具有:
•将所述更新后的策略投影到所述投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:
o根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值得到最大化,
o根据所述投影后的策略与所述初始策略之间的相似度度量的相似度值大于所述预定义阈值,以及
o所述投影后的策略的熵大于或等于预定义熵阈值。
3.根据权利要求1或2任一项所述的方法,
其中所述初始策略具有所述多个动作的初始多元正态分布;
其中所述更新后的策略具有所述多个动作的更新后的多元正态分布;
其中所述投影后的策略具有所述多个动作的投影后的多元正态分布;
其中将更新后的策略投影到投影后的策略上具有:
•将所述更新后的策略投影到所述投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:
o根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且
o根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值。
4.根据权利要求2和3所述的方法,
其中将更新后的策略投影到投影后的策略上具有:
•将所述更新后的策略投影到所述投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态:
o根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且
o根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值;以及
o所述投影后的多元正态分布的熵大于或等于所述预定义熵阈值。
5.根据权利要求3或4任一项所述的方法,
其中将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态,根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于所述预定义阈值,具有:
•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于马氏距离和Frobenius范数来确定所述投影后的多元正态分布。
6.根据权利要求3或4任一项所述的方法,
其中将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态,根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于预定义阈值,具有:
•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于Wasserstein距离来确定所述投影后的多元正态分布。
7.根据权利要求3或4任一项所述的方法,
其中将更新后的策略投影到投影后的策略上,使得对于所述投影后的策略的多个状态中的每个状态,根据所述投影后的多元正态分布与所述更新后的多元正态分布之间的相似度度量的相似度值得到最大化,并且根据所述投影后的多元正态分布与所述初始多元正态分布之间的相似度度量的相似度值大于预定义阈值,具有:
•使用所述初始多元正态分布、所述更新后的多元正态分布和所述预定义阈值借助于数值优化器来确定所述投影后的多元正态分布。
8.根据权利要求7所述的方法,
其中所述数值优化器使用Kullback-Leibler散度确定所述投影后的多元正态分布。
9.根据权利要求5至8中任一项所述的方法,
其中确定所述投影后的多元正态分布具有拉格朗日乘数方法。
10.根据权利要求1至10中任一项所述的方法,
其中所述机器人控制模型为神经网络;和
其中将所述更新后的策略投影到所述投影后的策略上作为神经网络中的一个或多个层来实现。
11.根据权利要求1至10中任一项所述的方法,
其中适配机器人控制模型以实现投影后的策略具有借助于梯度方法适配所述机器人控制模型。
12.根据权利要求1至11中任一项所述的方法,
其中使用经过适配的机器人控制模型来控制所述机器人设备具有:
•由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作;
•借助于回归使用所执行的一个或多个动作来更新所述策略。
13.根据权利要求1至11中任一项所述的方法,
其中使用经过适配的机器人控制模型来控制所述机器人设备具有:
•由所述机器人设备使用经过适配的机器人控制模型执行一个或多个动作;
•使用所执行的一个或多个动作来更新所述策略,使得预期奖励和根据所述投影后的策略与所述更新后的策略之间的相似度度量的相似度值之差得到最大化。
14.一种设置为执行根据权利要求1至13中任一项所述的方法的设备。
15.非易失性存储介质,存储有程序指令,如果执行所述程序指令,则所述程序指令执行根据权利要求1至13中任一项所述的方法。
CN202111086090.7A 2020-09-17 2021-09-16 用于控制机器人设备的设备和方法 Pending CN114193443A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020211648.2 2020-09-17
DE102020211648.2A DE102020211648A1 (de) 2020-09-17 2020-09-17 Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung

Publications (1)

Publication Number Publication Date
CN114193443A true CN114193443A (zh) 2022-03-18

Family

ID=80351428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111086090.7A Pending CN114193443A (zh) 2020-09-17 2021-09-16 用于控制机器人设备的设备和方法

Country Status (3)

Country Link
US (1) US20220080586A1 (zh)
CN (1) CN114193443A (zh)
DE (1) DE102020211648A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022203410A1 (de) 2022-04-06 2023-10-12 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Steuern einer Robotervorrichtung
US11823062B1 (en) * 2023-03-21 2023-11-21 Tsinghua University Unsupervised reinforcement learning method and apparatus based on Wasserstein distance

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04211802A (ja) 1990-07-25 1992-08-03 Toshiba Corp ニュ−ラルネットワ−ク装置
DE4440859C2 (de) 1994-11-15 1998-08-06 Alexander Kaske Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters
US7725418B2 (en) 2005-01-28 2010-05-25 Honda Motor Co., Ltd. Responding to situations using multidimensional semantic net and Bayes inference
US8019713B2 (en) 2005-07-08 2011-09-13 Honda Motor Co., Ltd. Commonsense reasoning about task instructions
JP5436460B2 (ja) 2009-02-12 2014-03-05 三菱電機株式会社 産業用ロボットシステム
US9358685B2 (en) * 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9707680B1 (en) 2015-05-28 2017-07-18 X Development Llc Suggesting, selecting, and applying task-level movement parameters to implementation of robot motion primitives
DE102017201949A1 (de) 2017-02-08 2018-08-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System zur Steuerung mindestens eines Betriebsmittels zur Herstellung und/oder Montage von Werkstücken
US10751879B2 (en) 2017-06-05 2020-08-25 Autodesk, Inc. Adapting simulation data to real-world conditions encountered by physical processes
US10786900B1 (en) * 2018-09-27 2020-09-29 Deepmind Technologies Limited Robot control policy determination through constrained optimization for smooth continuous control
EP3874417A1 (en) 2018-10-29 2021-09-08 HRL Laboratories, LLC Systems and methods for few-shot transfer learning
US20200156241A1 (en) 2018-11-21 2020-05-21 Ford Global Technologies, Llc Automation safety and performance robustness through uncertainty driven learning and control

Also Published As

Publication number Publication date
DE102020211648A1 (de) 2022-03-17
US20220080586A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
CN111670415B (zh) 用于控制系统的预测控制器、车辆及方法
JP6727744B2 (ja) 機械の動作を制御するモデル予測制御システム及び方法
CN110076772B (zh) 一种机械臂的抓取方法及装置
JP7183446B2 (ja) 機械の動作を制御する装置及び方法、並びに記憶媒体
CN114193443A (zh) 用于控制机器人设备的设备和方法
Boots et al. Learning predictive models of a depth camera & manipulator from raw execution traces
EP2828044A1 (en) Trajectory generation device, moving object, trajectory generation method
CN110809505A (zh) 用于执行机器人手臂的移动控制的方法和装置
JP7301034B2 (ja) 準ニュートン信頼領域法を用いたポリシー最適化のためのシステムおよび方法
Krug et al. Model predictive motion control based on generalized dynamical movement primitives
CN112045675A (zh) 机器人设备控制器、机器人设备布置和用于控制机器人设备的方法
US11806872B2 (en) Device and method for controlling a robotic device
Jetchev et al. Trajectory prediction: learning to map situations to robot trajectories
US20220105637A1 (en) Device and method for controlling one or more robots
CN115351780A (zh) 用于控制机器人设备的方法
Lin et al. An ensemble method for inverse reinforcement learning
CN114047745B (zh) 机器人运动控制方法、机器人、计算机装置和存储介质
massoud Farahmand et al. Model-based and model-free reinforcement learning for visual servoing
Hung Integral variable structure control of nonlinear system using a CMAC neural network learning approach
KR20180114698A (ko) 다관절 로봇의 작업 궤적 생성을 위한 효율적인 학습 모델 및 학습 기법
CN110941268B (zh) 一种基于Sarsa安全模型的无人自动小车的控制方法
JPH1091207A (ja) 内部表現自動生成方法及び装置
CN113939775A (zh) 用于确定针对技术系统的调节策略的方法和设备
Xu et al. Deep reinforcement learning for parameter tuning of robot visual servoing
JP3868358B2 (ja) 物理系の制御方法および装置ならびに物理系の制御のためのコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination