CN115972211A - 基于模型不确定性与行为先验的控制策略离线训练方法 - Google Patents

基于模型不确定性与行为先验的控制策略离线训练方法 Download PDF

Info

Publication number
CN115972211A
CN115972211A CN202310064893.5A CN202310064893A CN115972211A CN 115972211 A CN115972211 A CN 115972211A CN 202310064893 A CN202310064893 A CN 202310064893A CN 115972211 A CN115972211 A CN 115972211A
Authority
CN
China
Prior art keywords
mechanical arm
model
strategy
control strategy
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310064893.5A
Other languages
English (en)
Inventor
章宗长
俞扬
周志华
周韧哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202310064893.5A priority Critical patent/CN115972211A/zh
Publication of CN115972211A publication Critical patent/CN115972211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。

Description

基于模型不确定性与行为先验的控制策略离线训练方法
技术领域
本发明涉及一种基于模型不确定性与行为先验的控制策略离线训练方法,用于学习机械臂的控制策略。
背景技术
强化学习是机器学习中一个重要的分支领域,智能体可以借助强化学习方法,通过与环境交互得到奖赏或惩罚信号,并据此学习到能在环境中得到最高奖赏的策略。然而,强化学习方法通常需要不断地与环境进行交互来获取可供学习的经验,在机械臂相关的任务上,这些与操作环境的交互需要消耗大量的时间与经济成本。
离线强化学习为解决这一问题提供了一种新的思路,从一个先前收集到的机械臂操作数据集中学习策略,而不与环境进行交互,免去了在环境中采样所需的时间、经济成本。
然而,由于采集机械臂操作数据的行为策略和当前待学习的控制策略存在的分布不匹配的问题,直接从机械臂操作离线数据中无法训练出表现好的策略。对此,近年来的技术方案大都是基于策略分布限制或者价值保守估计,没有仔细考虑不同的机械臂操作数据的差别,比如在机械臂操作数据中可能存在一些误操作数据,这些数据对机械臂控制策略的学习是不利的,限制了机械臂控制策略在使用这些数据进行离线学习后的性能。
发明内容
发明目的:针对现有离线强化学习技术在学习机械臂控制策略中的问题与不足,本发明提供一种基于模型不确定性与行为先验的控制策略离线训练方法,通过在机械臂离线数据上训练集成动力学模型与变分自编码器来提供对机械臂操作数据的置信度区分,在加权贝尔曼更新的框架下来离线训练机械臂的控制策略,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
技术方案:一种基于模型不确定性与行为先验的控制策略离线训练方法,在机械臂离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,让机械臂控制策略不断与集成动力学模型交互来获取更多的机械臂操作数据,在加权贝尔曼更新的框架下仅使用机械臂离线数据与模型数据来训练机械臂的控制策略。
包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境;
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略;
步骤3:开始训练基于行为者-评论家的策略网络,所述基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中;
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重;
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略;
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
对机械臂控制策略所要面对的机械臂操作环境进行建模得到集成动力学模型,机械臂控制策略可与集成动力学模型交互来扩充机械臂的数据集,并基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
对采集机械臂离线数据的行为策略进行建模,得到行为先验模型,行为先验模型能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
上述集成动力学模型、行为先验模型和基于行为者-评论家的策略网络能够以端到端的方式进行训练。
具体地,所述集成动力学模型由N个架构相同、初始化不同的全连接神经网络表示,旨在对机械臂操作环境进行模拟。所面对的机械臂操作环境E能够建模为马尔科夫决策过程<S,A,P,R,γ>,在该环境中机械臂控制策略在每个决策步骤接收状态信息s∈S,状态信息包括机械臂的个体信息如各个关节的角度、各种传感器的示数,机械臂上摄像装置拍摄到的画面,以及视野内组装任务的相关信息等。机械臂控制策略从动作空间A中选取可执行的动作a进行决策,动作空间包括了机械臂执行动作,如机械臂的移动、夹取等。该机械臂操作环境的动力学函数P在收到动作后会转移到下一个状态s′~P(s,a),并且奖励函数R会给出一个立即奖励R(s,a),例如当机械臂夹取到目标物体时给与一个奖励。每个神经网络用高斯分布建模,即
Figure BDA0004061817520000021
输入的是机械臂当前状态s与动作a,输出的是机械臂下一个状态s′与奖励r,其中
Figure BDA0004061817520000034
代表高斯分布,φ代表神经网络的参数,μ和Σ分别代表高斯分布的均值与标准差。集成动力学模型中的每个神经网络可基于以下最小化损失函数L(φ)进行训练,所述最小化损失函数L(φ)的数学表达式为:
Figure BDA0004061817520000031
其中D是离线数据集,里面存储有机械臂操作的经验样本,其中s,a,s′,r分别表示机械臂的运动状态、执行动作、下一个状态与获得的奖励。
具体地,机械臂控制策略与集成动力学模型交互过程包括如下步骤:
步骤21:从机械臂离线数据集D中采样一个状态作为机械臂的当前状态;
步骤22:机械臂的控制策略根据机械臂的当前状态采样一个动作;
步骤23:在集成动力学模型中随机选取一个全连接神经网络,根据机械臂的当前状态与动作生成机械臂的下一个状态与奖励;
步骤24:将下一个状态作为机械臂的当前状态,重复步骤22 -23,直到达到给定的rollout长度,将所有生成的机械臂交互数据存入模型数据集中。
具体地,每个机械臂的状态-动作对(s,a)都可以通过集成动力学模型来估计其不确定性u(s,a),计算公式如下:
Figure BDA0004061817520000032
其中
Figure BDA0004061817520000035
表示第i个动力学模型(也称全连接神经网络)输出的高斯均值;动力学模型生成的机械臂操作数据中的奖励都被施加一个不确定性惩罚,即以r-ku(s,a)来代替r,k为超参数。
具体地,行为先验模型使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模。由两部分组成,一部分是编码器,将机械臂的状态-动作对映射到隐空间中;另一部分是解码器,将隐空间向量映射到状态-动作空间,想要从隐空间向量中重构之前输入的机械臂状态-动作对。编码器与解码器均为多层全连接神经网络,基于以下最小化损失函数L(α)进行训练,所述最小化损失函数L(α)的数学表达式为:
Figure BDA0004061817520000033
其中
Figure BDA0004061817520000037
表示编码器,Dα2表示解码器,z表示编码器输出的隐变量,
Figure BDA0004061817520000036
为标准正态分布,DKL[·||·]是相对熵。
具体地,所述基于行为者-评论家的策略网络指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行如移动、夹取等动作,并能够通过一系列动作完成零件装配任务。所述基于模型不确定性与行为先验的控制策略离线训练方法能通过机械臂的历史操作数据来离线学习机械臂控制策略。机械臂控制策略采用行为者-评论家模式来构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ与目标值函数
Figure BDA0004061817520000045
其中
Figure BDA0004061817520000044
是为了提高训练效率与稳定性所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数。策略与值函数都由多层全连接神经网络构成。
具体地,机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
Figure BDA0004061817520000041
其中w(s,a)为权重,
Figure BDA0004061817520000047
是预期回报,γ是衰减因子,πθ(·|s)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而
Figure BDA0004061817520000048
代表了以ψ-为参数的目标值函数
Figure BDA0004061817520000046
在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集。机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
Figure BDA0004061817520000042
其中c(s,a)=exp(-u(s,a)),exp()是指数函数,
Figure BDA0004061817520000043
为编码器的重构概率,λ∈[0,1]为超参数来调节这两个权重因子的系数。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于模型不确定性与行为先验的控制策略离线训练方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于模型不确定性与行为先验的控制策略离线训练方法的计算机程序。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实施例中集成动力学模型的训练及交互示意图;
图3是本发明实施例中行为先验模型的训练示意图;
图4是本发明实施例中所述的基于模型不确定性与行为先验的控制策略离线训练方法在模拟环境下的验证结果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如前所述,在线学习的强化学习技术在机械臂相关的任务上需要不断地与环境进行交互来获取可供学习的经验,消耗大量的时间与经济成本。离线强化学习则可以仅使用机械臂操作离线数据集来学习控制策略,然而,由于采集机械臂操作数据的行为策略和当前待学习的控制策略存在的分布不匹配的问题,直接从机械臂操作离线数据中无法训练出表现好的控制策略。对此,近年来的技术方案则大都是基于策略分布限制或者价值保守估计,没有仔细考虑不同的机械臂操作数据的差别,比如在机械臂操作数据中可能存在一些误操作数据,这些数据对控制策略的学习是不利的,限制了控制策略在使用这些数据进行离线学习后的性能。
鉴于此提出基于模型不确定性与行为先验的控制策略离线训练方法,一方面通过学习动力学模型来产生更多的机械臂操作样本扩充数据集,另一方面通过集成动力学模型的不确定性估计与行为先验来作为加权贝尔曼更新的权重,从而更好地利用机械臂操作样本,使得控制策略训练过程更加稳定,提高策略学习效率与最终性能。针对机械臂装配场景,任务是需要机械臂成功装配零件,方法能够在仅使用机械臂操作离线数据的情况下训练机械臂成功完成零件的装配。本方法并不仅限于机械臂任务,也可适用于其他任意的控制任务。
基于模型不确定性与行为先验的控制策略离线训练方法,包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境。
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略。
步骤3:开始训练基于行为者-评论家的策略网络,基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中。
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重。
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略。
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
如图1所示,包括集成动力学模型、行为先验模型和基于行为者-评论家的策略网络三个部分:
集成动力学模型,用于对机械臂控制策略所要面对的机械臂操作环境进行建模,策略可与集成动力学模型交互来扩充机械臂的数据集,并可基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
行为先验模型,用于对采集机械臂离线数据的行为策略进行建模,并能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络,此即为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
所提出的集成动力学模型、行为先验模型和基于行为者-评论家的策略网络能够以端到端的方式进行训练。
控制策略所面对的机械臂装配操作环境E建模为马尔科夫决策过程<S,A,P,R,γ>,在该环境中控制策略在每个决策步骤接收状态信息s∈S,状态信息包括机械臂的个体信息如各个关节的角度、各种传感器的示数,机械臂上摄像装置拍摄到的画面,以及视野内组装任务的相关信息等。机械臂控制策略从动作空间A中选取可执行的动作a进行决策,动作空间包括了机械臂的移动、夹取等。该环境的动力学函数P在收到动作后会转移到下一个状态s′~P(s,a),并且奖励函数R会给出一个立即奖励R(s,a),例如当机械臂夹取到目标物体时给与一个奖励。离线数据集由该机械臂操作场景中的历史数据组成,是行为策略操控机械臂进行装配形成的轨迹样本,记离线数据集为D={(s,a,s′,r)},其中s,a,s′,r分别表示机械臂的运动状态、执行动作、下一个状态与获得的奖励等。
集成动力学模型如图2所示,集成动力学模型旨在拟合该环境的转移函数P(s′|s,a)与奖励函数R(s,a),通过在机械臂操作的离线数据集D上进行训练来获得。集成动力学模型旨在模拟机械臂操作场景,由多层全连接神经网络表示,每个神经网络用高斯分布建模,即
Figure BDA0004061817520000061
输入的是机械臂当前状态s与动作a,输出的是机械臂下一个状态s′与奖励r,其中
Figure BDA0004061817520000064
代表高斯分布,φ代表神经网络的参数,μ和Σ分别代表高斯分布的均值与标准差,使用N个结构一样的多层全连接神经网络组成集成动力学模型
Figure BDA0004061817520000062
使用不同的初始化方式来分别初始化这N个神经网络。将机械臂操作数据集D以一定比例分为训练集与测试集,在训练集上训练该集成动力学模型,集成动力学模型中的每个神经网络可基于以下最小化损失函数L(φ)进行训练,最小化损失函数L(φ)的数学表达式为:
Figure BDA0004061817520000063
每次迭代时从训练集中采样批量的机械臂操作样本,在该批量样本上使用随机梯度下降方法优化上述损失函数,当集成动力学模型在机械臂操作测试集上的误差不再下降时,模型训练完成。其中D是上述的机械臂操作离线数据集,里面存储有机械臂操作过程的经验样本,样本中包含了机械臂的运动状态、执行动作、下一个状态与获得的奖励等。机械臂控制策略每次与集成动力学模型交互过程如图2所示。先从离线数据集D中采样一个机械臂的状态作为当前状态,策略根据机械臂的当前状态采样一个动作如移动、夹取等,然后从集成动力学模型中随机选取一个模型,根据机械臂的当前状态与策略采取的动作生成下一个状态与奖励,之后将下一个状态作为机械臂的当前状态,重复进行交互,直到达到给定的交互长度,将所有生成的机械臂操作数据存入模型数据集中。每个机械臂的状态-动作对(s,a)都可以通过集成动力学模型来估计其不确定性u(s,a),计算公式如下:
Figure BDA0004061817520000071
其中
Figure BDA0004061817520000072
表示第i个动力学模型输出的高斯均值;模型生成的机械臂操作数据中的奖励都被施加一个不确定性惩罚,即以r-κu(s,a)来代替r,κ为超参数。
行为先验模型如图3所示,使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模。由两部分组成,一部分是编码器
Figure BDA0004061817520000073
编码器将机械臂的状态-动作对映射到隐空间,另一部分是解码器
Figure BDA0004061817520000074
解码器基于隐空间向量重构机械臂的状态-动作对
Figure BDA0004061817520000075
编码器与解码器均为多层全连接神经网络,变分自编码器基于以下最小化损失函数L(α)进行训练,所述最小化损失函数L(α)的数学表达式为:
Figure BDA0004061817520000076
其中
Figure BDA0004061817520000077
表示编码器,
Figure BDA0004061817520000078
表示解码器,z表示编码器输出的隐变量,
Figure BDA0004061817520000079
为标准正态分布,DKL[·||·]是相对熵。每次迭代时从机械臂操作的离线数据集中采样批量样本,在该批量样本上使用随机梯度下降方法优化上述损失函数,当达到给定优化轮数时训练结束。
机械臂控制策略指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行如移动、夹取等动作,并能够通过一系列动作完成零件装配任务。控制策略使用行为者-评论家模式构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ和目标值函数
Figure BDA00040618175200000710
Figure BDA00040618175200000711
是为提高训练效率所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数。策略与值函数都由多层全连接神经网络构成。在训练策略与值函数时,采用的是强化学习算法SAC。初始化策略πθ、值函数Qψ与目标值函数
Figure BDA00040618175200000811
机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
Figure BDA0004061817520000081
其中w(s,a)为权重,
Figure BDA0004061817520000086
是预期的最大回报,γ是衰减因子,
πθ(·|s′)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而
Figure BDA00040618175200000810
代表了以ψ-为参数的目标值函数
Figure BDA0004061817520000087
在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集。机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
Figure BDA0004061817520000088
其中c(s,a)=exp(-u(s,a)),exp()是指数函数,
Figure BDA0004061817520000089
为解码器的重构概率,λ∈[0,1]为超参数来调节这两个权重因子的系数。
基于模型不确定性与行为先验的控制策略离线训练方法在模拟环境halfcheetah的中等回放数据集上进行了验证。图4展示了本发明基于模型不确定性与行为先验的控制策略离线训练方法与其他近期相关的离线强化学习技术方案MOPO、UWAC在该模拟环境及数据集下的验证结果,实验结果表明本方法能够在该模拟环境与数据集下取得相较于现有离线强化学习技术方案更优的策略性能。
策略πθ与集成动力学模型
Figure BDA0004061817520000082
进行交互扩充机械臂操作数据集,其过程如图2所示,包括如下步骤:
步骤41:从机械臂操作离线数据集D中采样一个状态作为机械臂的当前状态s;
步骤42:策略πθ根据机械臂的当前状态s采样一个动作a~πθ(s);
步骤43:在集成动力学模型
Figure BDA0004061817520000083
中随机选取一个模型
Figure BDA0004061817520000084
根据机械臂的当前状态s与策略采取的动作a生成下一个状态s′与奖励r:
Figure BDA0004061817520000085
步骤44:将下一个状态s′作为机械臂的当前状态s,重复步骤42-43,直到达到给定的交互长度,将所有生成的机械臂操作数据(s,a,s′,r)存入模型数据集Dmodel中。
步骤45:重复步骤41-44,直到收集到了给定数量的样本。
使用机械臂操作的离线数据集D与模型数据集Dmodel对策略与值函数进行训练。
步骤51:从机械臂操作的离线数据集D与模型数据集Dmodel中混合采样小批量的更新样本{(s,a,s′,r)}
步骤52:通过集成动力学模型来计算每一个样本中的机械臂状态-动作对(s,a)的模型不确定性u(s,a),计算公式如下:
Figure BDA0004061817520000091
其中
Figure BDA0004061817520000092
表示第i个动力学模型输出的高斯均值。对集成动力学模型生成的机械臂操作样本中的奖励施加一个不确定性惩罚,即以r-ku(s,a)来代替r,k为超参数。
步骤53:根据计算出来的模型不确定性u(s,a)来计算模型置信度c(s,a),计算公式如下:
c(s,a)=exp(-u(s,a))
步骤54:计算每一个机械臂操作样本对的更新权重w(s,a),其使用了模型置信度与变分自编码器的重构概率两者共同来构建,计算公式如下:
Figure BDA0004061817520000093
其中
Figure BDA0004061817520000094
为变分自编码器中解码器的重构概率,λ∈[0,1]为超参数来调节这两个权重因子的系数。
步骤55:计算目标函数值Qtarget,计算公式如下:
Figure BDA00040618175200000910
其中a′~πθ(s′)是策略在机械臂状态s′下采样的动作,
Figure BDA0004061817520000095
是目标值函数网络,α是SAC中的熵系数。
步骤56:更新值函数Qψ,使用加权贝尔曼更新方式,更新公式如下:
Figure BDA0004061817520000096
其中λQ是值函数的学习率,w(s,a)是步骤54中计算出来的机械臂操作样本权重。
步骤57:更新策略πθ,更新公式如下:
Figure BDA0004061817520000097
其中λπ是策略的学习率,α是SAC中的熵系数,w(s,a)是步骤54中计算出来的机械臂操作样本权重。
步骤58:更新目标值函数
Figure BDA0004061817520000098
使用软更新方式,利用当前值函数Qψ的参数与目标值函数
Figure BDA0004061817520000099
的参数的凸组合来更新,使得目标值的变化更加平缓,保持一定的稳定性,更新公式如下:
ψ-←τψ+(1-τ)ψ-
其中τ是软更新的系数。
交替重复步骤41与步骤58机械臂的控制策略训练达到收敛后,完成训练过程。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于模型不确定性与行为先验的控制策略离线训练方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境;
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略;
步骤3:开始训练基于行为者-评论家的策略网络,所述基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中;
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重;
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略;
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
2.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,对机械臂控制策略所要面对的机械臂操作环境进行建模得到集成动力学模型,机械臂控制策略可与集成动力学模型交互来扩充机械臂的数据集,并基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
对采集机械臂离线数据的行为策略进行建模,得到行为先验模型,行为先验模型能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
3.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述集成动力学模型由N个架构相同、初始化不同的全连接神经网络表示,每个神经网络用高斯分布建模,即
Figure FDA0004061817510000011
输入的是机械臂当前状态s与动作a,输出的是机械臂下一个状态s′与奖励r,其中
Figure FDA0004061817510000012
代表高斯分布,φ代表神经网络的参数,μ和Σ分别代表高斯分布的均值与标准差;集成动力学模型中的每个神经网络基于以下最小化损失函数L(φ)进行训练,所述最小化损失函数L(φ)的数学表达式为:
Figure FDA0004061817510000013
其中D是机械臂离线数据集,里面存储有机械臂操作的经验样本,其中s,a,s′,r分别表示机械臂的运动状态、执行动作、下一个状态与获得的奖励。
4.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述机械臂控制策略与集成动力学模型交互过程包括如下步骤:
步骤21:从机械臂离线数据集D中采样一个状态作为机械臂的当前状态;
步骤22:机械臂的控制策略根据机械臂的当前状态采样一个动作;
步骤23:在动力学模型中随机选取一个动力学模型,根据机械臂的当前状态与动作生成机械臂的下一个状态与奖励;
步骤24:将下一个状态作为机械臂的当前状态,重复步骤22-23,直到达到给定的rollout长度,将所有生成的机械臂交互数据存入模型数据集中。
5.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,每个机械臂的状态-动作对(s,a)都能通过集成动力学模型来估计其不确定性u(s,a),计算公式如下:
Figure FDA0004061817510000021
其中
Figure FDA0004061817510000022
表示第i个动力学模型输出的高斯均值。
6.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,动力学模型生成的机械臂操作数据中的奖励都被施加一个不确定性惩罚,即以r-κu(s,a)来代替r,κ为超参数。
7.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述行为先验模型使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模;由两部分组成,一部分是编码器,将机械臂的状态-动作对映射到隐空间中;另一部分是解码器,将隐空间向量映射到状态-动作空间,从隐空间向量中重构之前输入的机械臂状态-动作对;编码器与解码器均为多层全连接神经网络,基于以下最小化损失函数L(α)进行训练,所述最小化损失函数L(α)的数学表达式为:
Figure FDA0004061817510000023
其中
Figure FDA0004061817510000024
表示编码器,
Figure FDA0004061817510000025
表示解码器,z表示编码器输出的隐变量,
Figure FDA0004061817510000026
为标准正态分布,DKL[·||·]是相对熵。
8.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述基于行为者-评论家的策略网络指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行动作,并能够通过一系列动作完成零件装配任务;通过机械臂的历史操作数据来离线学习机械臂控制策略;机械臂控制策略采用行为者-评论家模式来构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ与目标值函数
Figure FDA0004061817510000031
其中
Figure FDA0004061817510000032
是为了提高训练效率与稳定性所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数;策略与值函数都由多层全连接神经网络构成。
9.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
Figure FDA0004061817510000033
其中w(s,a)为权重,
Figure FDA0004061817510000034
是预期回报,γ是衰减因子,πθ(·|s′)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而
Figure FDA0004061817510000035
代表了以ψ-为参数的目标值函数
Figure FDA0004061817510000036
在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集;机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
Figure FDA0004061817510000037
其中c(s,a)=exp(-u(s,a)),exp()是指数函数,
Figure FDA0004061817510000038
为编码器的重构概率,λ∈[0,1]为超参数来调节这两个权重因子的系数。
10.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-9中任一项所述的基于模型不确定性与行为先验的控制策略离线训练方法。
CN202310064893.5A 2023-02-06 2023-02-06 基于模型不确定性与行为先验的控制策略离线训练方法 Pending CN115972211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310064893.5A CN115972211A (zh) 2023-02-06 2023-02-06 基于模型不确定性与行为先验的控制策略离线训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310064893.5A CN115972211A (zh) 2023-02-06 2023-02-06 基于模型不确定性与行为先验的控制策略离线训练方法

Publications (1)

Publication Number Publication Date
CN115972211A true CN115972211A (zh) 2023-04-18

Family

ID=85970226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310064893.5A Pending CN115972211A (zh) 2023-02-06 2023-02-06 基于模型不确定性与行为先验的控制策略离线训练方法

Country Status (1)

Country Link
CN (1) CN115972211A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117055513A (zh) * 2023-10-10 2023-11-14 张家港市卓华金属科技有限公司 基于人工智能的设备自动化控制方法及装置
CN117444978A (zh) * 2023-11-30 2024-01-26 哈尔滨工业大学 一种气动软体机器人的位置控制方法及其系统、设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117055513A (zh) * 2023-10-10 2023-11-14 张家港市卓华金属科技有限公司 基于人工智能的设备自动化控制方法及装置
CN117055513B (zh) * 2023-10-10 2024-04-26 张家港市卓华金属科技有限公司 基于人工智能的设备自动化控制方法及装置
CN117444978A (zh) * 2023-11-30 2024-01-26 哈尔滨工业大学 一种气动软体机器人的位置控制方法及其系统、设备
CN117444978B (zh) * 2023-11-30 2024-05-14 哈尔滨工业大学 一种气动软体机器人的位置控制方法及其系统、设备

Similar Documents

Publication Publication Date Title
CN115972211A (zh) 基于模型不确定性与行为先验的控制策略离线训练方法
Grzeszczuk et al. Neuroanimator: Fast neural network emulation and control of physics-based models
CN108090621B (zh) 一种基于分阶段整体优化的短期风速预测方法与系统
CN111260124A (zh) 一种基于注意力机制深度学习的混沌时间序列预测方法
CN111190429B (zh) 一种基于强化学习的无人机主动容错控制方法
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
CN112146879A (zh) 一种滚动轴承故障智能诊断方法及其系统
CN114037048B (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
CN114626505A (zh) 一种移动机器人深度强化学习控制方法
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN116502774A (zh) 一种基于时间序列分解和勒让德投影的时间序列预测方法
Zintgraf Fast adaptation via meta reinforcement learning
CN115990875A (zh) 一种基于隐空间插值的柔性线缆状态预测与控制系统
Solovyeva et al. Controlling system based on neural networks with reinforcement learning for robotic manipulator
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
WO2021095512A1 (ja) 機械学習装置、情報処理方法および記録媒体
CN114720129A (zh) 一种基于双向gru的滚动轴承剩余寿命预测方法及系统
CN113779724A (zh) 一种充填包装机故障智能预测方法及其系统
Federici et al. Deep Reinforcement Learning for Robust Spacecraft Guidance and Control
Golovko et al. Modeling nonlinear dynamics using multilayer neural networks
CN114872040B (zh) 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置
JP4267726B2 (ja) 制御装置における動作信号と操作量との関係を決定する装置、制御装置、データ生成装置、入出力特性決定装置及び相関関係評価装置
Jasna et al. Solver parameter influence on the results of multilayer perceptron for estimating power output of a combined cycle power plant
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability
CN116352700A (zh) 基于随机网络预测误差的专家数据扩增方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination