CN115972211A - 基于模型不确定性与行为先验的控制策略离线训练方法 - Google Patents
基于模型不确定性与行为先验的控制策略离线训练方法 Download PDFInfo
- Publication number
- CN115972211A CN115972211A CN202310064893.5A CN202310064893A CN115972211A CN 115972211 A CN115972211 A CN 115972211A CN 202310064893 A CN202310064893 A CN 202310064893A CN 115972211 A CN115972211 A CN 115972211A
- Authority
- CN
- China
- Prior art keywords
- mechanical arm
- model
- strategy
- control strategy
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011217 control strategy Methods 0.000 title claims abstract description 74
- 238000012549 training Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006399 behavior Effects 0.000 claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 55
- 230000009471 action Effects 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 description 8
- 238000004088 simulation Methods 0.000 description 4
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明公开一种基于模型不确定性和行为先验的控制策略离线训练方法,通过在机械臂操作离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,在加权贝尔曼更新的框架下仅使用机械臂离线数据来训练机械臂的控制策略。本发明能够使机械臂控制策略在离线训练的过程中有选择性地利用机械臂的离线数据集,减小不可信的机械臂数据样本对策略训练的影响,同时使可信的机械臂数据样本仍然能对策略训练起到正向作用,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
Description
技术领域
本发明涉及一种基于模型不确定性与行为先验的控制策略离线训练方法,用于学习机械臂的控制策略。
背景技术
强化学习是机器学习中一个重要的分支领域,智能体可以借助强化学习方法,通过与环境交互得到奖赏或惩罚信号,并据此学习到能在环境中得到最高奖赏的策略。然而,强化学习方法通常需要不断地与环境进行交互来获取可供学习的经验,在机械臂相关的任务上,这些与操作环境的交互需要消耗大量的时间与经济成本。
离线强化学习为解决这一问题提供了一种新的思路,从一个先前收集到的机械臂操作数据集中学习策略,而不与环境进行交互,免去了在环境中采样所需的时间、经济成本。
然而,由于采集机械臂操作数据的行为策略和当前待学习的控制策略存在的分布不匹配的问题,直接从机械臂操作离线数据中无法训练出表现好的策略。对此,近年来的技术方案大都是基于策略分布限制或者价值保守估计,没有仔细考虑不同的机械臂操作数据的差别,比如在机械臂操作数据中可能存在一些误操作数据,这些数据对机械臂控制策略的学习是不利的,限制了机械臂控制策略在使用这些数据进行离线学习后的性能。
发明内容
发明目的:针对现有离线强化学习技术在学习机械臂控制策略中的问题与不足,本发明提供一种基于模型不确定性与行为先验的控制策略离线训练方法,通过在机械臂离线数据上训练集成动力学模型与变分自编码器来提供对机械臂操作数据的置信度区分,在加权贝尔曼更新的框架下来离线训练机械臂的控制策略,能够使得机械臂控制策略的离线学习过程更加稳定并提升机械臂控制策略的性能。
技术方案:一种基于模型不确定性与行为先验的控制策略离线训练方法,在机械臂离线数据上训练集成动力学模型来构建对机械臂数据样本的不确定性度量,并采用变分自编码器来拟合收集该机械臂离线数据的行为先验策略,让机械臂控制策略不断与集成动力学模型交互来获取更多的机械臂操作数据,在加权贝尔曼更新的框架下仅使用机械臂离线数据与模型数据来训练机械臂的控制策略。
包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境;
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略;
步骤3:开始训练基于行为者-评论家的策略网络,所述基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中;
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重;
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略;
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
对机械臂控制策略所要面对的机械臂操作环境进行建模得到集成动力学模型,机械臂控制策略可与集成动力学模型交互来扩充机械臂的数据集,并基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
对采集机械臂离线数据的行为策略进行建模,得到行为先验模型,行为先验模型能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
上述集成动力学模型、行为先验模型和基于行为者-评论家的策略网络能够以端到端的方式进行训练。
具体地,所述集成动力学模型由N个架构相同、初始化不同的全连接神经网络表示,旨在对机械臂操作环境进行模拟。所面对的机械臂操作环境E能够建模为马尔科夫决策过程<S,A,P,R,γ>,在该环境中机械臂控制策略在每个决策步骤接收状态信息s∈S,状态信息包括机械臂的个体信息如各个关节的角度、各种传感器的示数,机械臂上摄像装置拍摄到的画面,以及视野内组装任务的相关信息等。机械臂控制策略从动作空间A中选取可执行的动作a进行决策,动作空间包括了机械臂执行动作,如机械臂的移动、夹取等。该机械臂操作环境的动力学函数P在收到动作后会转移到下一个状态s′~P(s,a),并且奖励函数R会给出一个立即奖励R(s,a),例如当机械臂夹取到目标物体时给与一个奖励。每个神经网络用高斯分布建模,即输入的是机械臂当前状态s与动作a,输出的是机械臂下一个状态s′与奖励r,其中代表高斯分布,φ代表神经网络的参数,μ和Σ分别代表高斯分布的均值与标准差。集成动力学模型中的每个神经网络可基于以下最小化损失函数L(φ)进行训练,所述最小化损失函数L(φ)的数学表达式为:
其中D是离线数据集,里面存储有机械臂操作的经验样本,其中s,a,s′,r分别表示机械臂的运动状态、执行动作、下一个状态与获得的奖励。
具体地,机械臂控制策略与集成动力学模型交互过程包括如下步骤:
步骤21:从机械臂离线数据集D中采样一个状态作为机械臂的当前状态;
步骤22:机械臂的控制策略根据机械臂的当前状态采样一个动作;
步骤23:在集成动力学模型中随机选取一个全连接神经网络,根据机械臂的当前状态与动作生成机械臂的下一个状态与奖励;
步骤24:将下一个状态作为机械臂的当前状态,重复步骤22 -23,直到达到给定的rollout长度,将所有生成的机械臂交互数据存入模型数据集中。
具体地,每个机械臂的状态-动作对(s,a)都可以通过集成动力学模型来估计其不确定性u(s,a),计算公式如下:
具体地,行为先验模型使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模。由两部分组成,一部分是编码器,将机械臂的状态-动作对映射到隐空间中;另一部分是解码器,将隐空间向量映射到状态-动作空间,想要从隐空间向量中重构之前输入的机械臂状态-动作对。编码器与解码器均为多层全连接神经网络,基于以下最小化损失函数L(α)进行训练,所述最小化损失函数L(α)的数学表达式为:
具体地,所述基于行为者-评论家的策略网络指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行如移动、夹取等动作,并能够通过一系列动作完成零件装配任务。所述基于模型不确定性与行为先验的控制策略离线训练方法能通过机械臂的历史操作数据来离线学习机械臂控制策略。机械臂控制策略采用行为者-评论家模式来构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ与目标值函数其中是为了提高训练效率与稳定性所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数。策略与值函数都由多层全连接神经网络构成。
具体地,机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
其中w(s,a)为权重,是预期回报,γ是衰减因子,πθ(·|s′)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而代表了以ψ-为参数的目标值函数在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集。机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于模型不确定性与行为先验的控制策略离线训练方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于模型不确定性与行为先验的控制策略离线训练方法的计算机程序。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实施例中集成动力学模型的训练及交互示意图;
图3是本发明实施例中行为先验模型的训练示意图;
图4是本发明实施例中所述的基于模型不确定性与行为先验的控制策略离线训练方法在模拟环境下的验证结果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如前所述,在线学习的强化学习技术在机械臂相关的任务上需要不断地与环境进行交互来获取可供学习的经验,消耗大量的时间与经济成本。离线强化学习则可以仅使用机械臂操作离线数据集来学习控制策略,然而,由于采集机械臂操作数据的行为策略和当前待学习的控制策略存在的分布不匹配的问题,直接从机械臂操作离线数据中无法训练出表现好的控制策略。对此,近年来的技术方案则大都是基于策略分布限制或者价值保守估计,没有仔细考虑不同的机械臂操作数据的差别,比如在机械臂操作数据中可能存在一些误操作数据,这些数据对控制策略的学习是不利的,限制了控制策略在使用这些数据进行离线学习后的性能。
鉴于此提出基于模型不确定性与行为先验的控制策略离线训练方法,一方面通过学习动力学模型来产生更多的机械臂操作样本扩充数据集,另一方面通过集成动力学模型的不确定性估计与行为先验来作为加权贝尔曼更新的权重,从而更好地利用机械臂操作样本,使得控制策略训练过程更加稳定,提高策略学习效率与最终性能。针对机械臂装配场景,任务是需要机械臂成功装配零件,方法能够在仅使用机械臂操作离线数据的情况下训练机械臂成功完成零件的装配。本方法并不仅限于机械臂任务,也可适用于其他任意的控制任务。
基于模型不确定性与行为先验的控制策略离线训练方法,包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境。
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略。
步骤3:开始训练基于行为者-评论家的策略网络,基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中。
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重。
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略。
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
如图1所示,包括集成动力学模型、行为先验模型和基于行为者-评论家的策略网络三个部分:
集成动力学模型,用于对机械臂控制策略所要面对的机械臂操作环境进行建模,策略可与集成动力学模型交互来扩充机械臂的数据集,并可基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
行为先验模型,用于对采集机械臂离线数据的行为策略进行建模,并能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络,此即为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
所提出的集成动力学模型、行为先验模型和基于行为者-评论家的策略网络能够以端到端的方式进行训练。
控制策略所面对的机械臂装配操作环境E建模为马尔科夫决策过程<S,A,P,R,γ>,在该环境中控制策略在每个决策步骤接收状态信息s∈S,状态信息包括机械臂的个体信息如各个关节的角度、各种传感器的示数,机械臂上摄像装置拍摄到的画面,以及视野内组装任务的相关信息等。机械臂控制策略从动作空间A中选取可执行的动作a进行决策,动作空间包括了机械臂的移动、夹取等。该环境的动力学函数P在收到动作后会转移到下一个状态s′~P(s,a),并且奖励函数R会给出一个立即奖励R(s,a),例如当机械臂夹取到目标物体时给与一个奖励。离线数据集由该机械臂操作场景中的历史数据组成,是行为策略操控机械臂进行装配形成的轨迹样本,记离线数据集为D={(s,a,s′,r)},其中s,a,s′,r分别表示机械臂的运动状态、执行动作、下一个状态与获得的奖励等。
集成动力学模型如图2所示,集成动力学模型旨在拟合该环境的转移函数P(s′|s,a)与奖励函数R(s,a),通过在机械臂操作的离线数据集D上进行训练来获得。集成动力学模型旨在模拟机械臂操作场景,由多层全连接神经网络表示,每个神经网络用高斯分布建模,即输入的是机械臂当前状态s与动作a,输出的是机械臂下一个状态s′与奖励r,其中代表高斯分布,φ代表神经网络的参数,μ和Σ分别代表高斯分布的均值与标准差,使用N个结构一样的多层全连接神经网络组成集成动力学模型使用不同的初始化方式来分别初始化这N个神经网络。将机械臂操作数据集D以一定比例分为训练集与测试集,在训练集上训练该集成动力学模型,集成动力学模型中的每个神经网络可基于以下最小化损失函数L(φ)进行训练,最小化损失函数L(φ)的数学表达式为:
每次迭代时从训练集中采样批量的机械臂操作样本,在该批量样本上使用随机梯度下降方法优化上述损失函数,当集成动力学模型在机械臂操作测试集上的误差不再下降时,模型训练完成。其中D是上述的机械臂操作离线数据集,里面存储有机械臂操作过程的经验样本,样本中包含了机械臂的运动状态、执行动作、下一个状态与获得的奖励等。机械臂控制策略每次与集成动力学模型交互过程如图2所示。先从离线数据集D中采样一个机械臂的状态作为当前状态,策略根据机械臂的当前状态采样一个动作如移动、夹取等,然后从集成动力学模型中随机选取一个模型,根据机械臂的当前状态与策略采取的动作生成下一个状态与奖励,之后将下一个状态作为机械臂的当前状态,重复进行交互,直到达到给定的交互长度,将所有生成的机械臂操作数据存入模型数据集中。每个机械臂的状态-动作对(s,a)都可以通过集成动力学模型来估计其不确定性u(s,a),计算公式如下:
行为先验模型如图3所示,使用变分自编码器建模,旨在对采集机械臂操作数据的行为策略进行建模。由两部分组成,一部分是编码器编码器将机械臂的状态-动作对映射到隐空间,另一部分是解码器解码器基于隐空间向量重构机械臂的状态-动作对编码器与解码器均为多层全连接神经网络,变分自编码器基于以下最小化损失函数L(α)进行训练,所述最小化损失函数L(α)的数学表达式为:
其中表示编码器,表示解码器,z表示编码器输出的隐变量,为标准正态分布,DKL[·||·]是相对熵。每次迭代时从机械臂操作的离线数据集中采样批量样本,在该批量样本上使用随机梯度下降方法优化上述损失函数,当达到给定优化轮数时训练结束。
机械臂控制策略指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行如移动、夹取等动作,并能够通过一系列动作完成零件装配任务。控制策略使用行为者-评论家模式构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ和目标值函数 是为提高训练效率所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数。策略与值函数都由多层全连接神经网络构成。在训练策略与值函数时,采用的是强化学习算法SAC。初始化策略πθ、值函数Qψ与目标值函数机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
πθ(·|s′)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而代表了以ψ-为参数的目标值函数在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集。机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
基于模型不确定性与行为先验的控制策略离线训练方法在模拟环境halfcheetah的中等回放数据集上进行了验证。图4展示了本发明基于模型不确定性与行为先验的控制策略离线训练方法与其他近期相关的离线强化学习技术方案MOPO、UWAC在该模拟环境及数据集下的验证结果,实验结果表明本方法能够在该模拟环境与数据集下取得相较于现有离线强化学习技术方案更优的策略性能。
步骤41:从机械臂操作离线数据集D中采样一个状态作为机械臂的当前状态s;
步骤42:策略πθ根据机械臂的当前状态s采样一个动作a~πθ(s);
步骤44:将下一个状态s′作为机械臂的当前状态s,重复步骤42-43,直到达到给定的交互长度,将所有生成的机械臂操作数据(s,a,s′,r)存入模型数据集Dmodel中。
步骤45:重复步骤41-44,直到收集到了给定数量的样本。
使用机械臂操作的离线数据集D与模型数据集Dmodel对策略与值函数进行训练。
步骤51:从机械臂操作的离线数据集D与模型数据集Dmodel中混合采样小批量的更新样本{(s,a,s′,r)}
步骤52:通过集成动力学模型来计算每一个样本中的机械臂状态-动作对(s,a)的模型不确定性u(s,a),计算公式如下:
步骤53:根据计算出来的模型不确定性u(s,a)来计算模型置信度c(s,a),计算公式如下:
c(s,a)=exp(-u(s,a))
步骤54:计算每一个机械臂操作样本对的更新权重w(s,a),其使用了模型置信度与变分自编码器的重构概率两者共同来构建,计算公式如下:
步骤55:计算目标函数值Qtarget,计算公式如下:
步骤56:更新值函数Qψ,使用加权贝尔曼更新方式,更新公式如下:
其中λQ是值函数的学习率,w(s,a)是步骤54中计算出来的机械臂操作样本权重。
步骤57:更新策略πθ,更新公式如下:
其中λπ是策略的学习率,α是SAC中的熵系数,w(s,a)是步骤54中计算出来的机械臂操作样本权重。
ψ-←τψ+(1-τ)ψ-
其中τ是软更新的系数。
交替重复步骤41与步骤58机械臂的控制策略训练达到收敛后,完成训练过程。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于模型不确定性与行为先验的控制策略离线训练方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (10)
1.一种基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,包括如下步骤:
步骤1:在机械臂装配操作数据集上训练集成动力学模型,所得模型可以模拟真实的机械臂操作环境;
步骤2:在机械臂装配操作数据集上训练变分自编码器,所得行为先验模型可以模拟采集这些数据的行为策略;
步骤3:开始训练基于行为者-评论家的策略网络,所述基于行为者-评论家的策略网络为机械臂控制策略,控制策略与集成动力学模型交互生成机械臂的操作样本,存入模型数据集中;
步骤4:从混合数据集中采样小批量的机械臂操作样本,计算样本的模型不确定性与解码器重构概率,并计算样本的贝尔曼更新权重;
步骤5:使用采样的小批量机械臂操作样本来进行加权贝尔曼更新训练值函数、目标值函数与控制策略;
步骤6:重复步骤3-5,控制策略训练达到收敛后,完成训练过程。
2.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,对机械臂控制策略所要面对的机械臂操作环境进行建模得到集成动力学模型,机械臂控制策略可与集成动力学模型交互来扩充机械臂的数据集,并基于集成动力学模型误差提供机械臂状态-动作对的不确定性估计;
对采集机械臂离线数据的行为策略进行建模,得到行为先验模型,行为先验模型能提供机械臂状态-动作对在行为策略下的出现概率;
基于行为者-评论家的策略网络为需要学习的机械臂控制策略,在学习阶段使用预先收集的机械臂离线数据集进行训练,训练过程采用的是加权贝尔曼更新,权重由集成动力学模型与行为先验模型两者共同构建。
4.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述机械臂控制策略与集成动力学模型交互过程包括如下步骤:
步骤21:从机械臂离线数据集D中采样一个状态作为机械臂的当前状态;
步骤22:机械臂的控制策略根据机械臂的当前状态采样一个动作;
步骤23:在动力学模型中随机选取一个动力学模型,根据机械臂的当前状态与动作生成机械臂的下一个状态与奖励;
步骤24:将下一个状态作为机械臂的当前状态,重复步骤22-23,直到达到给定的rollout长度,将所有生成的机械臂交互数据存入模型数据集中。
6.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,动力学模型生成的机械臂操作数据中的奖励都被施加一个不确定性惩罚,即以r-κu(s,a)来代替r,κ为超参数。
8.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述基于行为者-评论家的策略网络指在机械臂操作场景中进行机械臂控制的策略,能在机械臂操作环境下执行动作,并能够通过一系列动作完成零件装配任务;通过机械臂的历史操作数据来离线学习机械臂控制策略;机械臂控制策略采用行为者-评论家模式来构建,行为者是策略πθ,是一个随机策略,由高斯分布建模,每次在机械臂操作环境下执行策略时从该高斯分布中采样动作;评论家是值函数,包括值函数Qψ与目标值函数其中是为了提高训练效率与稳定性所使用的与待训练网络Qψ完全相同的目标网络,其参数将被周期性更新为待训练网络参数;策略与值函数都由多层全连接神经网络构成。
9.根据权利要求1所述的基于模型不确定性与行为先验的控制策略离线训练方法,其特征在于,所述机械臂控制策略的值函数Qψ训练过程采用加权贝尔曼更新,基于以下最小化损失函数L(ψ)进行训练,所述最小化损失函数L(ψ)的数学表达式为:
其中w(s,a)为权重,是预期回报,γ是衰减因子,πθ(·|s′)代表以θ为参数的策略在机械臂状态s′下采取的动作,从而代表了以ψ-为参数的目标值函数在机械臂状态s′和策略πθ采取动作下输出的值,而df是机械臂的离线数据集与模型数据集以比例f共同形成的混合数据集;机械臂样本的权重w(s,a)使用了模型不确定性与行为先验的重构概率两者共同来构建,其计算公式如下:
10.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-9中任一项所述的基于模型不确定性与行为先验的控制策略离线训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310064893.5A CN115972211A (zh) | 2023-02-06 | 2023-02-06 | 基于模型不确定性与行为先验的控制策略离线训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310064893.5A CN115972211A (zh) | 2023-02-06 | 2023-02-06 | 基于模型不确定性与行为先验的控制策略离线训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115972211A true CN115972211A (zh) | 2023-04-18 |
Family
ID=85970226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310064893.5A Pending CN115972211A (zh) | 2023-02-06 | 2023-02-06 | 基于模型不确定性与行为先验的控制策略离线训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115972211A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117055513A (zh) * | 2023-10-10 | 2023-11-14 | 张家港市卓华金属科技有限公司 | 基于人工智能的设备自动化控制方法及装置 |
CN117444978A (zh) * | 2023-11-30 | 2024-01-26 | 哈尔滨工业大学 | 一种气动软体机器人的位置控制方法及其系统、设备 |
-
2023
- 2023-02-06 CN CN202310064893.5A patent/CN115972211A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117055513A (zh) * | 2023-10-10 | 2023-11-14 | 张家港市卓华金属科技有限公司 | 基于人工智能的设备自动化控制方法及装置 |
CN117055513B (zh) * | 2023-10-10 | 2024-04-26 | 张家港市卓华金属科技有限公司 | 基于人工智能的设备自动化控制方法及装置 |
CN117444978A (zh) * | 2023-11-30 | 2024-01-26 | 哈尔滨工业大学 | 一种气动软体机器人的位置控制方法及其系统、设备 |
CN117444978B (zh) * | 2023-11-30 | 2024-05-14 | 哈尔滨工业大学 | 一种气动软体机器人的位置控制方法及其系统、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115972211A (zh) | 基于模型不确定性与行为先验的控制策略离线训练方法 | |
Grzeszczuk et al. | Neuroanimator: Fast neural network emulation and control of physics-based models | |
CN108090621B (zh) | 一种基于分阶段整体优化的短期风速预测方法与系统 | |
CN111260124A (zh) | 一种基于注意力机制深度学习的混沌时间序列预测方法 | |
CN111190429B (zh) | 一种基于强化学习的无人机主动容错控制方法 | |
CN114290339B (zh) | 基于强化学习和残差建模的机器人现实迁移方法 | |
CN112146879A (zh) | 一种滚动轴承故障智能诊断方法及其系统 | |
CN114037048B (zh) | 基于变分循环网络模型的信念一致多智能体强化学习方法 | |
CN114626505A (zh) | 一种移动机器人深度强化学习控制方法 | |
CN114219066A (zh) | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 | |
CN116502774A (zh) | 一种基于时间序列分解和勒让德投影的时间序列预测方法 | |
Zintgraf | Fast adaptation via meta reinforcement learning | |
CN115990875A (zh) | 一种基于隐空间插值的柔性线缆状态预测与控制系统 | |
Solovyeva et al. | Controlling system based on neural networks with reinforcement learning for robotic manipulator | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
WO2021095512A1 (ja) | 機械学習装置、情報処理方法および記録媒体 | |
CN114720129A (zh) | 一种基于双向gru的滚动轴承剩余寿命预测方法及系统 | |
CN113779724A (zh) | 一种充填包装机故障智能预测方法及其系统 | |
Federici et al. | Deep Reinforcement Learning for Robust Spacecraft Guidance and Control | |
Golovko et al. | Modeling nonlinear dynamics using multilayer neural networks | |
CN114872040B (zh) | 基于小脑预测与修正的肌肉骨骼机器人控制方法及装置 | |
JP4267726B2 (ja) | 制御装置における動作信号と操作量との関係を決定する装置、制御装置、データ生成装置、入出力特性決定装置及び相関関係評価装置 | |
Jasna et al. | Solver parameter influence on the results of multilayer perceptron for estimating power output of a combined cycle power plant | |
Chen et al. | Deep Recurrent Policy Networks for Planning Under Partial Observability | |
CN116352700A (zh) | 基于随机网络预测误差的专家数据扩增方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |