CN109948642B

CN109948642B - 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

Info

Publication number: CN109948642B
Application number: CN201910049650.8A
Authority: CN
Inventors: 成慧; 杨凯; 吴华栋; 张东
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2023-03-28
Anticipated expiration: 2039-01-18
Also published as: CN109948642A

Abstract

本发明涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法；首先构建在仿真平台中的机械臂训练环境；之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体；然后基于深度确定性策略梯度算法，训练导师的actor模块与critic模块和学徒的actor模块，最终实现基于图像输入的跨模态深度强化学习机械臂训练算法；在总体训练完成的时候，就能够只使用学徒的演员网络，接受高维度的图像输入，输出能够完成任务的动作，并且这样的方法很适合迁移到真实环境中，由于真实环境无法提供全状态模态的信息，但是图像模态的信息较为容易获得，所以当训练好学徒的演员网络之后，就可以抛弃全状态模态信息的需求，直接利用图像输入获得比较好的输出策略。

Description

基于图像输入的多智能体跨模态深度确定性策略梯度训练方法

技术领域

本发明属于人工智能与机器人领域的强化学习算法，更具体地，涉及一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法。

背景技术

近年来由于计算资源的快速增加和深度学习网络的发展，利用大量数据训练监督学习算法模型在多个领域都取得了非常好的成绩。目前将基于学习的方法应用在机器人控制领域主要有两大类方法：自监督学习和强化学习。自监督学习的方法即让机器人直接或间接收集任务数据并且打上标签，之后依靠大量带标签的训练数据完成深度神经网络的训练。

相比较于自监督学习的方法，强化学习从任务出发，在任务环境中探索并得到相应的回报来进行策略的更新。强化学习不需要进行数据的标注，而且不需要任何机器人领域相关的先验知识，但任务的复杂性和动态环境的不确定性决定了系统必须具备很强的自适应能力和自主能力。强化学习从环境中得到的回报是一种弱监督信号，利用强化学习进行策略的学习需要大量的探索才能比较好地得到一个比较好的控制策略。强化学习的历史由来已久，强化学习和马尔可夫决策过程(MDP)有很大的关系，简化成一个五元组的形式则是状态s(state)，动作a(action)，奖励r(reward)，损失系数γ(gamma)和转移概率p(probability)。其中状态描述了智能体在当前环境中的属性，智能体根据当前二点状态决定动作，执行该动作能够与环境交互得到奖励，转移概率描述了执行完动作后智能体到达新的状态的概率分布，损失系数用来对将来的奖励进行衰减，决定智能体的决策更多地专注于当前状态还是将来可能的回报。智能体学习的目标是寻找一个策略，以便在整个马尔可夫过程中能够取得最大的奖励总和。强化学习算法运用在控制领域总的来说有两大类，一类是由policy gradient发展而来的策略梯度算法，代表为TRPO(trust region policyoptimization)与PPO(proximal policy optimization)，一类是确定性策略梯度下降算法，如DDPG(deep deterministic policy gradient)，区别在于DDPG根据当前状态直接输出一个确定的动作，而TRPO与PPO输出的是动作的一个概率分布。

在机械臂控制领域利用视觉信号作为输入结合了卷积神经网络和强化学习算法的使用。但是强化学习在高维度信息输入的时候都会面临一个比较严重的维度爆炸问题，即智能体在环境中的探索次数会随着输入维度的提高而极大地增加。如果直接使用物理的机械臂进行这样的探索，会面临着时间与资源的巨大损耗，并且由于强化学习在训练初期的不稳定性，对机械臂的物理性损伤也是巨大的。

在仿真环境中训练强化学习智能体是目前一种比较热门的训练方法，利用仿真环境对现实物理规则的模拟，可以让智能体在虚拟的仿真环境中进行大量的探索的实验，相比于直接在现实中进行实验还不需要担心其物理损耗的问题。在现有的相关技术中，利用仿真环境提供的额外信息训练高维度输入强化学习智能体是一个比较通用的方案。

同一事物或者场景存在着不同的数据形式，但这些数据都能指向同一场景和事物，这些数据被称为模态，在系统中，仿真模拟器的物理参数(空间坐标，灯光，重力参数)被称为去全状态模态，这些模态能够被用来完整地描述一个仿真环境。而图像模态是指存在于仿真环境中的某一个摄像头所拍摄下来的场景图片，图像模态只能部分描述一个仿真场景，摄像头没有拍到的部分在图像模态中是未知的，但是相比于全状态模态，在真实世界场景下图像模态能够更容易获得。

在现有技术中有一些结合深度确定性策略梯度(DDPG)的方法，利用仿真环境中的全状态模态信息来训练DDPG算法中的评判家(critic)模块，并指导图像模态输入的演员(actor)模块的更新。对于该方法中的评判家网络来说，输入的观察值是仿真环境提供的全状态信息(full-state information)(世界坐标，光照角度，环境整体受力情况)，这部分全状态信息能够从物理引擎的计算模块中完整详细地拿到，相对于图像输入来说，包含了更多更有效的信息，并且更加精确不掺杂冗余。用全状态信息训练的critic能够更容易收敛。而在另一方面，actor使用的是图像作为网络的输入，这就让处于两个模态的(modal)网络能够利用对方提供的信息共同更新，在训练效率方面，由于critic更容易收敛，它能够更有效地指导actor的更新，相比于critic也使用图像作为输入，该方法能够更有效地实现深度强化学习算法在视觉输入环境中的探索。

上述方法有一个基本的假设就是利用全状态信息的critic能够比较好的收敛。但是当探索的环境实在过于巨大的时候，例如使用1920x1024x4的彩色-深度图像作为actor的输入的时候，critic的收敛性并不能得到保证。过于巨大的探索空间造成演员网络在探索效率上极大地降低，探索效率的降低会导致无法得到有效的训练样本，由于DDPG中actor和critic共用同一套训练样本，这就导致critic的训练受到actor探索效率的影响。

第二个缺点就是critic提供给actor用于训练的梯度是弱指导，并不能保证每次梯度更新的方向都是正确的，这就会导致在巨大的探索空间中，actor探索的样本无法训练好critic，而critic反过来用错误的梯度指导actor的学习，导致训练效果越来越差，使用现有技术无法完成这样的任务。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，在仿真环境中实现基于图像输入的跨模态深度强化学习机械臂训练算法。

为解决上述技术问题，本发明采用的技术方案是：一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，包括以下步骤：

S1.搭建仿真器中的实验平台，定义交互物体与机械臂类型，定义机械臂控制任务的最终目标与奖惩规则，明确双智能体的状态空间和动作空间；

S2.基于深度确定性策略梯度算法，为两组智能体：导师teacher和学徒student建立决定行动的actor模块与评判反馈的critic模块，两种模块都基于深度神经网络搭建，并随机初始化网络参数；

S3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块，该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新；

S4.利用训练好的导师智能体，指导学徒智能体actor模块的训练，该过程包括：学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块，同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块；

S5.重复步骤S4，直到智能体的决策满足优化终止条件。

本发明首先构建在仿真平台中的机械臂训练环境；之后构造两个利用不同模态输入的导师(teacher)和学徒(student)智能体；然后基于深度确定性策略梯度算法，训练导师的actor模块与critic模块和学徒的actor模块，最终实现基于图像输入的跨模态深度强化学习机械臂训练算法。

进一步的，所述的步骤S1具体包括：

S11.利用开源仿真平台V-REP搭建实验环境，使用的物理引擎是Vortex开源物理引擎，使用的机械臂类型是UR5机器人，关节数量为6个；

S12.设定机械臂控制需要完成的任务为抓取任务，任务描述为在机械臂同一高度的水平面上有多个大小、形状、颜色都不同的不规则物体，智能体需要控制机械臂对特定目标的物体进行识别和抓取，奖励条件为机械臂成功将目标物体抓取，抓取到非目标物体或者没能抓取到物体都不给奖励或者惩罚，在仿真空间中设定视觉传感器位置，该位置必须能完整拍下机械臂与所有不规则物体；

S13.智能体的动作为：机械臂6个关节角的运动增量；导师智能体的状态为：机械臂6个关节角的当前角度；目标物体的全状态信息：三维世界坐标与三维姿态；学徒智能体的状态为：机械臂6个关节角的当前角度，位于仿真空间中的RGB视觉传感器采回来的128x128x3大小的彩色图片；

S14.所述的仿真平台为智能体的动作空间和状态空间，环境中的奖惩规则共同构建的一个双智能体决策的运动环境。

进一步的，所述的S2步骤具体包括：

S21.双智能体的actor和critic模块参数更新都依赖深度确定性策略梯度算法，需要维护一个单独的经验池存储探索得到的经验回放，经验池每一次保存的样本称为一个sample，具体包括：当前状态s，当前动作a，当前回报r，下一状态s′；

S22.建立导师智能体的actor模块，将状态s：机械臂关节角和目标的全状态信息，作为网络的输入，经过若干中间全连接层得到智能体的下一步输出动作a；同时，在每一轮的迭代过程中，网络的参数都是动态变化的，为了使网络结构的参数学习更加稳定，保留一个actor网络结构副本，该actor网络结构副本旨在一定的时间步长才进行参数的更新；

S23.建立导师智能体的critic，将智能体的状态s：机械臂关节角和目标的全状态信息，和动作a作为网络的输入，经过若干全连接层得到critic模块的输出：状态-动作价值Q；同时，为了使参数的学习更稳定，保留一个critic网络结构副本，该critic网络结构副本同样在一定的时间步长才进行参数的更新；

S24.建立学徒智能体的actor，将状态s：机械臂关节角和图像信息，作为网络的输入，经过多层卷积层和全连接层计算得到智能体的下一步输出动作a；同时，在每一轮的迭代过程中，网络的参数都是动态变化的，为了使网络结构的参数学习更加稳定，保留一个actor网络结构副本，该actor网络结构副本旨在一定的时间步长才进行参数的更新；

进一步的，所述的S3步骤具体包括：

S31.导师critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型，将即时更新参数的网络模型Q称之为在线critic，其参数表示为θ^Q；将延迟更新的网络模型Q′称之为目标critic，其参数表示为θ^Q’；对于目标critic，根据经验池中随机采样的样本[s,a,r,s’]，利用贝尔曼公式更新在线critic模块：

目标critic是在线critic的延迟更新，目标critic的参数更新公式为：

θ^Q’＝τθ^Q+(1-τ)θ^Q’，其中τ为平衡因子；

S32.导师actor模块包含两个结构完全相同，参数更新时间不一致的网络模型，及时更新参数的网络模型μ为在线actor，其参数表示为θ^μ；延迟更新参数的网络模型μ′为目标actor，其参数表示为θ^μ’；

对于目标actor，根据经验池中随机采样的样本[s,a,r,s’]，利用深度确定性策略梯度更新公式更新在线actor，其梯度下降公式为：

目标actor是在线actor的延迟更新，目标actor的参数更新公式为：

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；

S33.利用步骤S31跟步骤S32的公式更新导师智能体的actor与critic模块，并利用更新后的actor模块对环境进行探索得到新的探索样本[s,a,r,s’]，将新的探索样本加入到原本的经验池中，如果样本数量达到经验池的最大样本数量，则用最新的探索样本替换旧的样本；

S34.重复步骤S33直至满足导师智能体的优化终止条件或达到最大迭代步数。

进一步的，所述的S4步骤具体包括：

S41.学徒actor模块包含两个结构完全相同，参数更新时间不一致的网络模型，及时更新参数的网络模型μ为在线actor，其参数表示为θ^μ；延迟更新参数的网络模型μ′为目标actor，其参数表示为θ^μ’；

对于目标actor，根据经验池中随机采样的样本[s_L,s_H,a,r,s_L’,s_H’]，其中s_L和s_H分别为当前时刻下的全状态信息和图像信息，s′_L和s′_H分别为下一个时刻的全状态信息和图像信息；利用下述梯度下降公式优化学徒在线actor：

公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息s_L与动作a计算该状态-动作对的Q值，该Q值取负后作为损失函数的第一项参与梯度计算；上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度；μ_t和μ_s分别为导师actor模块的网络和学徒actor模块的网络；

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；

S42.利用步骤S41的更新公式更新学徒智能体的actor模块，并利用更新后的actor模块对环境进行探索得到新的探索样本[s_L,s_H,a,r,s_L’,s_H’]，将新的探索样本加入到原本的经验池中，如果样本数量达到经验池的最大样本数量，则用最新的探索样本替换旧的样本；

S43.利用样本[s_L,a,r,s_L’]以小步长更新导师的actor与critic模块，让导师智能体也能收益于学徒智能体的环境探索经验；

S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数。

与现有技术相比，有益效果是：

1.在总体训练完成的时候，就能够只使用学徒的演员网络，接受高维度的图像输入，输出能够完成任务的动作，并且这样的方法很适合迁移到真实环境中，由于真实环境无法提供全状态模态的信息，但是图像模态的信息较为容易获得，所以当训练好学徒的演员网络之后，就可以抛弃全状态模态信息的需求，直接利用图像输入获得比较好的输出策略；

2.在训练的时候，我们会预先训练导师智能体，由于导师智能体中的演员网络和评判家网络都是使用全状态模态作为输入，并不受由于图像质量影响带来的输入维度提升，在导师智能体中，评判家网络用于训练的样本是全状态模态演员探索得到的，因此导师智能体中评判家网络能得到比较充分的训练，反过来提供了更准确的梯度指导给演员网络，相互促进了训练，解决了背景技术中第一个缺点所带来的问题；

3.在训练完导师智能体的两个网络之后，再开始训练学徒的演员网络，我们利用导师智能体的评判家网络为学徒智能体的演员网络提供梯度指导，并且利用导师智能体的演员网络来为学徒智能体的演员网络提供直接的监督学习信号，由于监督学习是一种强指导，能够迅速准确地更新学徒智能体的演员网络，让其在导师智能体的两个网络的指导下学会如何快速并准确地完成任务。这就解决了上第二个缺点所带来的问题。

附图说明

图1是本发明方法流程图。

图2是本发明的双智能体网络结构框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1所示，一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，包括以下步骤：

步骤1.搭建仿真器中的实验平台，定义交互物体与机械臂类型，定义机械臂控制任务的最终目标与奖惩规则，明确双智能体的状态空间和动作空间；

其具体步骤包括：

步骤2.基于深度确定性策略梯度算法，为两组智能体：teacher和student建立决定行动的actor模块与评判反馈的critic模块，两种模块都基于深度神经网络搭建，并随机初始化网络参数；

其具体步骤包括：

S22.建立导师智能体的actor模块，如图2中的①，导师actor模块由三层全连接神经网络组成，每一层的神经元个数分别为256，128，64，每层全连接层后面使用ReLU层作为激活函数。将状态s：机械臂关节角和目标的全状态信息，作为网络的输入，经过若干中间全连接层得到智能体的下一步输出动作a；同时，在每一轮的迭代过程中，网络的参数都是动态变化的，为了使网络结构的参数学习更加稳定，保留一个actor网络结构副本，该actor网络结构副本旨在一定的时间步长才进行参数的更新；

S23.建立导师智能体的critic，如图2中的③，导师critic模块由三层全连接神经网络组成，每一层的神经元个数分别为256，128，64，每层全连接层后面使用ReLU层作为激活函数。将智能体的状态s：机械臂关节角和目标的全状态信息，和动作a作为网络的输入，经过若干全连接层得到critic模块的输出：状态-动作价值Q；同时，为了使参数的学习更稳定，保留一个critic网络结构副本，该critic网络结构副本同样在一定的时间步长才进行参数的更新；

S24.建立学徒智能体的actor，如图2中的②，学徒actor模块使用5层卷积神经网络处理图像输入，卷积神经网络的通道数分别为32，64，64，128，256，卷积核使用3x3大小，每一层卷积层后面接批归一化层和ReLU激活层，图像输入经过卷积后得到高维图像特征，该特征经过两层全连接层(128，64)连接，最终构成学徒智能体actor模块的网络模型。将状态s：机械臂关节角和图像信息，作为网络的输入，经过多层卷积层和全连接层计算得到智能体的下一步输出动作a；同时，在每一轮的迭代过程中，网络的参数都是动态变化的，为了使网络结构的参数学习更加稳定，保留一个actor网络结构副本，该actor网络结构副本旨在一定的时间步长才进行参数的更新。

步骤3.利用仿真环境中容易直接读取的全状态信息结合深度确定性策略梯度预先训练导师智能体的actor和critic模块，该训练过程包括智能体对环境的探索和智能体利用探索收集到的数据对actor和critic模块进行更新；

其具体步骤包括：

θ^Q’＝τθ^Q+(1-τ)θ^Q’，其中τ为平衡因子；

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；

步骤4.利用训练好的导师智能体，指导学徒智能体actor模块的训练，该过程包括：学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块，同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块；

其具体步骤包括：

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；

步骤5.重复步骤4，直到智能体的决策满足优化终止条件。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，其特征在于，包括以下步骤：

S2.基于深度确定性策略梯度算法，为两组智能体：teacher和student建立决定行动的actor模块与评判反馈的critic模块，两种模块都基于深度神经网络搭建，并随机初始化网络参数；

S4.利用训练好的导师智能体，指导学徒智能体actor模块的训练，该过程包括：学徒智能体对环境的单独探索和学徒智能体利用探索收集到的数据以及导师智能体给予的梯度指导耦合优化actor模块，同时利用学徒智能体的训练数据以极小学习率优化导师的actor与critic模块；具体包括：

公式中第一项利用导师智能体的在线critic模块根据采样样本中的全状态模态信息s_L与动作a计算状态-动作对的Q值，该Q值取负后作为损失函数的第一项参与梯度计算；上述公式的第二项描述了两个智能体的actor在接收同一时刻下同一场景的不同模态表现形式得到动作输出的相似程度；μ_t和μ_s分别为导师actor模块的网络和学徒actor模块的网络，r表示回报；

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；

S44.重复步骤S42与S43直至满足导师智能体的优化终止条件或达到最大迭代步数；

S5.重复步骤S4，直到智能体的决策满足优化终止条件。

2.根据权利要求1所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，其特征在于，所述的步骤S1具体包括：

3.根据权利要求2所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，其特征在于，所述的S2步骤具体包括：

S21.双智能体的actor和critic模块参数更新都依赖深度确定性策略梯度算法，需要维护一个单独的经验池存储探索得到的经验回放，经验池每一次保存的样本称为一个sample，具体包括：当前状态s，当前动作a，当前回报r，下一状态s’；

S24.建立学徒智能体的actor，将状态s：机械臂关节角和图像信息，作为网络的输入，经过多层卷积层和全连接层计算得到智能体的下一步输出动作a；同时，在每一轮的迭代过程中，网络的参数都是动态变化的，为了使网络结构的参数学习更加稳定，保留一个actor网络结构副本，该actor网络结构副本旨在一定的时间步长才进行参数的更新。

4.根据权利要求3所述的一种基于图像输入的多智能体跨模态深度确定性策略梯度训练方法，其特征在于，所述的S3步骤具体包括：

S31.导师critic模块包含了两个结构完全相同、参数更新时间不一致的网络模型，将即时更新参数的网络模型Q称之为在线critic，其参数表示为θ^Q；将延迟更新的网络模型Q′称之为目标critic，其参数表示为θ^Q′；对于目标critic，根据经验池中随机采样的样本[s,a,r,s′]，利用贝尔曼公式更新在线critic模块：

θ^Q′＝τθ^Q+(1-τ)θ^Q′，其中τ为平衡因子；

S32.导师actor模块包含两个结构完全相同，参数更新时间不一致的网络模型，及时更新参数的网络模型μ为在线actor，其参数表示为θ^μ；延迟更新参数的网络模型μ’为目标actor，其参数表示为θ^μ’；

对于目标actor，根据经验池中随机采样的样本[s,a,r,s′]，利用深度确定性策略梯度更新公式更新在线actor，其梯度下降公式为：

θ^μ’＝τθ^μ+(1-τ)θ^μ’，其中τ为平衡因子；