CN116713999B

CN116713999B - 一种多机械臂多目标寻找的训练方法及训练装置

Info

Publication number: CN116713999B
Application number: CN202310980655.9A
Authority: CN
Inventors: 刘鹏; 张真; 李曼; 秦敏轩; 梁彦龙; 高秀斌
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-10-20
Anticipated expiration: 2043-08-07
Also published as: CN116713999A

Abstract

本发明属于机械臂目标寻找技术领域，提供了一种多机械臂多目标寻找的训练方法及训练装置。包括：基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标交互获取第一训练样本；选取第一训练样本输入LSTM网络获取第一记忆样本，并基于其对初始策略网络及初始价值网络进行更新以获取预训练策略网络及预训练价值网络；基于预训练策略网络及预训练价值网络进行多机械臂与多目标交互获取第二训练样本；基于多机械臂与多目标相对位置选取第二训练样本输入LSTM网络获取第二记忆样本，并基于其对预训练策略网络及预训练价值网络更新获取目标策略网络及目标价值网络。本发明具有收敛速度快，训练结果稳定的优势。

Description

一种多机械臂多目标寻找的训练方法及训练装置

技术领域

本发明涉及机械臂目标寻找技术领域，具体涉及一种多机械臂多目标寻找的训练方法及训练装置。

背景技术

机械臂作为一种机械搬运机构，在现代化工厂中不但替代人工操作有效提高了生产效率，且在人员无法工作的环境下(如工厂中的氮气腔室、真空腔室内)良好适用，从而确保了现代化工厂中各类工艺制程的顺利进行。

随着工厂现代化进程的发展，为了进一步实现提产增效，对机械臂提出了新的需求。即需要实现单一机械臂的固定目标寻找向多机械臂的多个随机目标寻找的转换。此时，当前用于机械臂训练的RRT等传统轨迹算法将不再适用，需要寻找新的算法以进行以多个随机目标寻找为任务的多机械臂的训练优化。

其中，强化学习作为一种新型的机器学习算法，由于其在训练过程中无监督者，仅以奖励信号作为指标对智能体与环境交互中采取的行为进行迭代优化；因此基于其进行机械臂训练时，将以目标寻找为导向，忽略数量限制及对应关系限制。同时其处理的问题具有时序性，与机械臂进行目标寻找时连续动作相一致。因此其将适用于多机械臂的多目标寻找训练中。

但发明人在实际应用中发现采用普通的强化学习算法进行多机械臂多目标寻找时仍存在以下缺陷：首先，多个机械臂的动作空间和状态空间都是海量级数据空间；而在这样海量数据空间搜索合适的动作，势必存在计算量大，不易收敛的问题。其次，多机械臂下高几率的碰撞问题导致前期训练时，难以收集到有用的数据，从而导致恶性循环；也将导致机械臂面对惩罚不敢大胆的探索，从而呈现摆烂状态。再者，多机械臂多随机目标的同步训练会导致某几个训练的过拟合或欠拟合，从而导致最终的整体训练结果存在不平衡的问题。

发明内容

本发明目的在于提供一种多机械臂多目标寻找的训练方法及训练装置，以同时改善仅采用常用的强化学习进行多机械臂多目标寻找时存在的难以收敛、探索和利用不充分，且整体训练结果不均衡的技术问题。

为达成上述目的，本发明提出如下技术方案：

第一方面，本技术方案提供了一种多机械臂多目标寻找的训练方法。包括：

基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；

基于多机械臂与多目标间的相对位置自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，并基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络；

基于所述预训练策略网络及所述预训练价值网络进行多机械臂与多目标的交互以获取若干第二训练样本，并存储所述若干第二训练样本于第二经验池内；

基于多机械臂与多目标间的相对位置自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本，并基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络。

进一步的，所述基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络，以及所述基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络；包括：

以奖励函数的值最大，以及每一时刻相应动作的熵最大为约束对所述初始策略网络及初始价值网络，以及所述预训练策略网络及预训练价值网络进行迭代更新直至到达预设的迭代阈值；

其中，所述奖励函数包括单一奖励函数及团队奖励函数，所述单一奖励函数用于在任一机械臂到达目标时赋予该机械臂奖励值，或在任一机械臂发生碰撞时赋予该机械臂惩罚值；所述团队奖励函数用于在所有机械臂均到达相应目标时赋予所有机械臂奖励值；

所述单一奖励函数及所述团队奖励函数均包括：距离惩罚项、时间惩罚项及动作惩罚项。

进一步的，所述自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，以及所述自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本；包括：

基于遗忘门保存上一时刻第一训练样本及第二训练样本中携带的机械臂的终止位置、寻找的目标位置及末端执行器的姿态至当前记忆单元；

基于输入门保存当前时刻第一训练样本及第二训练样本中携带的机械臂的起始位置、寻找的目标位置及预执行的各执行器的姿态至当前记忆单元；

基于输出门输出所述遗忘门及所述输入门保存的信息以获取第一记忆样本及第二记忆样本。

进一步的，所述基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络；包括：

设置若干引导目标及与每一引导目标相应的引导奖励值；其中，引导目标为机械臂末端执行器与目标间的距离阈值；所述距离阈值的数值越小，对应的引导奖励值越大；

判断机械臂末端执行器与目标间的实际距离达到相应的引导目标时，赋予其相应的引导奖励值。

进一步的，所述基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；包括：

获取各机械臂与各目标间的当前相对位置，并基于聚类算法以所述当前相对位置为起点对各机械臂与各目标进行匹配，并基于RRT算法对各机械臂进行轨迹规划；

基于规划的轨迹指导机械臂执行动作，并获取环境反馈给机械臂的奖励，及各机械臂与各目标间的下一时刻相对位置以构建一第一训练样本并存入第一经验池内；

重复执行上述过程以获取若干第一训练样本直至所述第一经验池内的数据量到达其最大存储容量。

第二方面，本技术方案提供了一种多机械臂多目标寻找的方法。包括：

基于所述的训练方法获取目标策略网络及目标价值网络构建多机械臂智能体；

基于所述多机械臂智能体进行多目标寻找。

第三方面，本技术方案提供了一种多机械臂多目标寻找的训练装置。包括：

第一获取模块，用于基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；

第一训练模块，用于基于多机械臂与多目标间的相对位置自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，并基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络；

第二获取模块，用于基于所述预训练策略网络及所述预训练价值网络进行多机械臂与多目标的交互以获取若干第二训练样本，并存储所述若干第二训练样本于第二经验池内；

第二训练模块，用于基于多机械臂与多目标间的相对位置自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本，并基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络。

进一步的，所述第一获取模块包括：

获取单元，用于获取各机械臂与各目标间的当前相对位置，并基于聚类算法以所述当前相对位置为起点对各机械臂与各目标进行匹配，并基于RRT算法对各机械臂进行轨迹规划；

构建单元，用于基于规划的轨迹指导机械臂执行动作，并获取环境反馈给机械臂的奖励，及各机械臂与各目标间的下一时刻相对位置以构建一第一训练样本并存入第一经验池内；

循环单元，用于重复执行上述过程以获取若干第一训练样本直至所述第一经验池内的数据量到达其最大存储容量。

第三方面，本技术方案提供了一种电子设备。包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述的方法。

第四方面，本技术方案提供了一种计算机可读存储介质。其上存储有计算机程序，所述计算机程序用于执行所述的方法。

有益效果：

由以上技术方案可知，本发明提供了一种多机械臂多目标寻找的训练方法提高训练过程的收敛速度，并在实现机械臂充分探索与利用的同时，提高训练后各机械臂执行任务时的平衡性。

首先，考虑到机械臂的量级动作空间及量级状态空间导致的维度爆炸，在训练过程中不易收敛的问题，采用常规轨迹规划算法对策略网络及价值网络进行预训练。此时，机械臂智能体将在预训练过程中快速积累一定的先验知识。进而再基于得到的预训练策略网络及预训练价值网络按强化学习进行后续训练时，自量级动作空间内搜索合适动作的随机性会显著降低，并便于机械臂快速寻找到最优的动作进行执行，以提高训练过程中收敛效率。同时，基于常规轨迹规划算法进行预训练的过程中，也将积累一批有价值的样本数据；从而使预训练后的机械臂智能体积累一定的规避碰撞的经验，进而在后续基强化学习的训练中以该类经验为基础进行更加积极正向的探索尝试（即在避免碰撞的探索尝试），而在机械臂智能体的迭代训练中，该类正向的探索也将驱使其逐渐更好的完成任务。再者，考虑到大量机械臂进行同步训练势必导致的一部分机械臂存在过拟合或欠拟合的情况；而它们均不会导致这部分机械臂的泛化能力降低，从而在执行多机械臂多目标任务查找时，存在无法准确找到目标的问题。基于此，本技术方案在策略网络及价值网络的预训练及后续训练中均引入了LSTM网络；以利用记忆力机制使各机械臂智能体记住前期行为及产生的效果，从而辅助其正确的反应数据特征以采取正确的决策。进而在执行任务时准确进行目标寻找。而且LSTM网络的引入，也便于机械臂积累更加合理的决策经验，从而进一步提高了训练收敛速度，并指导其进行正向探索。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1 为本实施例所述的多机械臂多目标寻找的训练方法的流程图；

图2 为进行第一训练样本积累的流程图；

图3 为另一种进行第一训练样本积累的流程图；

图4 为进行网络迭代更新的流程图；

图5 为进行奖励引导设置的流程图；

图6 为进行第一记忆样本及第二记忆样本获取的流程图；

图7 为本实施例所述的多机械臂多目标寻找的方法的流程图；

图8 为在新场景下进行多机械臂多目标寻找的预处理流程图；

图9 为本实施例所述的多机械臂多目标寻找的训练装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样, 除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件, 并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

在实际应用中采用普通的强化学习算法进行多机械臂多目标寻找时仍存在以下缺陷：(1)多机械臂海量动作空间及海量状态空间内的合适动作搜索导致智能体训练计算量大，不易收敛。(2)多机械臂下碰撞事件频发，导致机械臂无法进行积极正向的探索。(3)多机械臂多随机目标中存在过拟合或欠拟合，导致最终的整体训练结果存在不平衡的问题。基于此，本发明旨在提供一种多机械臂多目标寻找的训练方法以同时改善上述技术缺陷。

下面结合附图所示，对本实施例所述的多机械臂多目标寻找的训练方法作具体介绍。

如图1所示，所述训练方法包括：

步骤S202、基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内。

作为一种具体的实施方式，如图2所示，步骤S202具体包括：

步骤S202.2、获取各机械臂与各目标间的当前相对位置，并基于聚类算法以所述当前相对位置为起点对各机械臂与各目标进行匹配，并基于RRT算法对各机械臂进行轨迹规划。

作为另一种具体的实施方式，如图3所示，步骤S202.2可通过如下方法进行：

步骤S202.22’、获取各机械臂及各目标的初始坐标。

步骤S102.24’、以各机械臂为中心点，按预设的欧氏距离对各目标进行聚类；以获取各机械臂对应查找的若干目标。

步骤S102.26’、以各所述机械臂的初始坐标作为其起始位置坐标，对应查找的各目标的初始坐标作为其终止位置坐标，每次进行姿态变换时对应的坐标作为其若干分解的位置坐标，并将它们引入getPath函数进行轨迹规划。

在具体实施时，由于每次进行姿态变换时的姿态具有不确定性，因此此处引入了常用的若干种姿态以作为每次姿态变换时的目标姿态。

步骤S202.4、基于规划的轨迹指导机械臂执行动作，并获取环境反馈给机械臂的奖励，及各机械臂与各目标间的下一时刻相对位置以构建一第一训练样本并存入第一经验池内。

步骤S202.6、重复执行上述过程以获取若干第一训练样本直至所述第一经验池内的数据量到达其最大存储容量。

步骤S204、基于多机械臂与多目标间的相对位置自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，并基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络。

此时，基于步骤S202~步骤S204将基于常规轨迹规划算法实现初始策略网络及初始价值网络的预训练，以使机械臂积累一定的经验知识。从而在后续训练中降低动作搜索的随机性，以提高收敛速度并降低碰撞几率。

LSTM网络的引入充分利用了记忆力机制，将机械臂前期的行为和相应结果进行了记忆并应用于网络更新中，从而便于智能体学习到正确的数据特征，避免了部分机械臂过拟合或欠拟合导致的整体训练结果不平衡的情况。同时也进一步提高了收敛速度，并降低了碰撞几率。

此时，获取所述预训练价值网络及所述预训练策略网络后将继续进行如下步骤：

步骤S206、基于所述预训练策略网络及所述预训练价值网络进行多机械臂与多目标的交互以获取若干第二训练样本，并存储所述若干第二训练样本于第二经验池内。

步骤S208、基于多机械臂与多目标间的相对位置自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本，并基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络。

本实施例中，所述LSTM网络共两个，分别与策略网络及价值网络相应。

众所周知，对于强化学习算法，需要同时解决优化问题和泛化问题。此时，基于所述步骤S202~步骤S208得到的目标策略网络及目标价值网络由于引入了基于常规轨迹规划算法的模仿学习及涉及记忆力机制的LSTM网络。因此其训练过程中具有收敛速度快、机械臂探索能力强的优点；解决了智能体的优化问题。且训练后的机械臂具有泛化能力强，可顺利执行目标寻找任务的优势；解决了泛化问题。

作为一种具体的实施方式，如图4所示，在步骤S204及步骤S208中进行网络的迭代训练时，通过如下方式进行：

步骤S302、以奖励函数的值最大，以及每一时刻相应动作的熵最大为约束对所述初始策略网络及初始价值网络，以及所述预训练策略网络及预训练价值网络进行迭代更新直至到达预设的迭代阈值。

此时，机械臂对应的策略网络为随机策略网络，使每一次迭代中各可执行动作的概率分散化，以弥补以常规轨迹规划算法进行预训练时可能导致的探索能力降低的缺陷。此时，将首先基于价值网络得到q值，然后基于q值和动作概率的对数进行所述随机策略网络的更新。

具体的，考虑到多机械臂同步训练的过程中，需要设置合适的奖励以惩罚过大时机械臂不作为不去探索尝试，惩罚过小则会易于碰撞的问题。设置所述奖励函数包括单一奖励函数及团队奖励函数。所述单一奖励函数用于在任一机械臂到达目标时赋予该机械臂奖励值，或在任一机械臂发生碰撞时赋予该机械臂惩罚值；所述团队奖励函数用于在所有机械臂均到达相应目标时赋予所有机械臂奖励值。此时将解决训练中的稀疏奖励问题，平衡机械臂智能体的探索与利用问题，从而引导其更好的完成目标查找任务。

本实施例中，当某一机械臂单独到达目标时，则基于单一奖励函数赋予其+0.01的奖励值；当机械臂发生碰撞时，则基于单一奖励函数赋予其-0.05的惩罚。当所有机械臂均到达其相应的目标时，基于团队奖励函数赋予所有机械臂+1的奖励值。

具体的，所述单一奖励函数及所述团队奖励函数均包括：距离惩罚项、时间惩罚项及动作惩罚项。进一步的，所述距离惩罚项包括所述机械臂的末端至所述预设目标间的欧式距离；所述时间惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度时的消耗时长；所述动作惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度后其与自身起点间的相对位置。其中，距离惩罚项决定了机械臂是否在进行正向的目标寻找，时间惩罚项则决定了机械臂目标寻找时的效率，动作惩罚项则决定了机械臂目标寻找的自消耗。进而使所述多重奖励函数考虑到各方面的因素以提高合理性，从而使机械臂进行更加正向合理的探索。

作为进一步的具体的实施方式，如图5所示，在步骤S302的基础上还包括：

步骤S302.2’、设置若干引导目标及与每一引导目标相应的引导奖励值；其中，引导目标为机械臂末端执行器与目标间的距离阈值；所述距离阈值的数值越小，对应的引导奖励值越大。

本实施例中，数值从大到小排列，共设置了5个引导目标，分别为0.08cm、0.06cm、0.04cm、0.02cm及0.01cm。具体的，对应的引导奖励值分别为：+0.001、+0.003、+0.005、+0.007、+0.009。

步骤S302.4’、判断机械臂末端执行器与目标间的实际距离达到相应的引导目标时，赋予其相应的引导奖励值。

此时将通过设置多个引导目标的方式赋予机械臂一定的信心，以鼓励其更好的完成目标查找任务。

作为一种具体的实施方式，如图6所示，在步骤S204及步骤S208中进行第一记忆样本及第二记忆样本获取时，通过如下方式进行：

步骤S301.2、基于遗忘门保存上一时刻第一训练样本及第二训练样本中携带的机械臂的终止位置、寻找的目标位置及末端执行器的姿态至当前记忆单元。

步骤S301.4、基于输入门保存当前时刻第一训练样本及第二训练样本中携带的机械臂的起始位置、寻找的目标位置及预执行的各执行器的姿态至当前记忆单元；

步骤S301.6、基于输出门输出所述遗忘门及所述输入门保存的信息以获取第一记忆样本及第二记忆样本。

此时，将通过步骤S301.2-步骤S301.6基于门控机制控制信息的积累，以便于机械臂进行决策。当机械臂需要在复杂环境中寻找目标时，LSTM可以帮助机械臂实现更加高效和精准的轨迹规划，从而提高机械臂的自主性和智能化水平。LSTM通过对机械臂的历史运动轨迹进行学习，可以预测机械臂在未来的运动轨迹，从而帮助机械臂更加精准地到达目标位置。这种预测和规划过程可以通过遗忘门、输入门和输出门来完成，具体内容如下：

遗忘门控制哪些信息需要被保留，哪些信息需要被遗忘。在机械臂目标寻找任务中，遗忘门可以帮助LSTM遗忘不重要的信息，只记住上一时刻机械臂的终止位置、寻找的目标位置和末端执行器的姿态等关键信息，以便在后续的运动规划中使用。

输入门控制哪些新信息需要被加入到记忆单元中。在机械臂目标寻找任务中，输入门可以帮助LSTM获取当前时刻机械臂的起始位置、寻找的目标位置和预执行的各执行器的姿态等关键信息，以便在后续的运动规划中使用。

输出门控制哪些信息需要被输出。而这些关键信息都是从记忆单元中获取的。记忆单元是LSTM中的核心组成部分，它可以保存和更新上一时刻的记忆信息，并将新的信息加入到当前时刻的记忆中。前面的输入门和遗忘门，就是在帮助记忆单元，记住最关键的信息。在机械臂目标寻找任务中，记忆单元可以帮助LSTM保存和更新机械臂的运动轨迹信息，以便在后续的运动规划中使用。LSTM可以根据历史数据和当前输入，更新记忆单元中的信息，并输出下一步的预测结果。

LSTM可以通过学习和预测机械臂的运动轨迹，确定最佳的运动路径和速度，从而实现更加高效的目标寻找。且由于机械臂的运动轨迹是一个时间序列数据，因此需要使用一种能够处理时间序列数据的模型来进行建模和预测。LSTM作为一种递归神经网络，能够有效地处理时间序列数据，并且具有较好的记忆能力，可以学习和预测长期的时间序列模式。在机械臂目标寻找任务中，LSTM可以通过处理时间序列数据，学习和预测机械臂的运动轨迹，从而实现更加精准和高效的目标寻找。

由上述可见，本实施例所述的多机械臂多目标寻找的训练方法，同时引入了模仿学习、记忆力机制和深度学习进行训练，同时解决了仅采用常用的强化学习进行多机械臂多目标寻找时存在的难以收敛、探索和利用不充分，且整体训练结果不均衡的技术缺陷。同时还通过设置多重奖励函数以进一步平衡机械臂的探索与利用，设置奖励引导以实现网络的快速收敛。

本实施例还提供了一种多机械臂多目标寻找的方法，下面结合附图对所述方法作具体介绍。

如图7所示，所述方法包括：

步骤S402、基于所述的训练方法获取目标策略网络及目标价值网络构建多机械臂智能体。

步骤S404、基于所述多机械臂智能体进行多目标寻找。

为了确保训练后的多机械臂在新场景下进行目标寻找时的可靠性，如图8所示，在步骤S402之前包括：

步骤S401.2、判断所述多机械臂为第一次在相应实际场景下应用时，基于模拟演练平台对所述多机械臂多目标寻找过程进行演练。

步骤S401.4、判断演练过程中无碰撞发生，且各机械臂均到达目标时，基于所述多机械臂进行所述实际场景下的多目标寻找。

此时将基于模拟平台的演练对多机械臂多目标寻找过程进行预演，以确保在实际应用时无碰撞无异常发生，进而确保目标寻找的顺利进行。

由于所述方法基于经上述训练方法得到的机械臂进行，因此在未知的新场景下也可快速准确的进行多目标寻找。同时由于引入模拟演练机制，进一步确保了目标寻找过程的顺利进行。

上述程序可以运行在处理器中，或者也可以存储在存储器中（或称为计算机可读存储介质），计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

基于此，本实施例还提供了一种多机械臂多目标寻找的训练装置。如图9所示，所述训练装置包括：

第一获取模块，用于基于常规轨迹规划算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内。

第一训练模块，用于基于多机械臂与多目标间的相对位置自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，并基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络。

第二获取模块，用于基于所述预训练策略网络及所述预训练价值网络进行多机械臂与多目标的交互以获取若干第二训练样本，并存储所述若干第二训练样本于第二经验池内。

由于所述训练装置用于执行所述训练方法的步骤，因此此前已经介绍的不再赘述。

所述第一获取模块包括：

获取单元，用于获取各机械臂与各目标间的当前相对位置，并基于聚类算法以所述当前相对位置为起点对各机械臂与各目标进行匹配，并基于RRT算法对各机械臂进行轨迹规划。

构建单元，用于基于规划的轨迹指导机械臂执行动作，并获取环境反馈给机械臂的奖励，及各机械臂与各目标间的下一时刻相对位置以构建一第一训练样本并存入第一经验池内。

例如，第一训练模块及第二训练模块均包括：

遗忘单元，用于基于遗忘门保存上一时刻第一训练样本及第二训练样本中携带的机械臂的终止位置、寻找的目标位置及末端执行器的姿态至当前记忆单元；

输入单元，用于基于输入门保存当前时刻第一训练样本及第二训练样本中携带的机械臂的起始位置、寻找的目标位置及预执行的各执行器的姿态至当前记忆单元；

输出单元，用于基于输出门输出所述遗忘门及所述输入门保存的信息以获取第一记忆样本及第二记忆样本。

例如，第一训练模块及第二训练模块均包括：

设置单元，用于设置若干引导目标及与每一引导目标相应的引导奖励值；其中，引导目标为机械臂末端执行器与目标间的距离阈值；所述距离阈值的数值越小，对应的引导奖励值越大；

判断单元，用于判断机械臂末端执行器与目标间的实际距离达到相应的引导目标时，赋予其相应的引导奖励值。

本实施例还提供了一种电子设备。包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述的方法。

本实施例还一种计算机可读存储介质。其上存储有计算机程序，所述计算机程序用于执行所述的方法。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种多机械臂多目标寻找的训练方法，其特征在于，包括：

基于RRT算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；

基于多机械臂与多目标间的相对位置自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本，并基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络；

其中，在基于所述第一记忆样本对初始策略网络及初始价值网络进行迭代更新以获取预训练策略网络及预训练价值网络，以及基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络时，以奖励函数的值最大，以及每一时刻相应动作的熵最大为约束对所述初始策略网络及初始价值网络，以及所述预训练策略网络及预训练价值网络进行迭代更新直至到达预设的迭代阈值；其中，所述奖励函数包括单一奖励函数及团队奖励函数，所述单一奖励函数用于在任一机械臂到达目标时赋予该机械臂奖励值，或在任一机械臂发生碰撞时赋予该机械臂惩罚值；所述团队奖励函数用于在所有机械臂均到达相应目标时赋予所有机械臂奖励值；所述单一奖励函数及所述团队奖励函数均包括：距离惩罚项、时间惩罚项及动作惩罚项；

在所述自所述第一经验池内选取第一训练样本输入LSTM网络以获取第一记忆样本，以及所述自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本时，包括：首先，基于遗忘门保存上一时刻第一训练样本及第二训练样本中携带的机械臂的终止位置、寻找的目标位置及末端执行器的姿态至当前记忆单元；其次，基于输入门保存当前时刻第一训练样本及第二训练样本中携带的机械臂的起始位置、寻找的目标位置及预执行的各执行器的姿态至当前记忆单元；然后，基于输出门输出所述遗忘门及所述输入门保存的信息以获取第一记忆样本及第二记忆样本；

在基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络时，包括：首先，设置若干引导目标及与每一引导目标相应的引导奖励值；其中，引导目标为机械臂末端执行器与目标间的距离阈值；所述距离阈值的数值越小，对应的引导奖励值越大；其次，判断机械臂末端执行器与目标间的实际距离达到相应的引导目标时，赋予其相应的引导奖励值。

2.根据权利要求1所述的多机械臂多目标寻找的训练方法，其特征在于，所述基于RRT算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；包括：

重复执行基于聚类算法及RRT算法的轨迹规划，并基于规划的轨迹指导机械臂与目标间交互以获取若干第一训练样本直至所述第一经验池内的数据量到达其最大存储容量。

3.一种多机械臂多目标寻找的方法，其特征在于，包括：

基于权利要求1-2任一项所述的训练方法获取目标策略网络及目标价值网络构建多机械臂智能体；

基于所述多机械臂智能体进行多目标寻找。

4.一种多机械臂多目标寻找的训练装置，其特征在于，包括：

第一获取模块，用于基于RRT算法进行多机械臂动作选择以实现多机械臂与多目标的前期交互，并获取若干第一训练样本以存入第一经验池内；

第二训练模块，用于基于多机械臂与多目标间的相对位置自所述第二经验池内选取第二训练样本输入LSTM网络以获取第二记忆样本，并基于所述第二记忆样本对所述预训练策略网络及预训练价值网络进行迭代更新以获取目标策略网络及目标价值网络；

5.根据权利要求4所述的多机械臂多目标寻找的训练装置，其特征在于，所述第一获取模块包括：

循环单元，用于重复执行基于聚类算法及RRT算法的轨迹规划，并基于规划的轨迹指导机械臂与目标间交互以获取若干第一训练样本直至所述第一经验池内的数据量到达其最大存储容量。

6.一种电子设备，其特征在于，包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述权利要求1-2中任一项所述的训练方法。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于执行所述权利要求1-2任一项所述的训练方法。