CN116834018A

CN116834018A - 一种多机械臂多目标寻找的训练方法及训练装置

Info

Publication number: CN116834018A
Application number: CN202310981142.XA
Authority: CN
Inventors: 刘鹏; 张真; 李曼; 秦敏轩; 梁彦龙; 高秀斌
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-10-03

Abstract

本发明属于机械臂设计技术领域，提供了一种多机械臂多目标寻找的训练方法、方法及训练装置。所述训练方法包括：基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验；以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值；进而获得训练后的各机械臂；其中，所述强化学习算法中的奖励函数包括：第一奖励函数、第二奖励函数及第三奖励函数。本发明确保了基于强化学习算法进行多机械臂多目标寻找时的快速收敛，从而满足当前工业场景对机械臂的新需求。

Description

一种多机械臂多目标寻找的训练方法及训练装置

技术领域

本发明涉及机械臂设计技术领域，具体涉及一种多机械臂多目标寻找的训练方法及训练装置。

背景技术

现有技术中同一工业场景下一般仅有1～2个机械臂参与，且这些机械臂对应的抓取或操作目标唯一且固定。因此采用RRT等传统算法训练该机械臂在预设的固定轨迹中执行重复的目标寻找任务即可。

但随着工业现代化的发展，为了提高工业生产效率，需要若干个机械臂在同一场景下进行若干个随机目标的寻找；此时，类似于RRT的传统轨迹规划算法则完全无法适用。虽然在部分场景中已将强化学习引入了机械臂的目标查找中。但一方面，由于机械臂在执行任务中基于连续动作进行，导致单一机械臂的运动空间及状态空间即接近无穷，此时在若干个机械臂的参与下，总动作空间及总状态空间都呈指数级增加，进而导致维度爆炸。从而导致强化学习网络训练过程中计算量极大，难以收敛。另一方面，随着机械臂数目的增加及目标的随机化，碰撞情况也越加严重；该情况将导致难以收集到有用的数据，从而也导致训练发散。

这些均导致经强化学习训练的多个机械臂无法顺利完成多个随机目标寻找，进而导致机械臂无法适应当前的工业现代化发展需求。

发明内容

本发明目的在于提供一种多机械臂多目标寻找的训练方法及训练装置；以改善现有技术中基于强化学习进行多机械臂多目标寻找时难以收敛的技术问题。

为达成上述目的，本发明提出如下技术方案：

第一方面，本技术方案提供了一种多机械臂多目标寻找的训练方法。包括：

基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验；

以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值，进而获得训练后的各机械臂；

其中，所述强化学习算法中的奖励函数包括：第一奖励函数、第二奖励函数及第三奖励函数，所述第一奖励函数用于表示任意两个机械臂发生碰撞，所述第二奖励函数用于表示任一机械臂单独寻找到目标，且其他机械臂未发生碰撞；所述第三奖励函数用于表示所有机械臂均寻找到目标；

所述第一奖励函数、所述第二奖励函数及所述第三奖励函数均包括第一奖励项及第二奖励项，所述第一奖励项包括距离惩罚项及时间惩罚项，所述第二奖励项包括动作惩罚项。

进一步的，所述以所述预训练经验作为相应机械臂积累的先验知识；包括：

以规划后的轨迹作为状态动作序列，并对所述状态动作序列进行拆分以形成若干状态-动作对；其中，所述状态为机械臂与目标间的相对位置，所述动作为在所述状态下机械臂的自身位置调整及姿态调整；

以所述状态-动作对中的状态作为特征，动作作为相应的标签构建训练样本；

基于所述训练样本对相应的机械臂进行训练以积累先验知识。

进一步的，所述基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值；包括：

设置若干个机械臂末端执行器与目标间的距离阈值；

判断机械臂末端执行器与目标间的实际距离小于任一距离阈值时，即基于相应的所述奖励函数给予奖励。

进一步的，所述基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值，进而获得训练后的各机械臂包括：

以所述机械臂作为智能体构建价值网络及随机策略网络；

以奖励值最大，以及每一状态下采取的机械臂的最优姿态的熵最大为约束对所述价值网络及所述随机策略网络进行迭代更新直至到达预设的迭代阈值；进而获得最优的价值网络及随机策略网络；

基于所述最优的价值网络及随机策略网络更新机械臂智能体，以得到所述训练后的机械臂。

第二方面，本技术方案提供了一种多机械臂多目标寻找的方法。包括：

基于所述的训练后的机械臂进行多机械臂多目标寻找。

进一步的，所述基于所述的训练后的机械臂进行多机械臂多目标寻找之前包括：

判断所述多机械臂为第一次在相应实际场景下应用时，基于模拟演练平台对所述多机械臂多目标寻找过程进行演练；

判断演练过程中无碰撞发生，且各机械臂均到达目标时，基于所述多机械臂进行所述实际场景下的多目标寻找。

第三方面，本技术方案提供了一种多机械臂多目标寻找的训练装置。包括：

预训练模块，用于基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验；

迭代训练模块，用于以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值；进而获得训练后的各机械臂；

进一步的，所述预训练模块包括：

配对单元，用于以规划后的轨迹作为状态动作序列，并对所述状态动作序列进行拆分以形成若干状态-动作对；其中，所述状态为机械臂与目标间的相对位置，所述动作为在所述状态下机械臂的自身位置调整及姿态调整；

样本单元，用于以所述状态-动作对中的状态作为特征，动作作为相应的标签构建训练样本；

训练单元，基于所述训练样本对相应的机械臂进行训练以积累先验知识。

第四方面，本技术方案提供了一种电子设备。包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述的方法。

第五方面，本技术方案提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于执行所述的方法。

有益效果：

由以上技术方案可知，本发明提供了一种多机械臂多目标寻找的训练方法以改善当前将强化学习应用至多机械臂多目标寻找时存在的模型无法收敛的技术缺陷。

考虑到基于强化学习进行多机械臂多目标寻找模型无法收敛的原因一方面在于：总动作空间和总状态空间出现的维度爆炸，而算法难以在此类大量级空间内搜到到合适的动作；另一方面在于：碰撞问题的加剧导致难以产生有用的交互数据。因此本技术方案中基于常规轨迹规划算法对各机械臂进行了预训练。具体的，基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验。此时，再以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练时，机械臂采取动作的随机性会大幅度减小，一方面即使在大量级的动作空间内也快速搜索到合适的动作，另一方面在进行探索时碰撞问题也会相应减小从而获得足够多的有效数据。

同时，在基于强化学习算法进行机械臂的后续训练时，考虑到训练后的多机械臂进行多目标寻找时仍需要具有足够的探索性，即所述训练后的多机械臂具有足够的泛性以满足不同未知场景下的多目标寻找需求。对强化学习算法的奖励函数进行针对性设置。具体的，一方面，设置奖励函数包括：第一奖励函数、第二奖励函数及第三奖励函数，所述第一奖励函数用于表示任意两个机械臂发生碰撞，所述第二奖励函数用于表示任一机械臂单独寻找到目标，且其他机械臂未发生碰撞；所述第三奖励函数用于表示所有机械臂均寻找到目标。通过该类设置多重奖励的方式以细化各种情况下的奖励；进而避免惩罚过大，机械臂不作为，不去探索尝试；惩罚过小，机械臂容易发生碰撞。另一方面，具体设置所述第一奖励函数、所述第二奖励函数及所述第三奖励函数均包括第一奖励项及第二奖励项，所述第一奖励项包括距离惩罚项及时间惩罚项，所述第二奖励项包括动作惩罚项；从而使所述多重奖励函数考虑到各方面的因素以提高合理性，从而使机械臂进行更加正向合理的探索。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本实施例所述的多机械臂多目标寻找的训练方法的流程图；

图2为本实施例进行预训练经验获取的流程图；

图3为本实施例中年以预训练经验作为机械臂内置先验知识的流程图；

图4为本实施例基于阈值进行机械臂奖励的流程图；

图5为本实施例基于强化学习进行迭代训练的流程图；

图6为本实施例所述的多机械臂多目标寻找的方法的流程图；

图7为本实施例中在新场景下进行多机械臂多目标寻找的预处理流程图；

图8为本实施例所述的多机械臂多目标寻找的训练装置的结构框图；

图9为本实施例所述的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。

现有部分场景下，为了满足若干个机械臂在同一场景下进行若干个随机目标的寻找，虽然将强化学习引入了机械臂的目标查找中。但由于若干个机械臂的参与下总动作空间及总状态空间都呈指数级增加时出现的维度爆炸，以及愈加严重的碰撞情况导致的有用数据难以获取，均导致在多机械臂多目标寻找时，强化学习网络难以收敛。因此本实施例旨在提供一种多机械臂多目标寻找的训练方法以改善现有强化学习应用于目标寻找时存在的上述技术缺陷。

下面结合附图所示，对本实施例所述的多机械臂多目标寻找的训练方法作具体介绍。

如图1所示，所述方法包括：

步骤S102、基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验。

作为一种具体的实施方式，如图2所示，所述步骤S102包括：

步骤S1022、获取各机械臂及各目标的初始坐标。

步骤S1024、以各机械臂为中心点，按预设的欧氏距离对各目标进行聚类；以获取各机械臂对应查找的若干目标。

步骤S1026、以各所述机械臂的初始坐标作为其起始位置坐标，对应查找的各目标的初始坐标作为其终止位置坐标，每次进行姿态变换时对应的坐标作为其若干分解的位置坐标，并将它们引入getPath函数进行轨迹规划。

在具体实施时，由于每次进行姿态变换时的姿态具有不确定性，因此此处引入了常用的若干种姿态以作为每次姿态变换时的目标姿态。

步骤S104、以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值，进而获得训练后的各机械臂。

此时在步骤S104中由于以步骤S102的结果作为机械臂的先验知识，因此基于强化学习算法进行机械臂与目标间的交互迭代训练时，机械臂采取动作的随机性会大幅度减小，一方面即使在大量级的动作空间内也快速搜索到合适的动作，另一方面在进行探索时碰撞问题也会相应减小从而获得足够多的有效数据。

考虑到步骤S102可能会导致机械臂在强化学习算法下的探索性降低，从而导致训练后的机械臂泛性降低，无法适用于各类未知的场景。因此设置所述强化学习算法中的奖励函数包括：第一奖励函数、第二奖励函数及第三奖励函数，所述第一奖励函数用于表示任意两个机械臂发生碰撞，所述第二奖励函数用于表示任一机械臂单独寻找到目标，且其他机械臂未发生碰撞；所述第三奖励函数用于表示所有机械臂均寻找到目标。此时，通过该类设置多重奖励的方式以细化各种情况下的奖励，以对机械臂进行有效的探索引导。同时，设置所述第一奖励函数、所述第二奖励函数及所述第三奖励函数均包括第一奖励项及第二奖励项，所述第一奖励项包括距离惩罚项及时间惩罚项，所述第二奖励项包括动作惩罚项。进而使所述多重奖励函数考虑到各方面的因素以提高合理性，从而使机械臂进行更加正向合理的探索。

本实施例中，所述距离惩罚项包括所述机械臂的末端至所述预设目标间的欧式距离；所述时间惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度时的消耗时长；所述动作惩罚项包括所述机械臂执行所述当前时刻最优的各关节的转动量及转动速度后其与自身起点间的相对位置。

例如在具体实施时，若两个机械臂发生碰撞，则结束本次epoch，并基于第一奖励函数给予运动的机械臂-0.05的奖励值；若某个机械臂单独到达其目标，且其他机械臂没有碰撞，则基于第二奖励函数给予该机械臂+0.01的奖励值；若所有机械臂的目标末端执行器都触摸到目标，则结束本次epoch，并基于第三奖励函数给予所述机械臂+1的奖励值。

作为一种具体的实施方式，如图3所示，以所述预训练经验作为相应机械臂内置积累的先验知识时，具体通过如下方法进行：

步骤S10402、以规划后的轨迹作为状态动作序列，并对所述状态动作序列进行拆分以形成若干状态-动作对。

本步骤中，所述状态为机械臂与目标间的相对位置，所述动作为在所述状态下机械臂的自身位置调整及姿态调整。所述姿态调整由机械臂的各关节的转动量及转动速度决定。具体的，进行所述状态动作序列拆分时基于步骤S1026中的姿态变换进行。

步骤S10404、以所述状态-动作对中的状态作为特征，动作作为相应的标签构建训练样本。

步骤S10406、基于所述训练样本对相应的机械臂进行训练以积累先验知识。

作为一种具体的实施方式，进行迭代训练时为了对机械臂进行进一步有效引导以使其能快速准确的到达目标位置，具体如图4所示，通过如下步骤进行：

步骤S10422、设置若干个机械臂末端执行器与目标间的距离阈值。

本实施例中，数值从大到小排列，共设置了5个阈值，分别为0.08cm、0.06cm、0.04cm、0.02cm及0.01cm。

步骤S10424、判断机械臂末端执行器与目标间的实际距离小于任一距离阈值时，即基于相应的所述奖励函数给予奖励。

此时基于步骤S10422-步骤S10424将通过设置多个阈值奖励的方式给予机械臂探索信息，以鼓励其完成更高要求的任务。

作为一种具体的实施方式，如图5所示，通过如下方式进行机械臂的迭代训练：

步骤S10442、以所述机械臂作为智能体构建价值网络及随机策略网络。

步骤S10444、以奖励值最大，以及每一状态下采取的机械臂的最优姿态的熵最大为约束对所述价值网络及所述随机策略网络进行迭代更新直至到达预设的迭代阈值；进而获得最优的价值网络及随机策略网络。

步骤S10446、基于所述最优的价值网络及随机策略网络更新机械臂智能体，以得到所述训练后的机械臂。

在基于步骤S10442-步骤S10446进行机械臂迭代训练时，由于引入了随机策略网络，因此进一步提高了训练后机械臂的探索性，使其在其他未知场景下也可有良好的应用。

由上述可见，本实施例所述的多机械臂多目标寻找的训练方法，同时引入了模仿学习和强化学习进行训练，以使机械臂智能体在训练过程中快速收敛。同时，一方面，为了确保机械臂的探索能力，引入了随机策略网络；另一方面，设置了多重奖励函数，及阈值奖励的引导方式；以鼓励机械臂进行正向积极探索。从而避免了模仿学习造成的探索局限性，使训练后的多机械臂在任何未知场景下均可快速准确的进行多目标的寻找。

本技术方案还提供了一种多机械臂多目标寻找的方法。下面结合附图对其作具体介绍。

如图6所示，所述方法包括：

步骤S202、基于所述的训练后的机械臂进行多机械臂多目标寻找。

为了确保训练后的多机械臂在新场景下进行目标寻找时的可靠性，如图7所示，在步骤S202之前包括：

步骤S2012、判断所述多机械臂为第一次在相应实际场景下应用时，基于模拟演练平台对所述多机械臂多目标寻找过程进行演练。

步骤S2014、判断演练过程中无碰撞发生，且各机械臂均到达目标时，基于所述多机械臂进行所述实际场景下的多目标寻找。

此时将基于模拟平台的演练对多机械臂多目标寻找过程进行预演，以确保在实际应用时无碰撞无异常发生，进而确保目标寻找的顺利进行。

由于所述方法基于经上述训练方法得到的机械臂进行，因此在未知的新场景下也可快速准确的进行多目标寻找。同时由于引入模拟演练机制，进一步确保了目标寻找过程的顺利进行。

上述程序可以运行在处理器中，或者也可以存储在存储器中(或称为计算机可读存储介质)，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

基于此，本实施例还提供了一种多机械臂多目标寻找的训练装置。如图8所示，所述训练装置包括：

预训练模块，用于基于聚类算法对各机械臂与各目标进行匹配，并基于固定轨迹规划算法对各机械臂进行轨迹规划以使其寻找到与之匹配的各目标；进而以规划后的轨迹作为各相应机械臂的预训练经验。

迭代训练模块，用于以所述预训练经验作为相应机械臂积累的先验知识，并基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值；进而获得训练后的各机械臂。

其中，所述强化学习算法中的奖励函数包括：第一奖励函数、第二奖励函数及第三奖励函数，所述第一奖励函数用于表示任意两个机械臂发生碰撞，所述第二奖励函数用于表示任一机械臂单独寻找到目标，且其他机械臂未发生碰撞；所述第三奖励函数用于表示所有机械臂均寻找到目标；所述第一奖励函数、所述第二奖励函数及所述第三奖励函数均包括第一奖励项及第二奖励项，所述第一奖励项包括距离惩罚项及时间惩罚项，所述第二奖励项包括动作惩罚项。

由于所述训练装置用于执行所述训练方法的步骤，因此此前已经介绍的不再赘述。

例如，所述预训练模块包括：

配对单元，用于以规划后的轨迹作为状态动作序列，并对所述状态动作序列进行拆分以形成若干状态-动作对；其中，所述状态为机械臂与目标间的相对位置，所述动作为在所述状态下机械臂的自身位置调整及姿态调整。

样本单元，用于以所述状态-动作对中的状态作为特征，动作作为相应的标签构建训练样本。

例如，所述迭代训练模块包括：

设置单元，用于设置若干个机械臂末端执行器与目标间的距离阈值；

判断单元，用于判断机械臂末端执行器与目标间的实际距离小于任一距离阈值时，即基于相应的所述奖励函数给予奖励。

再例如，所述迭代训练模块还包括：

网络构建单元，用于以所述机械臂作为智能体构建价值网络及随机策略网络；

网络迭代单元，用于以奖励值最大，以及每一状态下采取的机械臂的最优姿态的熵最大为约束对所述价值网络及所述随机策略网络进行迭代更新直至到达预设的迭代阈值；进而获得最优的价值网络及随机策略网络；

智能体更新单元，用于基于所述最优的价值网络及随机策略网络更新机械臂智能体，以得到所述训练后的各机械臂。

由于所述训练系统基于所述训练方法搭建，因此在实际应用时，具有训练过程中收敛速度快优势，且训练后的机械臂仍保有良好的探索能力。

同时，本实施例还提供了一种电子设备。如图9所示，包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述的方法。

再者，本实施例还提供了一种计算机可读存储介质。其上存储有计算机程序，所述计算机程序用于执行所述的方法。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种多机械臂多目标寻找的训练方法，其特征在于，包括：

2.根据权利要求1所述的多机械臂多目标寻找的训练方法，其特征在于，所述以所述预训练经验作为相应机械臂积累的先验知识；包括：

3.根据权利要求1所述的多机械臂多目标寻找的训练方法，其特征在于，所述基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值；包括：

设置若干个机械臂末端执行器与目标间的距离阈值；

4.根据权利要求1所述的多机械臂多目标寻找的训练方法，其特征在于，所述基于强化学习算法进行机械臂与目标间的交互迭代训练直至到达预设的迭代阈值，进而获得训练后的各机械臂包括：

以所述机械臂作为智能体构建价值网络及随机策略网络；

基于所述最优的价值网络及随机策略网络更新机械臂智能体，以得到所述训练后的各机械臂。

5.一种多机械臂多目标寻找的方法，其特征在于，包括：

基于权利要求1-4任一项所述的训练后的机械臂进行多机械臂多目标寻找。

6.根据权利要求5所述的多机械臂多目标寻找的方法，其特征在于，所述基于所述的训练后的机械臂进行多机械臂多目标寻找之前包括：

7.一种多机械臂多目标寻找的训练装置，其特征在于，包括：

8.根据权利要求7所述的多机械臂多目标寻找的训练装置，其特征在于，所述预训练模块包括：

9.一种电子设备，其特征在于，包括至少一个处理器，所述处理器与存储器耦合，所述存储器内存储有计算机程序，所述计算机程序被配置为被所述处理器运行时执行所述权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于执行所述权利要求1-4任一项所述的方法。