CN116900538B

CN116900538B - 基于深度强化学习和区域平衡的多机器人任务规划方法

Info

Publication number: CN116900538B
Application number: CN202311181782.9A
Authority: CN
Inventors: 穆朝絮; 张俊楠; 王珂; 张勇; 周三平; 高泽华; 唐卓; 姜泽武
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-01-09
Anticipated expiration: 2043-09-14
Also published as: CN116900538A

Abstract

本发明提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法。该方法包括：生成用于单机器人焊接路径规划模型训练的样本数据集，构建基于深度神经网络的单机器人焊接路径规划模型；利用训练样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型；利用区域平衡方法将焊接任务区域划分为多个焊接子区域，将多个焊接子区域分配给多个焊接机器人；每个焊接机器人根据所负责的焊接子区域，通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果；每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个焊接任务区域的焊接作业。

Description

基于深度强化学习和区域平衡的多机器人任务规划方法

技术领域

本发明涉及多机器人协作任务规划技术领域，特别是涉及一种基于深度强化学习和区域平衡的多机器人任务规划方法以及电子设备。

背景技术

汽车焊装是工业机器人应用的重要场景之一，整车焊装生产线具有数百台机器人进行协同焊装，多机器人焊接工艺规划严重影响整车制造成本与生产效率。为优化配置机器人资源，提高车身制造的效率和质量，须对机器人焊接任务合理规划，将诸多焊点分配给各焊接机器人，并进行有序焊接。然而，多机器人焊接任务规划包括多机器人焊接任务分配、单机器人焊接次序规划等多重 NP-Hard 子问题，是一个高度耦合的优化问题。

目前多数工厂采用专家调优的方法进行多机器人任务规划，机器人轨迹由人工示教编程完成，该方法存在生产成本高、环境适应能力差等缺陷，而且难以保证同一工位中机器人运动时间平衡，故在生产过程中，机器人等待时间较长。目前的研究通常采用蚁群算法、粒子群算法和遗传算法等传统智能算法，在面对焊点数量众多的大型构件时，难以获得高效的优化结果，导致机器人运行时间长，生产效率低等问题。因此，多机器人任务规划问题是整车焊装工艺规划中的重要挑战之一。

发明内容

鉴于上述问题，本发明提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法，以期至少能够解决上述问题之一。

根据本发明的第一个方面，提供了一种基于深度强化学习和区域平衡的多机器人任务规划方法，包括：

生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型；

利用样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型；

利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将多个焊接子区域分配给多个焊接机器人，其中，每个焊接机器人负责一个焊接子区域；

每个焊接机器人根据所负责的焊接子区域，通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果；

每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个焊接任务区域的焊接作业。

根据本发明的实施例，上述生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型包括：

在预设尺度的二维平面上生成多组数据集，每个数据集包含多个节点，其中，每个数据集中的第一个节点为焊接机器人的位置坐标，每个数据集中的其余节点为焊点的位置坐标，将多组数据集作为单机器人焊接路径规划模型训练的样本数据集；

单机器人焊接路径规划模型采用基于深度神经网络的编码器-解码器结构，焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序。

根据本发明的实施例，上述编码器执行以下功能：

将数据集作为编码器的输入，利用图注意力网络模块计算数据集中每个节点与其多个邻域节点之间的注意力系数，并将多个邻域节点的注意力系数进行加权求和，并将加权求和结果作为数据集中每个节点的特征向量并进行输出。

根据本发明的实施例，上述解码器包括执行以下功能：

将数据集中所有节点的特征向量的最大值作为全局嵌入向量，并将数据集中每个节点的特征向量和全局嵌入向量作为解码器的输入，利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率，将数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率，并将焊点被访问的概率作为解码器的输出。

根据本发明的实施例，上述利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率包括：

将全局嵌入向量、数据集中第一个节点的特征向量进行拼接以便组成图上下文嵌入向量，利用图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量，通过多头注意力机制重新构造图上下文嵌入向量；

利用重新构造的图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量，通过单头注意力机制计算数据集中第二个节点到最后一个节点被访问的概率。

根据本发明的实施例，上述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序包括：

将焊点被访问的概率由大到小排序，焊接机器人依据排序对焊点进行焊接操作。

根据本发明的实施例，上述利用样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型包括：

利用预设的损失函数和预设的奖励函数并通过带基准的强化学习算法对单机器人焊接路径规划模型进行训练，直到满足预设的训练迭代次数，得到训练完成的单机器人焊接路径规划模型。

根据本发明的实施例，上述利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将多个焊接子区域分配给多个焊接机器人包括：

将焊接任务区域内的焊点根据纵坐标的大小进行排序，并根据排序结果和预设的水平划分条件，对焊接任务区域进行水平划分，得到多个水平子区域；

将水平子区域内的焊点根据横坐标的大小进行排序，并根据排序结果和预设的垂直划分条件依次对多个水平子区域进行垂直划分，得到多个焊接子区域；

将多个焊接子区域分配给多个焊接机器人。

根据本发明的实施例，上述预设的水平划分条件包括：

在焊接任务区域内焊点的数量为奇数的情况下，初始的水平划分线的纵坐标为第（n+1）/2个焊点的纵坐标；

在焊接任务区域内焊点的数量为偶数的情况下，初始的水平划分线的纵坐标为第n/2个焊点的纵坐标；

预设的垂直划分条件包括：

在水平子区域内焊点的数量为奇数的情况下，初始的垂直划分线的横坐标为第（n+1）/2个焊点的横坐标；

在水平子区域内焊点的数量为偶数的情况下，初始的垂直划分线的横坐标为第n/2个焊点的横坐标。

根据本发明的第二个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行基于深度强化学习和区域平衡的多机器人任务规划方法。

本发明提供的上述基于深度强化学习和区域平衡的多机器人任务规划方法通过结合深度强化学习和区域平衡算法，能够处理巨大作业区域和海量作业点的任务规划问题，提高了多机器人任务规划的效率和准确性，为求解组合优化问题提供一种全新的思路。此外，深度强化学习方法通过训练神经网络模型对给定的算例构造出符合要求的解，且模型对不同规模的算例具有很好的泛化能力，减小了对特定问题和特定领域知识的依赖程度；区域平衡方法减小了问题求解的复杂性，加快了任务规划问题的求解速度。

附图说明

图1是根据本发明实施例的基于深度强化学习和区域平衡的多机器人任务规划方法的流程图；

图2是根据本发明实施例的单机器人焊接路径规划模型的结构示意图；

图3是根据本发明实施例的焊接作业区域分配方法的流程图；

图4是根据本发明实施例的汽车装配件焊点分布示意图；

图5是根据本发明实施例的多机器人焊接任务规划结果图；

图6示意性示出了根据本发明实施例的适于实现基于深度强化学习和区域平衡的多机器人任务规划方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

近年来，随着大数据和人工智能技术的快速发展，深度强化学习方法被广泛应用于决策问题中。面对巨大的搜索空间和数据点，将深度学习的感知能力与强化学习的推理能力相结合是一个合理的方案。深度强化学习方法主要以端到端的形式输出解，通过训练神经网络模型对给定的算例构造出符合要求的解，且模型对不同规模的算例具有很好的泛化能力。此方法减轻了对特定问题和特定领域知识的依赖程度，为求解组合优化问题提供一种全新的思路。

图1是根据本发明实施例的基于深度强化学习和区域平衡的多机器人任务规划方法的流程图。

如图1所示，上述基于深度强化学习和区域平衡的多机器人任务规划方法包括操作S110~操作S150。

在操作S110，生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型。

根据本发明的实施例，上述生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型包括：在预设尺度的二维平面上生成多组数据集，每个数据集包含多个节点，其中，每个数据集中的第一个节点为焊接机器人的位置坐标，每个数据集中的其余节点为焊点的位置坐标，将多组数据集作为单机器人焊接路径规划模型训练的样本数据集；单机器人焊接路径规划模型采用基于深度神经网络的编码器-解码器结构，焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序。

在操作S120，利用样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型。

在操作S130，利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将多个焊接子区域分配给多个焊接机器人，其中，每个焊接机器人负责一个焊接子区域。

在操作S140，每个焊接机器人根据所负责的焊接子区域，通过训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果。

在操作S150，每个焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个焊接任务区域的焊接作业。

根据本发明的实施例，上述编码器执行以下功能：将数据集作为编码器的输入，利用图注意力网络模块计算数据集中每个节点与其多个邻域节点之间的注意力系数，并将多个邻域节点的注意力系数进行加权求和，并将加权求和结果作为数据集中每个节点的特征向量并进行输出。

根据本发明的实施例，上述解码器包括执行以下功能：将数据集中所有节点的特征向量的最大值作为全局嵌入向量，并将数据集中每个节点的特征向量和全局嵌入向量作为解码器的输入，利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率，将数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率，并将焊点被访问的概率作为解码器的输出。

根据本发明的实施例，上述利用解码器的策略网络模块计算数据集中第二个节点到最后一个节点被访问的概率包括：将全局嵌入向量、第一个节点的特征向量进行拼接，组成图上下文嵌入向量，利用图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量，通过多头注意力机制重新构造图上下文嵌入向量；利用重新构造的图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量，通过单头注意力机制计算数据集中第二个节点到最后一个节点被访问的概率，第二个节点到最后一个节点被访问的概率为所有焊点被访问的概率。

根据本发明的实施例，焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序包括将焊点被访问的概率由大到小排序，焊接机器人依据所述排序对焊点进行焊接操作。

根据本发明的实施例，利用所述样本数据集并通过强化学习对单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型包括：利用预设的损失函数和预设的奖励函数并通过带基准的强化学习算法对单机器人焊接路径规划模型进行训练，直到满足预设的训练迭代次数，得到训练完成的单机器人焊接路径规划模型。

根据本发明的实施例，上述预设的损失函数如公式（1）所示：（1），

其中，为累积奖励，/>为基准函数，/>为状态/>下采取策略/>的概率，/>表示单机器人焊接路径规划模型的参数，通过梯度下降法对参数/>进行更新，/>表示数学期望。

根据本发明的实施例，在对单机器人焊接路径规划模型训练过程中，奖励函数设置为所有焊点焊接路程总和的负值，如公式（2）所示：（2），

其中，表示采取策略/>时，样本数据集中第/>个焊点的坐标信息。

下面结合具体实施例方式，对上述单机器人焊接路径规划模型的训练过程做进一步详细地说明。

根据焊接机器人和焊点的位置坐标，构建深度神经网络的单机器人焊接路径规划模型，通过强化学习对单机器人路径规划模型进行训练，依据训练好的模型完成单机器人焊接路径规划，输出单机器人进行焊接操作的焊点排序。

焊接机器人和焊点的位置坐标，其特征在于，在长宽分别为1m×1m的二维空间中生成训练样本数据集，每组数据包含N个节点坐标，定义单个焊接机器人对应的节点标号为，坐标为/>，定义n个焊点对应的节点标号为/>，坐标为/>。

图2是根据本发明实施例的单机器人焊接路径规划模型的结构示意图。单机器人焊接路径规划模型总体采用编码-解码的结构，分为编码器部分和解码器部分。

在编码器部分，将数据集作为编码器的输入，利用图注意力网络模块计算数据集中每个节点与其多个邻域节点之间的注意力系数，并将多个邻域节点的注意力系数进行加权求和，采用多头注意力机制来增加模型稳定性，输出数据集中每个节点的特征向量。

在解码器部分，解码器包含1个策略网络模块，将数据集中所有节点的特征向量的最大值作为全局嵌入向量，并将数据集中每个节点的特征向量和全局嵌入向量作为解码器的输入，策略网络的解码过程分为两部分，第一部分：多头注意力层，即将全局嵌入向量、第一个节点的特征向量（即焊接机器人的特征向量）进行拼接，组成图上下文嵌入向量，利用图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量（即焊点的特征向量），通过多头注意力机制重新构造图上下文嵌入向量；第二部分：单头注意力层，即利用重新构造的图上下文嵌入向量和数据集中第二个节点到最后一个节点的特征向量，通过单头注意力机制计算数据集中第二个节点到最后一个节点被访问的概率，第二个节点到最后一个节点被访问的概率为所有焊点被访问的概率。

将解码器输出的焊点被访问的概率由大到小排序，焊接机器人依据排序对焊点进行焊接操作。

在强化学习对单机器人焊接路径规划模型进行训练的过程中，通过带基准的Reinforce算法来训练模型，利用梯度下降法对模型参数进行更新。

根据本发明的实施例，上述利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将多个焊接子区域分配给多个焊接机器人包括：将焊接任务区域内的焊点根据纵坐标的大小进行排序，并根据排序结果和预设的水平划分条件，对焊接任务区域进行水平划分，得到多个水平子区域；将水平子区域内的焊点根据横坐标的大小进行排序，并根据排序结果和预设的垂直划分条件依次对多个水平子区域进行垂直划分，得到多个焊接子区域；将多个焊接子区域分配给多个焊接机器人。

根据本发明的实施例，上述预设的水平划分条件包括：在焊接任务区域内焊点的数量为奇数的情况下，初始的水平划分线的纵坐标为第（n+1）/2个焊点的纵坐标；在焊接任务区域内焊点的数量为偶数的情况下，初始的水平划分线的纵坐标为第n/2个焊点的纵坐标；

上述预设的垂直划分条件包括：在水平子区域内焊点的数量为奇数的情况下，初始的垂直划分线的横坐标为第（n+1）/2个焊点的横坐标；在水平子区域内焊点的数量为偶数的情况下，初始的垂直划分线的横坐标为第n/2个焊点的横坐标。

图3是根据本发明实施例的焊接作业区域分配方法的流程图。下面结合附图3以及具体实施例对上述利用区域平衡方法将焊接任务区域划分为多个焊接子区域的方法做进一步详细地的说明。

根据焊点坐标大小依次设置分割线，将工作区域划分为多个部分，用单机器人路径规划训练好的模型求解每个区域的行程，从而优化出每个机器人的任务分配结果。

首先，定义焊接机器人集合R=[R1,R2,...,Rm]，其中m为机器人数量，本实例中m=1，位置分布在焊接平面xOy的边界顶点处，将所有的焊点根据y坐标（即纵坐标）的大小进行排列，取平行于x轴的分割线l1，当焊点总数为奇数时，取l1的初始y坐标为第（n+1）/2个焊点的y坐标，当焊点总数为偶数时，取l1的初始y坐标为第n/2个焊点的y坐标，从而将原来的工作区域分割为Z1和Z2两部分，位于分割线上的焊点随机分配给两部分区域，用单机器人路径规划训练好的模型分别求解两部分区域焊点的焊接路径，并计算焊接行程S1和S2，以为优化目标，沿焊接行程较大的区域方向按焊点坐标排序依次移动分割线l1，直至满足优化目标。

然后，将Z1和Z2两部分区域的焊点根据x坐标（即横坐标）的大小分别进行排序，取平行于y轴的分割线l2和l3，当各区域内焊点总数为奇数时，分别取l2和l3的初始x坐标为第（n+1）/2个焊点的x坐标，当焊点总数为偶数时，分别取l2和l3的初始x坐标为第n/2个焊点的x坐标，分别将Z1分割为Z3和Z4两部分，Z2分割为Z5和Z6两部分，位于分割线上的焊点随机分配给两部分区域，用单机器人路径规划训练好的模型分别求解Z3和Z4两部分区域焊点的焊接路径，并计算焊接行程S3和S4，以为优化目标，沿焊接行程较大的区域方向按焊点坐标排序依次移动分割线l2，直至满足优化目标；同理，用单机器人路径规划训练好的模型分别求解Z5和Z6两部分区域焊点的焊接路径，并计算焊接行程S5和S6，以/>为优化目标，沿焊接行程较大的区域方向按焊点坐标排序依次移动分割线l₃，直至满足优化目标。

图4是根据本发明实施例的汽车装配件焊点分布示意图。

图5是根据本发明实施例的多机器人焊接任务规划结果图。

在具体实施过程中，取一个焊点数为91的汽车装配件焊接实例，在二维平面内完成焊接任务规划，汽车装配件焊点分布如图4所示；通过本发明所提出的多机器人任务规划方法完成多机器人焊接任务分配和单机器人焊接路径规划，结果如图5所示。

如图6所示，根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储部分608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器 601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备600还可以包括输入/输出（I/O）接口605，输入/输出（I/O）接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习和区域平衡的多机器人任务规划方法，其特征在于，包括：

利用所述样本数据集并通过强化学习对所述单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型；

利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将所述多个焊接子区域分配给多个焊接机器人，其中，每个焊接机器人负责一个所述焊接子区域；

每个所述焊接机器人根据所负责的焊接子区域，通过所述训练完成的单机器人焊接路径规划模型得到所负责焊接子区域的焊接任务规划结果；

每个所述焊接机器人根据自身的焊接任务规划结果对所负责的焊接子区域进行焊接操作，进而完成整个所述焊接任务区域的焊接作业；

其中，生成用于单机器人焊接路径规划模型训练的样本数据集，并构建基于深度神经网络的单机器人焊接路径规划模型包括：

在预设尺度的二维平面上生成多组数据集，每个数据集包含多个节点，其中，所述每个数据集中的第一个节点为焊接机器人的位置坐标，所述每个数据集中的其余节点为焊点的位置坐标，将所述多组数据集作为单机器人焊接路径规划模型训练的样本数据集；

所述单机器人焊接路径规划模型采用基于深度神经网络的编码器-解码器结构，所述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序；

其中，所述编码器执行以下功能：

将所述数据集作为编码器的输入，利用图注意力网络模块计算所述数据集中每个节点与其多个邻域节点之间的注意力系数，并将多个邻域节点的注意力系数进行加权求和，并将加权求和结果作为所述数据集中每个节点的特征向量并进行输出；

其中，所述解码器包括执行以下功能：

将所述数据集中所有节点的特征向量的最大值作为全局嵌入向量，并将所述数据集中每个节点的特征向量和所述全局嵌入向量作为所述解码器的输入，利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率，将所述数据集中第二个节点到最后一个节点被访问的概率作为焊点被访问的概率，并将所述焊点被访问的概率作为解码器的输出；

其中，利用所述解码器的策略网络模块计算所述数据集中第二个节点到最后一个节点被访问的概率包括：

将所述全局嵌入向量、所述数据集中第一个节点的特征向量进行拼接以便组成图上下文嵌入向量，利用所述图上下文嵌入向量和所述数据集中第二个节点到最后一个节点的特征向量，通过多头注意力机制重新构造图上下文嵌入向量；

利用所述重新构造的图上下文嵌入向量和所述数据集中第二个节点到最后一个节点的特征向量，通过单头注意力机制计算所述数据集中第二个节点到最后一个节点被访问的概率；

其中，所述焊接机器人依据解码器的输出确定要进行焊接操作的焊点排序包括：

将所述焊点被访问的概率由大到小排序，所述焊接机器人依据所述排序对焊点进行焊接操作；

其中，利用所述样本数据集并通过强化学习对所述单机器人焊接路径规划模型进行训练，得到训练完成的单机器人焊接路径规划模型包括：

利用预设的损失函数和预设的奖励函数并通过带基准的强化学习算法对所述单机器人焊接路径规划模型进行训练，直到满足预设的训练迭代次数，得到所述训练完成的单机器人焊接路径规划模型。

2.根据权利要求1所述的方法，其特征在于，利用区域平衡方法将焊接任务区域划分为多个焊接子区域，并将所述多个焊接子区域分配给多个焊接机器人包括：

将所述焊接任务区域内的焊点根据纵坐标的大小进行排序，并根据排序结果和预设的水平划分条件，对所述焊接任务区域进行水平划分，得到多个水平子区域；

将所述水平子区域内的焊点根据横坐标的大小进行排序，并根据排序结果和预设的垂直划分条件依次对所述多个水平子区域进行垂直划分，得到多个焊接子区域；

将多个焊接子区域分配给所述多个焊接机器人。

3.根据权利要求2所述的方法，其特征在于，所述预设的水平划分条件包括：

在所述焊接任务区域内焊点的数量为奇数的情况下，初始的水平划分线的纵坐标为第（n+1）/2个焊点的纵坐标；

在所述焊接任务区域内焊点的数量为偶数的情况下，初始的水平划分线的纵坐标为第n/2个焊点的纵坐标；

所述预设的垂直划分条件包括：

在所述水平子区域内焊点的数量为奇数的情况下，初始的垂直划分线的横坐标为第（n+1）/2个焊点的横坐标；

在所述水平子区域内焊点的数量为偶数的情况下，初始的垂直划分线的横坐标为第n/2个焊点的横坐标。

4.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~3中任一项所述的方法。