CN116673968A

CN116673968A - 基于强化学习的机械臂轨迹规划要素选择方法及系统

Info

Publication number: CN116673968A
Application number: CN202310966905.3A
Authority: CN
Inventors: 刘鹏; 张真; 秦敏轩; 李曼; 梁彦龙; 高秀斌
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-01
Anticipated expiration: 2043-08-03
Also published as: CN116673968B

Abstract

本发明提供的基于强化学习的机械臂轨迹规划要素选择方法及系统，涉及机械臂控制领域；方法包括：构建场景文件，获取初始状态机械臂尖端的第一坐标和若干目标点的第二坐标，确定机械臂轨迹的目标点顺序列表；获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；采用蒙特卡洛树搜索，对第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得各机械臂姿态可执行轨迹方案的第一概率；根据目标点顺序列表和第一概率计算第一坐标至最终目标点的命令顺序列表；根据命令顺序列表执行仿真运行。本发明通过引入强化学习达到自动规划目标点顺序列表和机械臂姿态的目的，实现在不同的环境中自主训练寻找最合适的轨迹规划方案。

Description

基于强化学习的机械臂轨迹规划要素选择方法及系统

技术领域

本发明涉及机械臂控制技术领域，具体涉及一种基于强化学习的机械臂轨迹规划要素选择方法及系统。

背景技术

在机械臂生产运行中，为了使机械臂尖端的设备抵达目标位置，需要对机械臂进行轨迹规划；而对于单机械臂在执行多目标任务时，使用自动化智能化的方式实现轨迹规划是个难题。机械臂轨迹规划一般需要输入机械臂的当前位置、目标位置和尖端姿态；在多目标任务流程中，不同的目标选择顺序与尖端姿态都会有不同的轨迹规划方案；众多轨迹规划方案中只有部分方案满足机械臂运行限制，因此需要对机械臂的轨迹规划方法进行设计，设计时首要任务是进行轨迹规划要素的选择。

发明内容

本发明目的在于提供一种基于强化学习的机械臂轨迹规划要素选择方法及系统，通过引入强化学习，构建策略网络和价值网络，训练模型以达到自动规划选择合适的目标点或机械臂姿态的目的，从而能在不同的环境中自主训练寻找最合适的轨迹规划方案。

为达成上述目的，本发明提出如下技术方案：

第一方面，提出一种基于强化学习的机械臂轨迹规划要素选择方法，包括：

构建机械臂工作的场景文件，并在所述场景文件中获取第一坐标和若干第二坐标；其中，所述第一坐标为初始状态机械臂尖端的位置坐标，所述第二坐标为各目标点的位置坐标；

根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表；

获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；其中，所述第一姿态集合中至少包括两种机械臂姿态；

采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得选择各所述机械臂姿态由所述第一坐标运动至所述目标点顺序列表最终目标点的可执行轨迹方案的第一概率；其中，所述第一概率由执行选择的所述机械臂姿态抵达所述最终目标点的奖励值总和与规划可执行轨迹方案的总次数得到；

根据所述目标点顺序列表选取轨迹目标点，自所述第一坐标优先选择概率值最高的所述机械臂姿态进行轨迹计算，并当所述机械臂姿态获得可执行路径时，保存该路径参数至命令顺序列表中，再顺序选择下一个目标点进行计算，直到所述目标点顺序列表中所有目标点均计算出合适的运动轨迹后输出命令顺序列表；当所述目标点选择一概率值最高的机械臂姿态后在其下一目标点未获得可执行路径，则排除该所述概率值最高的机械臂姿态根据、再依据概率由高至低的顺序选择顺次的所述机械臂姿态进行轨迹计算，直至所述下一个目标点均能计算出可执行路径后输出所述第一坐标至所述目标点顺序列表最终目标点的命令顺序列表；

在所述场景文件中，根据所述命令顺序列表对所述机械臂执行仿真运行。

进一步的，采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括：

选取所述目标点顺序列表中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第一策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为N*1维度，N为所述第一姿态集合中机械臂姿态的数目；所述第一策略网络采用蒙特卡洛树搜索，使用上限置信区间算法随机选择一所述机械臂姿态计算所述机械臂在当前轨迹点至所述下一目标点的轨迹方案，并当计算的所述机械臂姿态下获得可执行轨迹方案时设定该姿态下的轨迹规划结果值为1，否则设定为0；

根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达该目标点和姿态的轨迹方案后，将抵达该目标点的所述机械臂状态作为下一次所述第一策略网络的输入；

遍历执行抵达所述目标点顺序列表的各目标点，直至获得抵达所述目标点顺序列表最终目标点的轨迹方案；

基于所述第一价值网络，评价执行所述姿态集合中各所述机械臂姿态下获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述机械臂姿态下获得由所述第一坐标至所述最终目标点的可执行轨迹方案时，所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。

进一步的，所述确定机械臂轨迹的目标点顺序列表的过程，包括：

计算各所述第二坐标与所述第一坐标的欧氏距离，筛选属于所述机械臂工作范围内的所有目标点，建立可完成目标列表；

确定存放在所述目标点顺序列表中的第一个目标点，所述第一个目标点为所述可完成目标列表中与所述第一坐标的所述欧氏距离最小的目标点；

以所述第一个目标点为下一所述机械臂尖端的初始位置，计算所述第一个目标点与所述可完成目标列表中未被选择的目标点的欧氏距离，存放与所述第一个目标点欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表的第二个目标点；

以所述目标点顺序列表最新确定的目标点为下一所述机械臂尖端的初始位置，重复执行计算下一所述机械臂尖端的初始位置与所述可完成目标列表中未被选择的目标点的欧氏距离，并选择所述可完成目标列表中与下一所述机械臂尖端的初始位置欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表下一目标点，直至所述可完成目标列表中的所有目标点都顺序存放在所述目标点顺序列表中。

获取第二姿态集合，建立基于强化学习的第二策略网络和第二价值网络；其中，所述第二姿态集合中至少包括两种机械臂姿态；

采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率；所述第二概率由执行选择的所述下一个目标点计算获得遍历集合中所有目标点的可执行轨迹方案的奖励值总和与规划可执行轨迹方案的总次数得到；

根据所述第二概率确定所述目标点顺序列表，所述目标点顺序列表由所述机械臂运动轨迹的各目标点及其顺序构成；其中，所述机械臂运动轨迹为将所述目标点集合中概率值最高的所述目标点作为下一个目标点进行轨迹计算，获得的遍历集合中所有目标点的可执行轨迹方案。

进一步的，所述采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率的过程，包括：

采用蒙特卡洛树搜索，使用上限置信区间算法随机选择所述目标点集合中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第二策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为M*1维度，M为所述目标点集合中目标点的数目；

所述第二策略网络判断所述下一个目标点是否为已经被选择的目标点，当所述下一个目标点为未被选择的目标点时，遍历所述第二姿态集合的所述机械臂姿态，计算任一所述机械臂姿态下所述机械臂在当前轨迹点运动至所述下一目标点的轨迹方案，并设定获得可执行轨迹方案的所述机械臂姿态的轨迹规划结果值为1，否则设定为0；

根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达所述下一个目标点后，将抵达该目标点的所述机械臂状态作为下一次所述第二策略网络的输入，并循环执行在所述目标点集合中随机下一个目标点，直至所述目标点集合中所有目标点均已计算获得可执行轨迹方案或所有剩余的目标点均不能计算获得可执行轨迹方案；

基于所述第二价值网络，评价执行所述目标点集合中各选定下一个目标点获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述下一个目标点为已经被选择的目标点时，所述奖励值设置为负数；当所述下一个目标点为未被选择的目标点，且计算得到由所述下一个目标点遍历集合中所有目标点的可执行轨迹方案，则所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。

第二方面，提出一种基于强化学习的机械臂轨迹规划要素选择系统，该系统包括：

构建获取建立模块，用于构建机械臂工作的场景文件，并在所述场景文件中获取第一坐标和若干第二坐标；其中，所述第一坐标为初始状态机械臂尖端的位置坐标，所述第二坐标为各目标点的位置坐标；

确定模块，用于根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表；

获取建立模块，用于获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；其中，所述第一姿态集合中至少包括两种机械臂姿态；

训练模块，用于采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得选择各所述机械臂姿态由所述第一坐标运动至所述目标点顺序列表最终目标点的可执行轨迹方案的第一概率；其中，所述第一概率由执行选择的所述机械臂姿态抵达所述最终目标点的奖励值总和与规划可执行轨迹方案的总次数得到；

轨迹计算模块，根据所述目标点顺序列表选取轨迹目标点，自所述第一坐标优先选择概率值最高的所述机械臂姿态进行轨迹计算，并当所述机械臂姿态获得可执行路径时，保存该路径参数至命令顺序列表中，再顺序选择下一个目标点进行计算，直到所述目标点顺序列表中所有目标点均计算出合适的运动轨迹后输出命令顺序列表；当所述目标点选择一概率值最高的机械臂姿态后在其下一目标点未获得可执行路径，则排除该所述概率值最高的机械臂姿态根据、再依据概率由高至低的顺序选择顺次的所述机械臂姿态进行轨迹计算，直至所述下一个目标点均能计算出可执行路径后输出所述第一坐标至所述目标点顺序列表最终目标点的命令顺序列表；

仿真执行模块，用于在所述场景文件中，根据所述命令顺序列表对所述机械臂执行仿真运行。

进一步的，所述第一训练模块采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括如下执行单元：

第一选取单元，用于选取所述目标点顺序列表中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第一策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为N*1维度，N为所述第一姿态集合中机械臂姿态的数目；所述第一策略网络采用蒙特卡洛树搜索，使用上限置信区间算法随机选择一所述机械臂姿态计算所述机械臂在当前轨迹点至所述下一目标点的轨迹方案，并当计算的所述机械臂姿态下获得可执行轨迹方案时设定该姿态下的轨迹规划结果值为1，否则设定为0；

第二选取单元，用于根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达该目标点和姿态的轨迹方案后，将抵达该目标点的所述机械臂状态作为下一次所述第一策略网络的输入；

遍历执行单元，用于遍历执行抵达所述目标点顺序列表的各目标点，直至获得抵达所述目标点顺序列表最终目标点的轨迹方案；

第一评价单元，用于基于所述第一价值网络，评价执行所述姿态集合中各所述机械臂姿态下获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述机械臂姿态下获得由所述第一坐标至所述最终目标点的可执行轨迹方案时，所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。

进一步的，所述确定模块根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表的执行单元，包括：

获取单元，用于获取第二姿态集合，建立基于强化学习的第二策略网络和第二价值网络；其中，所述第二姿态集合中至少包括两种机械臂姿态；

训练单元，用于采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率；所述第二概率由执行选择的所述下一个目标点计算获得遍历集合中所有目标点的可执行轨迹方案的奖励值总和与规划可执行轨迹方案的总次数得到；

第一确定单元，用于根据所述第二概率确定所述目标点顺序列表，所述目标点顺序列表由所述机械臂运动轨迹的各目标点及其顺序构成；其中，所述机械臂运动轨迹为将所述目标点集合中概率值最高的所述目标点作为下一个目标点进行轨迹计算，获得的遍历集合中所有目标点的可执行轨迹方案。

第三方面，提出一种电子设备，包括至少一个处理器；所述处理器与存储器耦合，所述存储器用于存储一条或多条计算指令，其中，所述一条或多条计算机指令被所述处理器运行时执行以实现上述的基于强化学习的机械臂轨迹规划要素选择方法的步骤。

第四方面，提出一种可读存储介质，其上存储有程序或指令，所述程序或指令被处理器执行时实现如上述的基于强化学习的机械臂轨迹规划要素选择方法的步骤。

由以上技术方案可知，本发明的技术方案获得了如下有益效果：

本发明公开的基于强化学习的机械臂轨迹规划要素选择方法及系统，其方法包括：构建机械臂工作的场景文件，获取初始状态机械臂尖端的第一坐标和若干目标点的第二坐标；根据第一坐标和各第二坐标，确定机械臂轨迹的目标点顺序列表；获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得选择各所述机械臂姿态由所述第一坐标运动至所述目标点顺序列表最终目标点的可执行轨迹方案的第一概率；根据目标点顺序列表和第一概率计算第一坐标至目标点顺序列表最终目标点的命令顺序列表；根据命令顺序列表执行仿真运行。本发明通过引入强化学习达到自动规划目标点顺序列表和机械臂姿态的目的，训练速度快，较短时间即可实现在不同的环境中自主训练寻找最合适的轨迹规划方案。

本发明的要素选择方法将机械臂目标点的选择顺序、尖端姿态选择与机械臂轨迹规划的结合，实现对场景文件中任意目标点都能进行快速地轨迹规划训练。强化学习中，采用蒙特卡洛树搜索方式，使用策略网络和价值网络进行要素选择的训练，并使用上限置信区间算法平衡对要素选择的随机训练，以避免训练次数不平衡的情况。此外，本发明还通过对规划的命令顺序列表表示的轨迹方案进行实时仿真验证，对机械臂轨迹进行可视化验证，充分提高该轨迹真实应用的可靠性。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不表示按照真实参照物比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本申请实施例公开的机械臂轨迹规划要素选择方法整体流程图；

图2为本申请实施例公开的根据第一姿态集合进行强化训练的流程图；

图3为本申请实施例公开的确定目标点顺序列表流程图一；

图4为本申请实施例公开的确定目标点顺序列表流程图二；

图5为本申请实施例公开的根据目标点集合进行强化训练的流程图；

图6为根据本申请实施例的一种电子设备的示意图；

图7为本申请实施例公开的机械臂轨迹规划要素选择系统框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件，并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

基于现有技术中在机械臂多目标的工作任务中，由于机械臂的当前位置、目标位置和尖端姿态选择的不同会产生不同的运行轨迹，基于环境和机械臂的运行限制只有少部分轨迹能达成工作目标；因此，需要对机械臂的运行轨迹进行规划。本发明旨在于提出一种基于强化学习的机械臂轨迹规划要素选择方法及系统，通过对轨迹规划过程的关键要素进行自主选择，关键要素如机械臂姿态和目标点，实现机械臂在不同的环境中自主训练寻找最合适的轨迹规划方案的效果。

下面结合附图所示的具体实施例，对本发明公开的基于强化学习的机械臂轨迹规划要素选择方法及系统作进一步具体介绍。

结合图1所述，实施例公开的基于强化学习的机械臂轨迹规划要素选择方法，包括如下步骤：

步骤S102，构建机械臂工作的场景文件，并在所述场景文件中获取第一坐标和若干第二坐标；其中，所述第一坐标为初始状态机械臂尖端的位置坐标，所述第二坐标为各目标点的位置坐标；场景文件充分描述机械臂的实际工作环境，包括机械臂工作空间、工作空间内的障碍物等。

步骤S104，根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表；

本方案中目标点顺序列表可以按照预设条件直接选定，也可以采用机械学习进行训练实现目标点顺序的自主确定。图3示出一种按照预设条件直接确定目标点顺序列表的实施方式，包括如下步骤：步骤S302，计算各所述第二坐标与所述第一坐标的欧氏距离，筛选属于所述机械臂工作范围内的所有目标点，建立可完成目标列表；步骤S304，确定存放在所述目标点顺序列表中的第一个目标点，所述第一个目标点为所述可完成目标列表中与所述第一坐标的所述欧氏距离最小的目标点；步骤S306，以所述第一个目标点为下一所述机械臂尖端的初始位置，计算所述第一个目标点与所述可完成目标列表中未被选择的目标点的欧氏距离，存放与所述第一个目标点欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表的第二个目标点；步骤S308，以所述目标点顺序列表最新确定的目标点为下一所述机械臂尖端的初始位置，重复执行计算下一所述机械臂尖端的初始位置与所述可完成目标列表中未被选择的目标点的欧氏距离，并选择所述可完成目标列表中与下一所述机械臂尖端的初始位置欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表下一目标点，直至所述可完成目标列表中的所有目标点都顺序存放在所述目标点顺序列表中。

图4示出了通过机器学习确定目标点顺序列表的一实施方式，具体包括：步骤S402，获取第二姿态集合，建立基于强化学习的第二策略网络和第二价值网络；其中，所述第二姿态集合中至少包括两种机械臂姿态；步骤S404，采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率；所述第二概率由执行选择的所述下一个目标点计算获得遍历集合中所有目标点的可执行轨迹方案的奖励值总和与规划可执行轨迹方案的总次数得到；步骤S406，根据所述第二概率确定所述目标点顺序列表，所述目标点顺序列表由所述机械臂运动轨迹的各目标点及其顺序构成；其中，所述机械臂运动轨迹为将所述目标点集合中概率值最高的所述目标点作为下一个目标点进行轨迹计算，获得的遍历集合中所有目标点的可执行轨迹方案。

由于机械臂轨迹规划需要提供机械臂尖端的起始位置坐标、终止位置坐标和抵达终止点时机械臂姿态，其中，机械臂尖端的起始位置坐标即为当前机械臂尖端所在位置坐标，如第一坐标；机械臂尖端的终止位置坐标即为各目标点位置坐标，如第二坐标；但是由于机械臂姿态并未指定，且不同的姿态需要通过不同的机械臂运动轨迹达成，因此在确定目标点顺序列表后，需要在无限种机械臂姿态中找到合适的姿态，最终实现规划相应的运动轨迹。

步骤S106，获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；其中，所述第一姿态集合中至少包括两种机械臂姿态；

步骤S108，采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得选择各所述机械臂姿态由所述第一坐标运动至所述目标点顺序列表最终目标点的可执行轨迹方案的第一概率；其中，所述第一概率由执行选择的所述机械臂姿态抵达所述最终目标点的奖励值总和与规划可执行轨迹方案的总次数得到；实施例采用的计算方式为第一概率P ₁ =R ₁ /N ₁，其中，R ₁表示选择的所述机械臂姿态抵达所述最终目标点的奖励值总和，N ₁表示选择的所述机械臂姿态抵达所述最终目标点的规划可执行轨迹方案的总次数；

步骤S110，根据所述目标点顺序列表选取轨迹目标点，自所述第一坐标优先选择概率值最高的所述机械臂姿态进行轨迹计算，并当所述机械臂姿态获得可执行路径时，保存该路径参数至命令顺序列表中，再顺序选择下一个目标点进行计算，直到所述目标点顺序列表中所有目标点均计算出合适的运动轨迹后输出命令顺序列表；当所述目标点选择一概率值最高的机械臂姿态后在其下一目标点未获得可执行路径，则排除该所述概率值最高的机械臂姿态根据、再依据概率由高至低的顺序选择顺次的所述机械臂姿态进行轨迹计算，直至所述下一个目标点均能计算出可执行路径后输出所述第一坐标至所述目标点顺序列表最终目标点的命令顺序列表；

步骤S112，在所述场景文件中，根据所述命令顺序列表对所述机械臂执行仿真运行。

实施例中，第一姿态集合由20种常用机械臂姿态构成，第一策略网络和第一价值网络使用这20种常用机械臂姿态建立；在训练过程中，可执行轨迹方案采用将第一姿态集合中各机械臂姿态导入pyrep包中的getPath函数中进行运动轨迹计算，使用SBL算法，同时也可以采用PRM和RRT等轨迹计算算法计算轨迹。

结合图2所示，实施例采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括：步骤S202，选取所述目标点顺序列表中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第一策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为N*1维度，N为所述第一姿态集合中机械臂姿态的数目；所述第一策略网络采用蒙特卡洛树搜索，使用上限置信区间算法随机选择一所述机械臂姿态计算所述机械臂在当前轨迹点至所述下一目标点的轨迹方案，并当计算的所述机械臂姿态下获得可执行轨迹方案时设定该姿态下的轨迹规划结果值为1，否则设定为0；步骤S204，根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达该目标点和姿态的轨迹方案后，将抵达该目标点的所述机械臂状态作为下一次所述第一策略网络的输入；步骤S206，遍历执行抵达所述目标点顺序列表的各目标点，直至获得抵达所述目标点顺序列表最终目标点的轨迹方案；步骤S208，基于所述第一价值网络，评价执行所述姿态集合中各所述机械臂姿态下获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述机械臂姿态下获得由所述第一坐标至所述最终目标点的可执行轨迹方案时，所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。上述步骤实现第一策略网络的学习过程，当奖励值更新后，再重新选择一机械臂姿态开始新的一轮训练。

另外，步骤S110实现使用步骤S108训练好的系统进行验证，根据目标点顺序列表选取目标点，对每个目标点将优先选择奖励值最高的机械臂姿态进行计算，若该姿态获得合适的轨迹，将该路径的相关参数（机械臂尖端的起始位置坐标、终止位置坐标、抵达终止点时机械臂的姿态以及该路径）保存至命令顺序列表中，并选择下一个目标点进行计算，直到所有目标点均计算出合适的运动轨迹后输出结果。例如，选择目标点a的x姿态后，下一个目标点b中所有机械臂姿态均未计算出合适的路径轨迹，则从目标点顺序列表的第一个目标点开始重新计算，在目标点a处除去x姿态以外选择奖励值最高的姿态，并继续路径轨迹计算，直到获得所有目标点均计算出合适的运动轨迹后输出遍历目标点顺序列表完整轨迹的命令顺序列表。

作为一可选的实施方式，步骤S404对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率的过程可采用与机械臂姿态选择训练相似的过程，该过程包括图5所示的如下步骤：步骤S502，采用蒙特卡洛树搜索，使用上限置信区间算法随机选择所述目标点集合中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第二策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为M*1维度，M为所述目标点集合中目标点的数目；步骤S504，所述第二策略网络判断所述下一个目标点是否为已经被选择的目标点，当所述下一个目标点为未被选择的目标点时，遍历所述第二姿态集合的所述机械臂姿态，计算任一所述机械臂姿态下所述机械臂在当前轨迹点运动至所述下一目标点的轨迹方案，并设定获得可执行轨迹方案的所述机械臂姿态的轨迹规划结果值为1，否则设定为0；步骤S506，根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达所述下一个目标点后，将抵达该目标点的所述机械臂状态作为下一次所述第二策略网络的输入，并循环执行在所述目标点集合中随机下一个目标点，直至所述目标点集合中所有目标点均已计算获得可执行轨迹方案或所有剩余的目标点均不能计算获得可执行轨迹方案；步骤S508，基于所述第二价值网络，评价执行所述目标点集合中各选定下一个目标点获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述下一个目标点为已经被选择的目标点时，所述奖励值设置为负数；当所述下一个目标点为未被选择的目标点，且计算得到由所述下一个目标点遍历集合中所有目标点的可执行轨迹方案，则所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。其中，第二概率P ₂ =R ₂ /N ₂，R ₂表示选择的所述目标点抵达所述最终目标点的奖励值总和，N ₂表示选择的所述目标点抵达所述最终目标点的规划可执行轨迹方案的总次数；步骤S506在所有目标点均根据第二姿态集合计算过可执行轨迹方案后，完成一次训练，更新第二策略网络和第二价值网络的参数。

可选的，通过机器学习确定目标点顺序列表的过程还包括目标点筛选的过程，即通过计算各目标点与初始状态机械臂尖端的欧氏距离，筛选属于机械臂工作范围内的所有目标点，范围外的目标点设为不能完成的废弃点，移除出可完成目标列表。

作为另一可选的实施方式，本发明还可以直接在通过机器学习确定目标点顺序列表后，直接利用更新后的第二策略网络和第二价值网络进行验证，并确定机械臂的运动轨迹。具体为，将根据第二概率或奖励值最高的目标点规划好的运动轨迹，在场景文件中使用Coppeliasim进行仿真运行测试，若运动轨迹符合现实场景运行，且并未触碰该机械臂本体时，将该路径的相关参数（机械臂尖端的起始位置坐标、终止位置坐标、抵达终止点时机械臂的姿态以及该路径）保存至轨迹命令顺序列表中，直至所有目标点均完成，输出轨迹命令顺序列表。

作为一可选的实施方式，当本发明公开的机械臂轨迹规划要素选择方法应用于多机械臂多目标工作任务时，还包括对任意两机械臂规划的最终轨迹方案进行碰撞检测，以满足多机械臂的运行要求。

本发明公开的基于强化学习的机械臂轨迹规划要素选择方法，使用强化学习中的蒙特卡洛树搜索方式，建立策略网络和价值网络，结合上限置信区间算法平衡要素选择并进行随机训练，通过轨迹目标点的顺序选择、机械臂尖端姿态选择与机械臂轨迹规划的结合，实现快速对场景中任意多个目标点的轨迹规划。

本申请的实施例中，还提供一种电子设备，该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器运行所述计算机程序时实现上述实施例公开的基于强化学习的机械臂轨迹规划要素选择方法。以运行在计算机上的电子设备为例，如图6所示，该电子设备可以包括一个或多个（图中仅示出一个）处理器（处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器、以及用于通信功能的传输装置。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子设备的结构造成限定。

上述程序可以运行在处理器中，或者也可以存储在存储器中，即计算机可读介质中，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应于不同的方法步骤可以通过不同的模块来实现。

在本实施例中，就提供了这样一种装置或系统，该系统可以称为一种基于强化学习的机械臂轨迹规划要素选择系统，该系统如图7所示，包括：构建获取建立模块，用于构建机械臂工作的场景文件，并在所述场景文件中获取第一坐标和若干第二坐标；其中，所述第一坐标为初始状态机械臂尖端的位置坐标，所述第二坐标为各目标点的位置坐标；确定模块，用于根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表；获取建立模块，用于获取第一姿态集合，建立基于强化学习的第一策略网络和第一价值网络；其中，所述第一姿态集合中至少包括两种机械臂姿态；训练模块，用于采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练，获得选择各所述机械臂姿态由所述第一坐标运动至所述目标点顺序列表最终目标点的可执行轨迹方案的第一概率；其中，所述第一概率由执行选择的所述机械臂姿态抵达所述最终目标点的奖励值总和与规划可执行轨迹方案的总次数得到；轨迹计算模块，根据所述目标点顺序列表选取轨迹目标点，自所述第一坐标优先选择概率值最高的所述机械臂姿态进行轨迹计算，并当所述机械臂姿态获得可执行路径时，保存该路径参数至命令顺序列表中，再顺序选择下一个目标点进行计算，直到所述目标点顺序列表中所有目标点均计算出合适的运动轨迹后输出命令顺序列表；当所述目标点选择一概率值最高的机械臂姿态后在其下一目标点未获得可执行路径，则排除该所述概率值最高的机械臂姿态根据、再依据概率由高至低的顺序选择顺次的所述机械臂姿态进行轨迹计算，直至所述下一个目标点均能计算出可执行路径后输出所述第一坐标至所述目标点顺序列表最终目标点的命令顺序列表；仿真执行模块，用于在所述场景文件中，根据所述命令顺序列表对所述机械臂执行仿真运行。

由于所述系统用于实现上述基于强化学习的机械臂轨迹规划要素选择方法，因此上述已经说明的，此处不再赘述。

例如，所述第一训练模块采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括如下执行单元：第一选取单元，用于选取所述目标点顺序列表中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第一策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为N*1维度，N为所述第一姿态集合中机械臂姿态的数目；所述第一策略网络采用蒙特卡洛树搜索，使用上限置信区间算法随机选择一所述机械臂姿态计算所述机械臂在当前轨迹点至所述下一目标点的轨迹方案，并当计算的所述机械臂姿态下获得可执行轨迹方案时设定该姿态下的轨迹规划结果值为1，否则设定为0；第二选取单元，用于根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达该目标点和姿态的轨迹方案后，将抵达该目标点的所述机械臂状态作为下一次所述第一策略网络的输入；遍历执行单元，用于遍历执行抵达所述目标点顺序列表的各目标点，直至获得抵达所述目标点顺序列表最终目标点的轨迹方案；第一评价单元，用于基于所述第一价值网络，评价执行所述姿态集合中各所述机械臂姿态下获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述机械臂姿态下获得由所述第一坐标至所述最终目标点的可执行轨迹方案时，所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。

又例如，所述确定模块根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表的过程，包括：第一计算单元，用于计算各所述第二坐标与所述第一坐标的欧氏距离，筛选属于所述机械臂工作范围内的所有目标点，建立可完成目标列表；第二确定单元，用于确定存放在所述目标点顺序列表中的第一个目标点，所述第一个目标点为所述可完成目标列表中与所述第一坐标的所述欧氏距离最小的目标点；第二计算单元，用于以所述第一个目标点为下一所述机械臂尖端的初始位置，计算所述第一个目标点与所述可完成目标列表中未被选择的目标点的欧氏距离，存放与所述第一个目标点欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表的第二个目标点；重复执行单元，用于以所述目标点顺序列表最新确定的目标点为下一所述机械臂尖端的初始位置，重复执行计算下一所述机械臂尖端的初始位置与所述可完成目标列表中未被选择的目标点的欧氏距离，并选择所述可完成目标列表中与下一所述机械臂尖端的初始位置欧氏距离最小的、未被选择的所述目标点为所述目标点顺序列表下一目标点，直至所述可完成目标列表中的所有目标点都顺序存放在所述目标点顺序列表中。

又例如，所述确定模块还可以根据所述第一坐标和各所述第二坐标，采用机器学习的方式确定机械臂轨迹的目标点顺序列表的执行单元，具体包括：获取单元，用于获取第二姿态集合，建立基于强化学习的第二策略网络和第二价值网络；其中，所述第二姿态集合中至少包括两种机械臂姿态；训练单元，用于采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率；所述第二概率由执行选择的所述下一个目标点计算获得遍历集合中所有目标点的可执行轨迹方案的奖励值总和与规划可执行轨迹方案的总次数得到；第一确定单元，用于根据所述第二概率确定所述目标点顺序列表，所述目标点顺序列表由所述机械臂运动轨迹的各目标点及其顺序构成；其中，所述机械臂运动轨迹为将所述目标点集合中概率值最高的所述目标点作为下一个目标点进行轨迹计算，获得的遍历集合中所有目标点的可执行轨迹方案。

其中，训练单元采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率的过程，包括：采用蒙特卡洛树搜索，使用上限置信区间算法随机选择所述目标点集合中下一个目标点，以所述机械臂在当前轨迹点的状态作为所述第二策略网络的输入，该输入经卷积层转化成特征向量后通过全连接层得到输出层，所述输出层的输出通过Softmax函数转化为概率分布；其中，所述输出层为M*1维度，M为所述目标点集合中目标点的数目；所述第二策略网络判断所述下一个目标点是否为已经被选择的目标点，当所述下一个目标点为未被选择的目标点时，遍历所述第二姿态集合的所述机械臂姿态，计算任一所述机械臂姿态下所述机械臂在当前轨迹点运动至所述下一目标点的轨迹方案，并设定获得可执行轨迹方案的所述机械臂姿态的轨迹规划结果值为1，否则设定为0；根据所述概率分布，在所述轨迹规划结果值为1的若干所述机械臂姿态中随机选取一种所述机械臂姿态执行抵达所述下一个目标点后，将抵达该目标点的所述机械臂状态作为下一次所述第二策略网络的输入，并循环执行在所述目标点集合中随机下一个目标点，直至所述目标点集合中所有目标点均已计算获得可执行轨迹方案或所有剩余的目标点均不能计算获得可执行轨迹方案；基于所述第二价值网络，评价执行所述目标点集合中各选定下一个目标点获得的轨迹方案，以获得执行各轨迹方案的奖励值；其中，当所述下一个目标点为已经被选择的目标点时，所述奖励值设置为负数；当所述下一个目标点为未被选择的目标点，且计算得到由所述下一个目标点遍历集合中所有目标点的可执行轨迹方案，则所述奖励值设置为增加1，否则所述奖励值设置为设定增加0。

本发明实施例公开的基于强化学习的机械臂轨迹规划要素选择方法及系统，其方法包括：构建机械臂工作的场景文件；根据场景文件确定机械臂轨迹的目标点顺序列表；获取第一姿态集合，根据目标点顺序列表对第一姿态集合使用上限置信区间算法随机选择并进行强化学习，获得选择各所述机械臂姿态的可执行轨迹方案的第一概率；根据目标点顺序列表和第一概率获得命令顺序列表并执行仿真运行。本发明通过引入强化学习达到对机械臂自适应规划目标点顺序列表和选择机械臂姿态的目的，以较短时间实现机械臂在不同环境中自主训练寻找最合适轨迹规划方案的技术效果。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于强化学习的机械臂轨迹规划要素选择方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的机械臂轨迹规划要素选择方法，其特征在于，采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括：

3.根据权利要求1所述的基于强化学习的机械臂轨迹规划要素选择方法，其特征在于，所述确定机械臂轨迹的目标点顺序列表的过程，包括：

4.根据权利要求1所述的基于强化学习的机械臂轨迹规划要素选择方法，其特征在于，所述确定机械臂轨迹的目标点顺序列表的过程，包括：

5.根据权利要求4所述的基于强化学习的机械臂轨迹规划要素选择方法，其特征在于，所述采用蒙特卡洛树搜索，对目标点集合使用上限置信区间算法随机选择并进行强化训练，获得所述机械臂由所述第一坐标选择所述目标点集合中任一所述目标点作为下一个目标点计算遍历集合中所有目标点的可执行轨迹方案的第二概率的过程，包括：

6.一种基于强化学习的机械臂轨迹规划要素选择系统，其特征在于，包括：

7.根据权利要求6所述的基于强化学习的机械臂轨迹规划要素选择系统，其特征在于，所述第一训练模块采用蒙特卡洛树搜索，根据所述目标点顺序列表对所述第一姿态集合使用上限置信区间算法随机选择并进行强化训练的过程，包括如下执行单元：

8.根据权利要求6所述的基于强化学习的机械臂轨迹规划要素选择系统，其特征在于，所述确定模块根据所述第一坐标和各所述第二坐标，确定机械臂轨迹的目标点顺序列表的执行单元，包括：

9.一种电子设备，其特征在于，包括至少一个处理器；所述处理器与存储器耦合，所述存储器用于存储一条或多条计算指令，其中，所述一条或多条计算机指令被所述处理器运行时执行以实现权利要求1~5中任一项所述的基于强化学习的机械臂轨迹规划要素选择方法的步骤。

10.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的基于强化学习的机械臂轨迹规划要素选择方法的步骤。